Bài 8: High Availability và Disaster Recovery trên AWS

1. Khái niệm cơ bản

1.1 High Availability (HA)

Đảm bảo hệ thống luôn sẵn sàng phục vụ, giảm thiểu downtime.
Mục tiêu: duy trì uptime cao, thường được đo bằng "9s" (ví dụ: 99.99% uptime).

1.2 Disaster Recovery (DR)

Khả năng khôi phục hệ thống sau sự cố lớn.
Bao gồm backup, restore, và kế hoạch khôi phục.

1.3 Key Metrics

RPO (Recovery Point Objective): Lượng data có thể chấp nhận mất trong sự cố.
RTO (Recovery Time Objective): Thời gian cần thiết để khôi phục hệ thống.

2. AWS Services for HA và DR

2.1 Amazon EC2 Auto Scaling

Tự động điều chỉnh số lượng EC2 instances dựa trên nhu cầu.
Giúp duy trì performance và giảm costs.

2.2 Elastic Load Balancing (ELB)

Phân phối traffic giữa nhiều targets (EC2 instances, containers).
Loại: Application Load Balancer, Network Load Balancer, Classic Load Balancer.

2.3 Amazon RDS Multi-AZ

Tự động replicate database sang một Availability Zone khác.
Failover tự động trong trường hợp primary database gặp sự cố.

2.4 Amazon S3

Cung cấp 99.999999999% durability.
Versioning để protect against accidental deletes.
Cross-Region Replication cho DR.

2.5 AWS CloudFormation

Infrastructure as Code để tái tạo environment một cách nhanh chóng và nhất quán.

2.6 Amazon Route 53

DNS service với health checks và DNS failover.

3. Designing for High Availability

3.1 Multi-AZ Deployments

Deploy resources across multiple Availability Zones.
Sử dụng Auto Scaling Groups spanning multiple AZs.

3.2 Stateless Applications

Thiết kế ứng dụng không lưu trữ state trên instances.
Sử dụng external data stores như DynamoDB hoặc ElastiCache.

3.3 Loose Coupling

Sử dụng message queues (SQS) để decoupled components.
Implement circuit breakers để prevent cascading failures.

3.4 Self-Healing

Sử dụng health checks và auto-recovery features.
Implement automated responses to failures.

4. Disaster Recovery Strategies

4.1 Backup và Restore

Characteristics: Highest RPO và RTO, lowest cost.
Implementation: Regular backups to S3, restore when needed.

4.2 Pilot Light

Characteristics: Core elements replicated và always running.
Implementation: Replicate critical systems, scale up when disaster strikes.

4.3 Warm Standby

Characteristics: Scaled-down version of full production environment always running.
Implementation: Maintain a functional, but minimal, version of environment in another region.

4.4 Multi-Site Active/Active

Characteristics: Full production environment in multiple regions.
Implementation: Use Route 53 để distribute traffic between regions.

5. Implementing DR on AWS

5.1 Data Replication

Use AWS Database Migration Service for continuous replication.
S3 Cross-Region Replication for object storage.

5.2 Network Preparation

Set up VPN or Direct Connect for secure communication between regions.
Prepare Route 53 configurations for failover.

5.3 Application và Database Considerations

Use read replicas for databases to offload read traffic.
Consider using global databases like Amazon Aurora Global Database.

5.4 Testing và Validation

Regularly test DR procedures.
Use AWS Fault Injection Simulator để simulate failures.

6. Monitoring và Automation

6.1 AWS CloudWatch

Set up alarms for key metrics.
Use CloudWatch Events để trigger automated actions.

6.2 AWS Lambda

Implement serverless functions for automated responses.

6.3 AWS Systems Manager

Use Automation documents for standardized procedures.

7. Cost Considerations

7.1 Reserved Instances

Use for predictable, always-on components of DR strategy.

7.2 Savings Plans

Consider for long-term compute commitments.

7.3 Spot Instances

Use for non-critical, interruptible workloads in DR environment.

8. Compliance và Governance

8.1 AWS Config

Track configuration changes và maintain desired configurations.

8.2 AWS CloudTrail

Monitor API activity for security analysis và auditing.

9. Best Practices

Regular Testing: Conduct DR drills frequently.
Documentation: Maintain up-to-date runbooks và procedures.
Automation: Automate as much of the DR process as possible.
Monitoring: Implement comprehensive monitoring và alerting.
Incremental Improvements: Continuously refine và improve HA và DR strategies.
Security: Ensure DR environments maintain the same security standards as production.
Data Management: Implement robust data management và protection strategies.
Cost Optimization: Regularly review và optimize costs of HA và DR implementations.

10. Advanced Concepts

10.1 Chaos Engineering

Intentionally inject failures để test system resilience.
Use tools like AWS Fault Injection Simulator.

10.2 Multi-Region Active/Active

Deploy applications across multiple regions for global availability.
Use services like Amazon DynamoDB Global Tables và Amazon Aurora Global Database.

10.3 Serverless DR

Leverage serverless services để reduce management overhead in DR scenarios.
Use services like AWS Lambda, Amazon S3, và Amazon DynamoDB.

Hiểu sâu về High Availability và Disaster Recovery trên AWS là cực kỳ quan trọng cho việc thiết kế các hệ thống có khả năng chịu lỗi cao và khôi phục nhanh chóng sau sự cố. Những kiến thức này là nền tảng cho kỳ thi SAA-C03 và sẽ giúp bạn trong việc xây dựng các giải pháp đáng tin cậy và có khả năng phục hồi trên AWS.

1. Khái niệm cơ bản​

1.1 High Availability (HA)​

1.2 Disaster Recovery (DR)​

1.3 Key Metrics​

2. AWS Services for HA và DR​

2.1 Amazon EC2 Auto Scaling​

2.2 Elastic Load Balancing (ELB)​

2.3 Amazon RDS Multi-AZ​

2.4 Amazon S3​

2.5 AWS CloudFormation​

2.6 Amazon Route 53​

3. Designing for High Availability​

3.1 Multi-AZ Deployments​

3.2 Stateless Applications​

3.3 Loose Coupling​

3.4 Self-Healing​

4. Disaster Recovery Strategies​

4.1 Backup và Restore​

4.2 Pilot Light​

4.3 Warm Standby​

4.4 Multi-Site Active/Active​

5. Implementing DR on AWS​

5.1 Data Replication​

5.2 Network Preparation​

5.3 Application và Database Considerations​

5.4 Testing và Validation​

6. Monitoring và Automation​

6.1 AWS CloudWatch​

6.2 AWS Lambda​

6.3 AWS Systems Manager​

7. Cost Considerations​

7.1 Reserved Instances​

7.2 Savings Plans​

7.3 Spot Instances​

8. Compliance và Governance​

8.1 AWS Config​

8.2 AWS CloudTrail​

9. Best Practices​

10. Advanced Concepts​

10.1 Chaos Engineering​

10.2 Multi-Region Active/Active​

10.3 Serverless DR​