Health Check

Kiểm tra sức khỏe hệ thống production sau deploy hoặc theo định kỳ.

Cú pháp

/health-check

Các hạng mục kiểm tra

1

API Health

Gọi health endpoint, kiểm tra response time và status.
curl -s https://api.site.com/health
# Expected: { "status": "ok", "uptime": "..." }
2

Database Connection

Kiểm tra kết nối PostgreSQL và Redis.
  • Connection pool status
  • Query response time
3

Third-party Services

Kiểm tra kết nối với các dịch vụ bên ngoài:
  • Payment gateway
  • Email service
  • Cloud storage
4

Error Rates

Kiểm tra tỷ lệ lỗi:
  • 5xx errors trong 15 phút gần nhất
  • Error spike bất thường
5

Performance

  • API response time (p50, p95, p99)
  • Memory usage
  • CPU usage
  • Disk usage

Output mẫu

HEALTH CHECK REPORT
├── API:           OK (response: 45ms)
├── PostgreSQL:    OK (connections: 12/50)
├── Redis:         OK (memory: 128MB/512MB)
├── Payment API:   OK
├── Email Service:  OK
├── Error Rate:    0.02% (normal)
├── Response Time: p50=42ms, p95=180ms, p99=450ms
├── Memory:        68% used
├── CPU:           23% used
└── VERDICT:       ALL SYSTEMS OPERATIONAL

Khi nào chạy

Tình huốngTần suất
Sau deployNgay lập tức
Monitoring định kỳMỗi 5-15 phút (tự động)
Khi nhận alertNgay lập tức
Đầu buổi sáng1 lần/ngày

Xử lý khi có vấn đề

  1. Kiểm tra server logs
  2. Restart service
  3. Nếu không khắc phục → rollback deploy
  4. Thông báo team

Incident Response

Khi có sự cố nghiêm trọng:
engineering:incident-response
Quy trình:
  1. Triage — Xác định mức độ nghiêm trọng
  2. Communicate — Thông báo stakeholders
  3. Fix — Khắc phục sự cố
  4. Post-mortem — Phân tích nguyên nhân, phòng ngừa