장애 관리 입문 — MTTD·MTTR·인시던트 대응 기초

서비스가 다운됐을 때 “지금 뭘 해야 하지?”라고 당황한 적 있나요? 장애 관리는 이런 상황에서 팀이 침착하게 움직일 수 있는 체계를 만드는 것입니다.

장애(인시던트)란?

사용자에게 영향을 주는 예상치 못한 서비스 중단 또는 성능 저하를 인시던트(Incident)라고 합니다.

인시던트 예시:
- 결제가 안 됨 (서비스 중단)
- 로그인 페이지가 30초 걸림 (성능 저하)
- 이미지가 안 불러와짐 (부분 장애)

장애 발생부터 팀이 인지하기까지 걸리는 시간.

나쁜 예: 사용자 신고가 쌓인 뒤에야 인지 → MTTD 30분
좋은 예: 모니터링 알림으로 즉시 인지 → MTTD 2분

장애 인지부터 서비스 정상화까지 걸리는 시간.

MTTR = 탐지 시간 + 진단 시간 + 수정 시간 + 배포 시간

모든 장애를 동일하게 다루면 안 됩니다. 심각도에 따라 대응 방식이 달라집니다.

모니터링 알림 또는 사용자 신고로 장애를 인지합니다.

“이건 인시던트입니다” 라고 공식 선언하고 Slack 채널을 엽니다. 혼자 조용히 해결하려다 늦어지는 것이 가장 나쁩니다.

원인 분석보다 서비스 복구가 먼저입니다.

서비스가 정상 상태로 돌아왔음을 확인하고 공식 종료를 선언합니다.

Post-mortem을 작성해 같은 장애가 반복되지 않도록 개선합니다.

장애 관리 체계가 없다면 이것부터 시작하세요:

Week 1: Slack에 #incident 채널 만들기
Week 2: 에러율 5% 초과 알림 설정 (Prometheus or Datadog)
Week 3: 핵심 API 런북(Runbook) 1개 작성
Month 2: 온콜 로테이션 도입

이 가이드를 내 서비스에 직접 적용해 보세요.

지표	좋음	보통	나쁨
MTTD	< 5분	5~30분	> 30분
MTTR	< 30분	30분~2시간	> 2시간