Incident Management как инженерная дисциплина

Инциденты наносят ущерб не только самим падением, но и тем, насколько хаотично команда реагирует в худший момент.

Здесь incident management собирается в operating system из on-call, escalation policy, командных ролей, blameless postmortems и метрик зрелости, которая сокращает импровизацию и делает восстановление повторяемым.

В архитектурных обсуждениях глава полезна тем, что позволяет рассматривать MTTR, handoff friction, post-incident learning и цену дежурств как часть дизайна сервиса, а не как внешнюю оргнадстройку.

Практическая польза главы

Практика проектирования

Переводите знания о incident response процессе, эскалации и postmortem-практике в конкретные эксплуатационные решения: интерфейсы алертинга, runbook-границы и rollback-стратегии.

Качество решений

Оценивайте архитектуру через SLO, error budget, MTTR и устойчивость critical-path, а не только через функциональную полноту.

Interview articulation

Структурируйте ответ вокруг reliability lifecycle: сигнал деградации, реакция, локализация причины, восстановление и профилактика повторов.

Trade-off framing

Явно фиксируйте компромиссы по incident response процессе, эскалации и postmortem-практике: скорость релизов, уровень автоматизации, стоимость observability и операционная сложность.

Primary source

Google SRE: Emergency Response

Классический разбор того, как строить управляемую реакцию на инциденты в production.

Открыть источник

Incident Management - это отдельная инженерная дисциплина, а не набор ad-hoc действий во время аварии. Она определяет, как команда обнаруживает проблему, координирует on-call, принимает решения об эскалации и превращает инцидент в системные улучшения.

В связке с Observability & Monitoring Design и SLI/SLO-практикой incident management задает рабочую модель: кто отвечает за реакцию, когда нужно эскалировать и как закреплять уроки через postmortems.

Почему это дисциплина

Единая операционная модель

Incident management связывает detection, triage, mitigation, коммуникации и recovery в один управляемый процесс.

Четкие роли и ответственность

Во время инцидента команда не спорит о том, кто принимает решения: есть Incident Commander, owner сервиса и каналы эскалации.

Цикл обучения после инцидента

Blameless postmortem переводит инцидент из стресса в инженерные улучшения: action items, владельцы, сроки и контроль результата.

Incident lifecycle: от сигнала до обучения

1. Detection и triage

Сигнал из мониторинга/алерта подтверждается через impact на пользователя, после чего назначается severity и owner реакции.

2. Stabilization

Приоритет - ограничить ущерб: rollback, feature flag off, traffic shaping, отключение проблемного dependency или read-only режим.

3. Escalation

Если окно восстановления срывается или затрагивается критичный пользовательский поток, вызываются дополнительные специалисты по заранее описанным правилам.

4. Recovery

После стабилизации команда восстанавливает нормальный SLA/SLO, проверяет консистентность данных и закрывает временные workaround-механизмы.

5. Postmortem и follow-up

Команда фиксирует timeline, root cause, contributing factors и набор инженерных изменений, которые снижают риск повторения.

On-call модель

Каждый page-alert должен иметь owner, runbook и понятный expected response time.

On-call смена не должна быть «слепой»: обязательны handoff-ритуалы и актуальный контекст по рисковым зонам.

Escalation policy хранится рядом с operational документацией и регулярно тестируется на game day/симуляциях.

Дежурство проектируется как устойчивая практика: ограничение нагрузки, замена смен и понятная компенсация.

Escalation matrix

Severity	Триггер	Первое действие	Кого эскалируем	Макс. задержка
SEV-1	Недоступен критичный пользовательский путь или массовая потеря транзакций	Немедленный созвон war-room, фиксация Incident Commander	Platform/SRE lead, security и бизнес-дежурный	0-5 минут
SEV-2	Сильная деградация latency/error rate без полной остановки сервиса	Triage on-call + owner сервиса, ограничение blast radius	Соседние команды по зависимостям и release owner	10-15 минут
SEV-3	Локальная проблема без заметного бизнес-ущерба	Обработка по runbook в рамках текущей смены	При необходимости - в рабочее время продуктовой команды	До 1 часа

Postmortem: обязательный выход инцидента

Impact: кого затронул инцидент, как измеряли ущерб и как долго длилась деградация.

Timeline: хронология событий, действий и точек принятия решений.

Root cause и contributing factors: технические и процессные причины без поиска виноватых.

Action items: конкретные изменения с owner, дедлайном и ожидаемым снижением риска.

Verification: как команда проверит, что изменения действительно снизили вероятность повторения.

Метрики зрелости Incident Management

MTTD

Время от начала деградации до обнаружения

MTTA

Время до подтверждения инцидента и назначения owner

MTTR

Время до восстановления пользовательского пути

Repeat Incident Rate

Доля повторных инцидентов на одну и ту же root cause

Escalation Quality

Доля инцидентов с корректной severity и своевременной эскалацией

Частые антипаттерны

Считать, что incident management = только чат в мессенджере без ролей, SLA реакции и формального owner.

Эскалировать слишком поздно из-за страха «потревожить» соседние команды или менеджмент.

Проводить postmortem как ритуал без action items с владельцами и дедлайнами.

Оценивать on-call только по количеству закрытых алертов, игнорируя качество triage и снижение повторяемости.

References

Связанные главы

SLI / SLO / SLA и Error Budgets - задаёт базовые сигналы, через которые назначается severity и оценивается impact инцидента.
Observability & Monitoring Design - показывает, как проектировать алерты и runbooks для быстрого detection и triage.
Troubleshooting Interview - тренирует практические навыки диагностики и принятия решений во время продовых сбоев.
The Site Reliability Workbook (short summary) - дополняет главу прикладными практиками incident response, on-call и postmortem-культуры.
Эволюция SRE: внедрение AI-ассистента в Т-Банке - показывает, как incident management масштабируется через платформизацию и автоматизацию.