System Design Space
Граф знанийНастройки

Обновлено: 15 марта 2026 г. в 19:02

Incident Management как инженерная дисциплина

medium

Как выстроить дисциплину работы с инцидентами: on-call модель, escalation policy, blameless postmortems и метрики зрелости.

Эта глава темы 11 фокусируется на incident response процессе, эскалации и postmortem-практике.

В реальном проектировании и эксплуатации систем материал помогает задавать измеримые reliability-цели, выбирать инженерные механики устойчивости и снижать стоимость инцидентов на масштабе.

Для System Design interview глава полезна тем, что формирует ясную operational-аргументацию: как вы проверяете надежность, где находятся риски деградации и какие guardrails закладываете заранее.

Практическая польза главы

Практика проектирования

Переводите знания о incident response процессе, эскалации и postmortem-практике в конкретные эксплуатационные решения: интерфейсы алертинга, runbook-границы и rollback-стратегии.

Качество решений

Оценивайте архитектуру через SLO, error budget, MTTR и устойчивость critical-path, а не только через функциональную полноту.

Interview articulation

Структурируйте ответ вокруг reliability lifecycle: сигнал деградации, реакция, локализация причины, восстановление и профилактика повторов.

Trade-off framing

Явно фиксируйте компромиссы по incident response процессе, эскалации и postmortem-практике: скорость релизов, уровень автоматизации, стоимость observability и операционная сложность.

Primary source

Google SRE: Emergency Response

Классический разбор того, как строить управляемую реакцию на инциденты в production.

Открыть источник

Incident Management - это отдельная инженерная дисциплина, а не набор ad-hoc действий во время аварии. Она определяет, как команда обнаруживает проблему, координирует on-call, принимает решения об эскалации и превращает инцидент в системные улучшения.

В связке с Observability & Monitoring Design и SLI/SLO-практикой incident management задает рабочую модель: кто отвечает за реакцию, когда нужно эскалировать и как закреплять уроки через postmortems.

Почему это дисциплина

Единая операционная модель

Incident management связывает detection, triage, mitigation, коммуникации и recovery в один управляемый процесс.

Четкие роли и ответственность

Во время инцидента команда не спорит о том, кто принимает решения: есть Incident Commander, owner сервиса и каналы эскалации.

Цикл обучения после инцидента

Blameless postmortem переводит инцидент из стресса в инженерные улучшения: action items, владельцы, сроки и контроль результата.

Incident lifecycle: от сигнала до обучения

1. Detection и triage

Сигнал из мониторинга/алерта подтверждается через impact на пользователя, после чего назначается severity и owner реакции.

2. Stabilization

Приоритет - ограничить ущерб: rollback, feature flag off, traffic shaping, отключение проблемного dependency или read-only режим.

3. Escalation

Если окно восстановления срывается или затрагивается критичный пользовательский поток, вызываются дополнительные специалисты по заранее описанным правилам.

4. Recovery

После стабилизации команда восстанавливает нормальный SLA/SLO, проверяет консистентность данных и закрывает временные workaround-механизмы.

5. Postmortem и follow-up

Команда фиксирует timeline, root cause, contributing factors и набор инженерных изменений, которые снижают риск повторения.

On-call модель

Каждый page-alert должен иметь owner, runbook и понятный expected response time.

On-call смена не должна быть «слепой»: обязательны handoff-ритуалы и актуальный контекст по рисковым зонам.

Escalation policy хранится рядом с operational документацией и регулярно тестируется на game day/симуляциях.

Дежурство проектируется как устойчивая практика: ограничение нагрузки, замена смен и понятная компенсация.

Escalation matrix

SeverityТриггерПервое действиеКого эскалируемМакс. задержка
SEV-1Недоступен критичный пользовательский путь или массовая потеря транзакцийНемедленный созвон war-room, фиксация Incident CommanderPlatform/SRE lead, security и бизнес-дежурный0-5 минут
SEV-2Сильная деградация latency/error rate без полной остановки сервисаTriage on-call + owner сервиса, ограничение blast radiusСоседние команды по зависимостям и release owner10-15 минут
SEV-3Локальная проблема без заметного бизнес-ущербаОбработка по runbook в рамках текущей сменыПри необходимости - в рабочее время продуктовой командыДо 1 часа

Postmortem: обязательный выход инцидента

Impact: кого затронул инцидент, как измеряли ущерб и как долго длилась деградация.

Timeline: хронология событий, действий и точек принятия решений.

Root cause и contributing factors: технические и процессные причины без поиска виноватых.

Action items: конкретные изменения с owner, дедлайном и ожидаемым снижением риска.

Verification: как команда проверит, что изменения действительно снизили вероятность повторения.

Метрики зрелости Incident Management

MTTD

Время от начала деградации до обнаружения

MTTA

Время до подтверждения инцидента и назначения owner

MTTR

Время до восстановления пользовательского пути

Repeat Incident Rate

Доля повторных инцидентов на одну и ту же root cause

Escalation Quality

Доля инцидентов с корректной severity и своевременной эскалацией

Частые антипаттерны

Считать, что incident management = только чат в мессенджере без ролей, SLA реакции и формального owner.

Эскалировать слишком поздно из-за страха «потревожить» соседние команды или менеджмент.

Проводить postmortem как ритуал без action items с владельцами и дедлайнами.

Оценивать on-call только по количеству закрытых алертов, игнорируя качество triage и снижение повторяемости.

Рекомендации

Описать incident lifecycle как стандарт команды: detection -> triage -> mitigation -> recovery -> learning.

Сделать escalation policy частью инженерного контракта: условия вызова, роли, каналы и SLA реакции.

Стандартизировать шаблон postmortem и связывать каждый action item с метрикой риска или MTTR.

Проводить регулярные incident drills, чтобы on-call и эскалации работали под нагрузкой, а не только на бумаге.

References

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки

System Design Space

© 2026 Александр Поломодов