System Design Space
Граф знанийНастройки

Обновлено: 30 мая 2026 г. в 20:00

Интервью по диагностике инцидентов

средний

Формат интервью для ролей в инженерии надёжности сервисов: чтение симптомов, временная стабилизация, поиск корневой причины и отличие от системного дизайна.

Интервью по диагностике инцидентов проверяет не проектирование на пустом листе, а поведение инженера в момент, когда система уже деградирует и времени на спокойный перебор вариантов почти нет.

Глава показывает, как в таком формате оцениваются чтение симптомов, приоритизация гипотез, качество проверок и способность удерживать разговор вокруг пользовательского эффекта, а не вокруг случайных догадок.

Для компании это способ увидеть инженерную зрелость в стрессовой ситуации, а для кандидата — понятная карта ожиданий: не метаться по логам, а вести расследование последовательно, с явными приоритетами и проверяемыми версиями.

Практическая польза главы

Декомпозиция инцидента

Разбивайте проблему на плоскости: пользовательский эффект, инфраструктура, данные, релизные изменения.

Дерево гипотез

Стройте приоритизированные гипотезы с явным критерием подтверждения и стоимостью проверки.

Приоритизация сигналов

Опирайтесь на метрики, логи и трассировки, чтобы отсеивать шум и быстрее выходить на первопричину.

Коммуникация под давлением

Держите прозрачный статус, план действий и риски для стейкхолдеров во время инцидента.

Источник

Troubleshooting Interview

Материал основан на статье и выступлении Александра Поломодова на профильной конференции 2022 года.

Читать оригинал

проверяет не умение рисовать систему с чистого листа, а поведение инженера в момент, когда сервис уже деградирует. Здесь важно замечать симптомы, задавать точные вопросы, быстро сужать круг гипотез и отделять срочную стабилизацию от полноценного исправления.

Чем этот формат отличается от интервью по системному дизайну

В разговор начинается с требований и будущей архитектуры. Здесь же стартовая точка другая: система уже работает нестабильно, пользователи чувствуют проблему, и от кандидата ждут не красивой схемы, а внятного плана расследования.

Зачем компаниям нужен такой формат

Для компании

  • Надёжность всё чаще распределена по продуктовым командам, и инженеры должны уметь сами разбираться со сбоями своих сервисов.
  • В сложных экосистемах важно проверить, умеет ли кандидат думать не только про код, но и про эксплуатацию, зависимости и пользовательский ущерб.
  • Такой формат даёт сигнал о том, как человек поведёт себя в реальном инциденте под давлением времени и неполной информации.

Для кандидата

  • Можно показать зрелость не только через архитектуру, но и через реальную инцидентную логику: от чтения симптомов до выбора приоритетов.
  • Формат быстро высвечивает слабые места: где не хватает инструментов, где гипотезы расползаются, а где теряется связь с пользовательским эффектом.
  • Подготовка к таким интервью хорошо переносится в реальную работу, потому что учит вести расследование последовательно, а не хаотично.

Видеозапись

DevOps & Techlead Conf 2022

Запись выступления с объяснением формата и примерами того, как интервьюер управляет ходом расследования.

Смотреть видео

Как устроено интервью

Легенда сценария

По сценарию кандидат и интервьюер работают в одной команде . Кандидат играет роль Lead, а интервьюер отвечает за роль Junior. Lead уезжает, Junior остаётся на дежурстве, начинается инцидент, и дальше кандидат должен направлять расследование через вопросы, проверки и команды.

Важная особенность формата: интервьюер намеренно ограничен ролью менее опытного коллеги, поэтому не сможет понять абстрактные команды вроде «посмотри, что там не так». Сигнал снимается именно с точности и последовательности ваших инструкций.

Связанная глава

Интервью по системному дизайну: 7-шаговый подход

Полезно сравнить, как архитектурный разговор меняется, когда вместо проектирования нужно расследовать уже случившийся сбой.

Читать главу

Ход интервью по диагностике инцидентов

9 этапов: от вводных до выводов после инцидента
Вводные
Инцидент
Стабилизация
Разбор после инцидента
0

Вводные и правила

Интервьюер объясняет формат и границы взаимодействия в сценарии

1

Разбор архитектуры

Интервьюер показывает схему системы и проговаривает ключевые компоненты

2

Уточняющие вопросы

Кандидат проясняет детали системы и устраняет критичные неизвестные

3

Старт инцидента

Интервьюер сообщает о симптомах и пользовательском эффекте проблемы

4

Диагностика

Формулирование гипотез, выбор проверок и отсечение неверных версий

5

Временная стабилизация

Быстрые действия, которые снижают пользовательский ущерб прямо сейчас

6

Полное устранение проблемы

Исправление сбоя с понятным планом внедрения решения

7

Корневая причина

Понимание того, почему именно возникла проблема и как связаны все симптомы

8

Профилактика повторения

Изменения, которые помогут поймать проблему раньше или не допустить её снова

Нажмите «Запуск», чтобы увидеть, как по шагам развивается разговор в интервью.

Фундамент

Контейнеризация

Контейнерная платформа задаёт среду, в которой развивается инцидент и где кандидат должен ориентироваться в зависимостях.

Читать обзор

Типичный сценарий

Контекст системы

  • Несколько миллионов пользователей в день
  • Два дата-центра
  • Фронтенд на React и бэкенд на Python/Django
  • Оба приложения развёрнуты в
  • Postgres отвечает за данные, Redis используется как кэш

Симптом

Техподдержка сообщает о росте обращений: сайт заметно замедлился, а часть страниц периодически не открывается.

На первом проходе расследование часто начинают с , чтобы быстро увидеть, что происходит с потоком запросов, ошибками и длительностью, а затем дополняют картину , если нужно понять, не упёрлась ли система в загрузку ресурсов, насыщение или ошибки на конкретном узле.

Фрагмент диалога

Lead:Есть ли у нас система централизованного сбора логов, например ELK stack?
Junior:Да, есть, но я пока ориентируюсь в ней не очень уверенно. Куда смотреть в первую очередь?
Lead:Давай откроем дашборд балансировщика и посмотрим метрики запросов: количество, ошибки и длительность.
Junior:Количество запросов не выросло, зато ошибок стало больше, и средний Duration тоже подрос.
Lead:Какой тип ошибок преобладает?
Junior:Ошибки разные, но больше всего ответов со статусом 504.
Lead:Тогда идём в логи приложения и проверяем, что происходит перед таймаутами.

Как оценивают кандидата

Инструментарий

Насколько широко кандидат использует метрики, логи, трассировки, дашборды и знания об архитектуре системы.

Методичность

Насколько последовательно он формирует гипотезы, отсеивает шум и двигается от симптомов к проверкам.

Временная стабилизация

Как быстро кандидат предлагает способ снизить пользовательский ущерб, не дожидаясь полного исправления.

Полное устранение проблемы

Умеет ли кандидат довести расследование до исправления, а не остановиться на первом смягчающем действии.

Корневая причина

Понимает ли он, почему именно возникли симптомы и почему выбранное решение действительно должно сработать.

Профилактика повторения

Предлагает ли кандидат изменения в мониторинге, архитектуре или процессах, чтобы проблему поймали раньше или не допустили снова.

Пример итогового профиля

Представим кандидата, который уверенно пользуется диагностическими инструментами и идёт по задаче последовательно, но быстро находит только и не доводит разговор до полного исправления. Если при этом он ещё и не объясняет , итоговая оценка легко опустится до уровня Junior, даже если начало разговора было сильным.

Оценки по осям почти всегда различаются: сильное расследование редко выглядит как ровный профиль без перекосов.

Чем этот формат отличается от интервью по системному дизайну

Диагностика инцидента

  • На старте уже есть работающая, но деградировавшая система.
  • Цель разговора — стабилизировать ситуацию и дойти до первопричины.
  • Интервьюер проверяет качество расследования, приоритизацию действий и операционную ясность.
  • Особенно полезен для ролей в , платформенных команд и ролей, сфокусированных на надёжности.

Системный дизайн

  • Разговор начинается с требований и будущего пользовательского сценария.
  • Цель — собрать архитектуру, которая выдержит нужный масштаб и ограничения.
  • Основной сигнал — зрелость проектирования, декомпозиции и обсуждения рисков.
  • Чаще всего нужен для серверных, платформенных и продуктовых инженерных ролей.

Сильный инженерный профиль выигрывает от обоих навыков: важно не только разбирать сбои, но и строить такие системы, в которых цена инцидента становится ниже.

Как развивать этот навык

Диагностика инцидентов

Теория:

  • Практики Google по и рабочей книги Google по эксплуатации надёжных сервисов
  • Материалы по надёжности, защитным механизмам и анализу отказов
  • Системное знакомство с метриками, логами, трассировками и дашбордами

Практика:

  • Участие в и разборе реальных инцидентов
  • Чтение публичных отчётов по инцидентам и реконструкция хода расследования
  • Тренировка на сценариях, где нужно объяснить и срочную стабилизацию, и долгосрочный фикс

Системное проектирование

Теория:

  • Принципы проектирования распределённых систем и работа с ограничениями
  • Классы систем, типовые компромиссы и границы применимости решений

Практика:

  • Разбор архитектуры реальных систем и решений после инцидентов
  • Связывание постфактум-уроков с архитектурными изменениями
  • Регулярные тренировочные интервью по системному дизайну и инцидентным сценариям

Источники

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки