Эта глава фокусируется на разборе реального troubleshooting-кейса и эвристиках расследования.
В реальной работе материал помогает проектировать процесс подготовки и карьерных решений: выбирать приоритеты, структурировать сигналы и управлять риском неверной ставки на случайные практики.
Для system design interview глава полезна тем, что дает рабочий язык аргументации: как показывать инженерную зрелость, объяснять компромиссы и защищать решения под ограничением времени.
Практическая польза главы
Forensic-последовательность
Отрабатывайте порядок расследования: симптом, гипотеза, проверка, подтверждение, действие.
Изоляция root cause
Разделяйте первопричину и вторичные эффекты, чтобы mitigation не маскировал системную проблему.
Проектирование mitigation
Подбирайте меры по горизонту: срочная стабилизация, среднесрочный фикс, долгосрочный guardrail.
Postmortem articulation
На интервью четко формулируйте, что изменится в системе после инцидента и как измерите результат.
Источник
Публичное интервью на DevOops
Статья Александра Поломодова о публичном Troubleshooting интервью
После теоретического разбора формата Troubleshooting Interview полезно увидеть его в действии. На конференции DevOops 2023 было проведено публичное интервью, которое демонстрирует весь процесс от начала до конца — от описания архитектуры до разрешения инцидента.
Участники интервью
- Интервьюер: Александр Поломодов
- Кандидат: Салих Фахрутдинов, Senior SRE в Tinkoff Origination Platform
Легенда интервью
По легенде кандидат и интервьюер работают совместно в SRE-команде. Кандидат исполняет роль Lead, а интервьюер — Junior. Lead уезжает на конференцию, а Junior остается дежурить. Когда происходит инцидент, Junior делает звонок другу (нашему кандидату) и просит распутать инцидент совместно.
Такая ролевая модель создаёт реалистичную атмосферу и позволяет оценить коммуникативные навыки кандидата — как он направляет менее опытного коллегу через процесс диагностики.
Теория
Troubleshooting Interview
9-этапный фреймворк диагностики инцидентов
Архитектура системы
Перед стартом инцидента обсуждается архитектура финтех-приложения Yellow:
Масштаб
~1 млн DAU (Daily Active Users)
Функциональность
Дебетовые/кредитные карты, платежи
Интерактивная схема архитектуры
Нажмите на кнопки для переключения между путями инициализации и основным потоком данных. Используйте Play для автоматического воспроизведения.
Запуск приложения
Пользователь открывает веб или мобильное приложение
Initialization
Инцидент
Пользовательский путь
Список продуктов
Карта #1
Дебетовая • ****4521
Карта #2
Кредитная • ****8832
Платежи
Форма платежа
Перевод средств
После того как кандидат задал уточняющие вопросы по архитектуре, интервью переходит к фазе диагностики. Junior сообщает о симптоме — алерте о снижении платежей — и совместно с Lead начинается расследование причины.
Что оценивается в процессе
- •Методология диагностики — системный подход vs хаотичный поиск
- •Формулирование гипотез и их проверка
- •Использование RED/USE методов для анализа
- •Коммуникация и направление менее опытного коллеги
- •Баланс между workaround и полноценным исправлением
Ключевые выводы
Реалистичность формата
Ролевая модель "Lead + Junior" создаёт атмосферу реального инцидента и позволяет оценить не только технические, но и коммуникативные навыки.
Архитектурный контекст
Интервью начинается с детального разбора архитектуры системы — это даёт кандидату необходимый контекст для формулирования гипотез.
Практика vs теория
Просмотр реального интервью дополняет теоретические знания о формате и помогает понять, как применять методологию на практике.
References
Связанные главы
- Troubleshooting Interview - даёт теоретический 9-этапный каркас, который используется в этом практическом разборе.
- Подходы к проведению интервью по проектированию - помогает перенести структуру design-интервью на troubleshooting-сценарии.
- Оценка интервью и вариация сложности - показывает, как оценивать шаги кандидата и калибровать сложность в реальном времени.
- Site Reliability Engineering - закладывает базовые практики мониторинга, алертинга и реакции на инциденты.
- The Site Reliability Workbook - добавляет прикладные playbook-подходы для on-call и postmortem-практик.
- Release It! - систематизирует типовые отказовые режимы и resilience-паттерны для прод-систем.
