Обновлено: 25 июня 2026 г. в 04:34

Техношоу «Дропнуто»: выпуск 1

средний

Разбор двухнедельного инцидента без поиска виноватых в платформе данных Т-Банка: потеря метаданных, восстановление через Kafka и контракты данных, целевой уровень сервиса (SLO) для данных и инженерные/управленческие выводы.

Сильный разбор инцидента ценен не драмой, а тем, как он превращает болезненный сбой в новую модель проектных решений.

Разбор двухнедельного инцидента в платформе данных Т-Банка показывает, как потеря метаданных, восстановление через Kafka и контракты данных вскрывают реальные хрупкие места платформы.

Для ретроспектив и ревью дизайна глава полезна тем, что позволяет обсуждать разбор без поиска виноватых, живучесть метаданных, качество контрактов и пределы автоматизации на материале настоящего затяжного сбоя.

Практическая польза главы

Практика проектирования

Переводите знания о разборе инцидента в платформе данных и восстановлении после потери метаданных в конкретные эксплуатационные решения: правила оповещений, границы операционных инструкций и стратегии отката.

Качество решений

Оценивайте архитектуру через целевые уровни сервиса, бюджет ошибок, среднее время восстановления и устойчивость критического пути, а не только через функциональную полноту.

Аргументация на интервью

Структурируйте ответ вокруг жизненного цикла надёжности: сигнал деградации, реакция, локализация причины, восстановление и профилактика повторов.

Формулировка компромиссов

Явно фиксируйте компромиссы по разборе инцидента в платформе данных и восстановлении после потери метаданных: скорость релизов, уровень автоматизации, стоимость наблюдаемости и операционная сложность.

Техношоу «Дропнуто»: выпуск 1

Двухнедельный инцидент в платформе данных разбирают в прямом эфире — без сглаживания: как именно отказала система, чего не хватило при восстановлении, почему пришлось разворачивать архитектуру и какой управленческий вывод остался после.

Формат:разбор инцидента в прямом эфире
Производство:Т-Банк
Тематика:инженерия надёжности сервисов, платформа данных, извлечение, преобразование и загрузка (ETL), DWH

Источник

Telegram: Книжный куб

Оригинальный обзор выпуска с акцентом на практики инженерии надёжности сервисов и управленческие выводы.

Читать обзор

Контекст выпуска

Выпуск выдержан в духе : разговор держится на механике отказа, восстановлении и изменениях в архитектуре и процессах, а не на том, кто нажал не ту кнопку. Цена такого формата — придётся честно назвать, где не сработала система, а не человек. Поэтому выпуск читается с двух сторон: инженер видит, что чинить в конвейере, а руководитель — где зрелости процессов не хватило до сбоя.

Гость и контекст

Александр Крашенинников

  • Практик в области платформ данных, извлечения, преобразования и загрузки данных, а также DWH.
  • Гость первого выпуска, рассказывающий о реальном двухнедельном инциденте.
  • Акцент на инженерных и организационных выводах после восстановления сервиса.

Цепочка инцидента

Этап 1

Потеря метаданных и деградация чтения

привела к сбоям в Trino и у потребителей данных.

Этап 2

Восстановление оказалось недостаточным

Резервной копии на нужный момент не оказалось. Запасной путь — через — формально работал, но шёл слишком медленно: бизнес-потребители ждали данные, а они не появлялись.

Этап 3

Критический инцидент и смена подхода

Команда перешла к новой архитектуре на Kafka с , и параллельной загрузкой.

Этап 4

Сверка, исправление расхождений и восстановление

Далее пошли , исправление несоответствий, частичное восстановление сервиса и из резервов.

Связанная глава

Архитектура конвейеров данных: извлечение, преобразование и загрузка

Проектирование конвейеров данных: оркестрация, восстановление и качество данных.

Открыть главу

Что важно инженерам

  • Конвейеры удобны, пока всё работает; сценарий восстановления и проверку приходится продумывать заранее — иначе на инциденте их просто нет.
  • снижает риск потери событий между сервисами, но не заменяет дисциплину схем и версий .
  • Когда контур переключается на аварийный путь, держат его именно и : без них аналитические контуры извлечения, преобразования и загрузки данных (ETL) и DWH расходятся в первый же час переключения.
  • Для нужна отдельная : коннекторы, отставание потребителей и сбои репликации должны быть видны до жалоб пользователей.

Источник

Google SRE: Postmortem Culture

Базовые принципы разбора инцидентов без поиска виноватых и обучения на сбоях.

Открыть статью

Управленческая оптика

  • снимает внутреннюю турбулентность: команда тратит силы на причину сбоя, а не на самозащиту, и разговор быстрее доходит до системных улучшений.
  • Единый язык риска: , и помогает синхронизировать ожидания бизнеса и инженерии.
  • Сначала формулируют в терминах потребителя — «данные свежи к такому-то сроку», — и только потом раскладывают на технические метрики и оповещения; обратный порядок даёт цифры, которые бизнесу нечем проверить.
  • редко остаётся чисто технологическим сбоем — он показывает зрелость процессов: как быстро эскалировали, кто принимал решения и был ли наготове план восстановления.

Источник

Google SRE Workbook: Implementing SLOs

Как приземлять пользовательские ожидания в измеримые цели и оповещения.

Открыть материал

Показатели и целевые уровни сервиса для платформы данных

Скорость данных

, ,

Целостность

дубликаты, пропуски, расхождения при

Устойчивость коннекторов

доля ошибок, , время восстановления

Пример пользовательского целевого уровня сервиса: «данные в витрине свежи не старше X минут в 99.9% времени», после чего цель раскладывается на оповещения, риск и план восстановления.

Источники

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки