System Design Space
Граф знанийНастройки

Обновлено: 17 мая 2026 г. в 11:00

Техношоу «Дропнуто»: выпуск 1

средний

Разбор двухнедельного инцидента без поиска виноватых в платформе данных Т-Банка: потеря метаданных, восстановление через Kafka и контракты данных, SLO для данных и инженерные/управленческие выводы.

Сильный разбор инцидента ценен не драмой, а тем, как он превращает болезненный сбой в новую модель проектных решений.

Разбор двухнедельного инцидента в платформе данных Т-Банка показывает, как потеря метаданных, восстановление через Kafka и контракты данных вскрывают реальные хрупкие места платформы.

Для ретроспектив и ревью дизайна глава полезна тем, что позволяет обсуждать разбор без поиска виноватых, живучесть метаданных, качество контрактов и пределы автоматизации на материале настоящего затяжного сбоя.

Практическая польза главы

Практика проектирования

Переводите знания о разборе инцидента в платформе данных и восстановлении после потери метаданных в конкретные эксплуатационные решения: правила оповещений, границы операционных инструкций и стратегии отката.

Качество решений

Оценивайте архитектуру через SLO, бюджет ошибок, MTTR и устойчивость критического пути, а не только через функциональную полноту.

Аргументация на интервью

Структурируйте ответ вокруг жизненного цикла надёжности: сигнал деградации, реакция, локализация причины, восстановление и профилактика повторов.

Формулировка компромиссов

Явно фиксируйте компромиссы по разборе инцидента в платформе данных и восстановлении после потери метаданных: скорость релизов, уровень автоматизации, стоимость наблюдаемости и операционная сложность.

Техношоу «Дропнуто»: выпуск 1

Прямой эфир с честным разбором двухнедельного инцидента в платформе данных: от причины отказа до восстановления, архитектурного разворота и организационных выводов.

Формат:разбор инцидента в прямом эфире
Производство:Т-Банк
Тематика:SRE, платформа данных, ETL/DWH

Источник

Telegram: Книжный куб

Оригинальный обзор выпуска с акцентом на SRE-практики и управленческие выводы.

Читать обзор

Контекст выпуска

Выпуск выдержан в духе : фокус на механике отказа, восстановлении, изменениях в архитектуре и процессах, а не на персональных обвинениях. Это делает выпуск полезным как для инженеров, так и для руководителей, которым нужен общий язык риска и надёжности.

Гость и контекст

Александр Крашенинников

  • Практик в области платформ данных, ETL и DWH.
  • Гость первого выпуска, рассказывающий о реальном двухнедельном инциденте.
  • Акцент на инженерных и организационных выводах после восстановления сервиса.

Цепочка инцидента

Этап 1

Потеря метаданных и деградация чтения

привела к сбоям в Trino и у потребителей данных.

Этап 2

Восстановление оказалось недостаточным

Резервной копии на нужный момент не оказалось, а через шло слишком медленно для бизнес-потребителей.

Этап 3

Критический инцидент и смена подхода

Команда перешла к новой архитектуре на Kafka с , и параллельной загрузкой.

Этап 4

Сверка, исправление расхождений и восстановление

Далее пошли , исправление несоответствий, частичное восстановление сервиса и из резервов.

Связанная глава

Архитектура конвейеров данных: ETL и ELT

Проектирование конвейеров данных: оркестрация, восстановление и качество данных.

Открыть главу

Что важно инженерам

  • Конвейеры удобны в эксплуатации, но требуют заранее продуманных сценариев восстановления и проверки .
  • снижает риск потери событий между сервисами, но не заменяет дисциплину схем и версий .
  • и критичны для устойчивости аналитических контуров ETL/DWH при аварийном переключении.
  • Для нужна отдельная : коннекторы, отставание потребителей и сбои репликации должны быть видны до жалоб пользователей.

Источник

Google SRE: Postmortem Culture

Базовые принципы разбора инцидентов без поиска виноватых и обучения на сбоях.

Открыть статью

Управленческая оптика

  • снижает внутреннюю турбулентность и быстрее переводит разговор к системным улучшениям.
  • Единый язык риска: , и помогает синхронизировать ожидания бизнеса и инженерии.
  • нужно формулировать в пользовательских терминах, а затем раскладывать на технические метрики и оповещения.
  • - это не только технологический сбой, но и управленческий сигнал о зрелости процессов.

Источник

Google SRE Workbook: Implementing SLOs

Как приземлять пользовательские ожидания в измеримые цели и оповещения.

Открыть материал

SLI/SLO для платформы данных

Скорость данных

, ,

Целостность

дубликаты, пропуски, расхождения при

Устойчивость коннекторов

доля ошибок, , время восстановления

Пример пользовательского SLO: «данные в витрине свежи не старше X минут в 99.9% времени», после чего цель раскладывается на оповещения, риск и план восстановления.

Источники

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки