System Design Space

    Глава 159

    Обновлено: 13 февраля 2026 г. в 23:58

    Техношоу «Дропнуто»: выпуск 1

    Прогресс части0/13

    Blameless-разбор двухнедельного инцидента в data-платформе Т-Банка: потеря метаданных, восстановление через Kafka/контракты и практические выводы по SRE для данных.

    Техношоу «Дропнуто»: выпуск 1

    Прямой эфир с честным postmortem-разбором двухнедельного инцидента в data-платформе: от первопричины до архитектурного разворота и организационных выводов.

    Формат:Live tech show / blameless postmortem
    Production:Т-Банк
    Тематика:SRE, Data Platform, ETL/DWH

    Источник

    Telegram: book_cube

    Оригинальный обзор выпуска с акцентом на SRE-практики и управленческие выводы.

    Читать обзор

    Контекст выпуска

    Выпуск выдержан в духе blameless postmortems: фокус на причинах, механике отказа и изменениях в архитектуре/процессах, а не на персональных обвинениях. Это делает выпуск полезным как для инженеров, так и для руководителей, которым нужен общий язык надежности.

    Гость и фокус экспертизы

    Александр Крашенинников

    • Практик в области платформ данных, ETL и DWH.
    • Гость первого выпуска, рассказывающий о реальном двухнедельном инциденте.
    • Акцент на инженерных и организационных выводах после восстановления сервиса.

    Цепочка инцидента

    Этап 1

    Потеря метаданных и деградация чтения

    Удаление/потеря метаданных привела к сбоям в Trino и каскадной деградации потребителей данных.

    Этап 2

    Ограничения восстановления

    Бэкапа в нужной точке не оказалось, а восстановление через CDC происходило медленно и не перекрывало потребность бизнеса.

    Этап 3

    Критический инцидент и смена подхода

    Команда перешла к новой Kafka-архитектуре с контрактами, унификацией схем и параллельными загрузками.

    Этап 4

    Валидация, ремонт расхождений и recovery

    Далее - сверка данных, исправление несоответствий, частичное восстановление сервиса и дозагрузка исторических данных из резервов.

    Связанная глава

    Data Pipeline / ETL / ELT Architecture

    Проектирование пайплайнов: orchestration, recovery и качество данных.

    Открыть главу

    Что важно инженерам

    • CDC-конвейеры удобны в эксплуатации, но требуют заранее продуманных сценариев восстановления и проверки целостности.
    • Outbox-подход снижает риск потери событий между сервисами, но не заменяет дисциплину по схемам и версиям контрактов.
    • Контракты данных и унификация схем критичны для устойчивости ETL/DWH-контуров при аварийном переключении.
    • Для pipeline-надежности важна отдельная observability для коннекторов, лагов и сбоев репликации.

    Primary source

    Google SRE: Postmortem Culture

    Базовые принципы blameless-культуры и обучения на сбоях.

    Открыть статью

    Управленческая оптика

    • Blameless postmortem снижает внутреннюю турбулентность и ускоряет переход к системным улучшениям вместо поиска виноватых.
    • Единый язык риска (severity, error budget, release freeze) помогает синхронизировать ожидания бизнеса и инженерии.
    • SLO для данных нужно формулировать в пользовательских терминах, а затем приземлять в технические метрики и алерты.
    • Инцидент в data-платформе - это не только технологический сбой, но и управленческий сигнал о зрелости процессов.

    Primary source

    Google SRE Workbook: Implementing SLOs

    Как приземлять пользовательские ожидания в измеримые цели и алертинг.

    Открыть материал

    SLI/SLO для data-платформы

    Скорость данных

    freshness, end-to-end latency, consumer lag

    Целостность

    дубликаты, пропуски, расхождения по контрольным выборкам

    Устойчивость коннекторов

    error rate, restart rate, время восстановления

    Пример пользовательского SLO: «данные в витрине свежи не старше X минут в 99.9% времени», после чего цель раскладывается в алерты и план/факт по риску.

    Ссылки и связанные главы