System Design Space
Граф знанийНастройки

Обновлено: 24 марта 2026 г. в 15:23

Техношоу «Дропнуто»: выпуск 1

medium

Blameless-разбор двухнедельного инцидента в data-платформе Т-Банка: потеря метаданных, восстановление через Kafka/контракты и практические выводы по SRE для данных.

Сильный incident review ценен не драмой, а тем, как он превращает болезненный сбой в новую модель проектных решений.

Разбор двухнедельного инцидента в data-платформе Т-Банка показывает, как потеря метаданных, восстановление через Kafka и архитектурные контракты вскрывают реальные хрупкие места data-SRE.

Для ретроспектив и design review глава полезна тем, что позволяет обсуждать blame-free analysis, metadata survivability, качество контрактов и пределы автоматизации на материале настоящего затяжного сбоя.

Практическая польза главы

Практика проектирования

Переводите знания о практическом разборе инцидента и восстановлении data-платформы в конкретные эксплуатационные решения: интерфейсы алертинга, runbook-границы и rollback-стратегии.

Качество решений

Оценивайте архитектуру через SLO, error budget, MTTR и устойчивость critical-path, а не только через функциональную полноту.

Interview articulation

Структурируйте ответ вокруг reliability lifecycle: сигнал деградации, реакция, локализация причины, восстановление и профилактика повторов.

Trade-off framing

Явно фиксируйте компромиссы по практическом разборе инцидента и восстановлении data-платформы: скорость релизов, уровень автоматизации, стоимость observability и операционная сложность.

Техношоу «Дропнуто»: выпуск 1

Прямой эфир с честным postmortem-разбором двухнедельного инцидента в data-платформе: от первопричины до архитектурного разворота и организационных выводов.

Формат:Live tech show / blameless postmortem
Production:Т-Банк
Тематика:SRE, Data Platform, ETL/DWH

Источник

Telegram: book_cube

Оригинальный обзор выпуска с акцентом на SRE-практики и управленческие выводы.

Читать обзор

Контекст выпуска

Выпуск выдержан в духе blameless postmortems: фокус на причинах, механике отказа и изменениях в архитектуре/процессах, а не на персональных обвинениях. Это делает выпуск полезным как для инженеров, так и для руководителей, которым нужен общий язык надежности.

Гость и фокус экспертизы

Александр Крашенинников

  • Практик в области платформ данных, ETL и DWH.
  • Гость первого выпуска, рассказывающий о реальном двухнедельном инциденте.
  • Акцент на инженерных и организационных выводах после восстановления сервиса.

Цепочка инцидента

Этап 1

Потеря метаданных и деградация чтения

Удаление/потеря метаданных привела к сбоям в Trino и каскадной деградации потребителей данных.

Этап 2

Ограничения восстановления

Бэкапа в нужной точке не оказалось, а восстановление через CDC происходило медленно и не перекрывало потребность бизнеса.

Этап 3

Критический инцидент и смена подхода

Команда перешла к новой Kafka-архитектуре с контрактами, унификацией схем и параллельными загрузками.

Этап 4

Валидация, ремонт расхождений и recovery

Далее - сверка данных, исправление несоответствий, частичное восстановление сервиса и дозагрузка исторических данных из резервов.

Связанная глава

Data Pipeline / ETL / ELT Architecture

Проектирование пайплайнов: orchestration, recovery и качество данных.

Открыть главу

Что важно инженерам

  • CDC-конвейеры удобны в эксплуатации, но требуют заранее продуманных сценариев восстановления и проверки целостности.
  • Outbox-подход снижает риск потери событий между сервисами, но не заменяет дисциплину по схемам и версиям контрактов.
  • Контракты данных и унификация схем критичны для устойчивости ETL/DWH-контуров при аварийном переключении.
  • Для pipeline-надежности важна отдельная observability для коннекторов, лагов и сбоев репликации.

Primary source

Google SRE: Postmortem Culture

Базовые принципы blameless-культуры и обучения на сбоях.

Открыть статью

Управленческая оптика

  • Blameless postmortem снижает внутреннюю турбулентность и ускоряет переход к системным улучшениям вместо поиска виноватых.
  • Единый язык риска (severity, error budget, release freeze) помогает синхронизировать ожидания бизнеса и инженерии.
  • SLO для данных нужно формулировать в пользовательских терминах, а затем приземлять в технические метрики и алерты.
  • Инцидент в data-платформе - это не только технологический сбой, но и управленческий сигнал о зрелости процессов.

Primary source

Google SRE Workbook: Implementing SLOs

Как приземлять пользовательские ожидания в измеримые цели и алертинг.

Открыть материал

SLI/SLO для data-платформы

Скорость данных

freshness, end-to-end latency, consumer lag

Целостность

дубликаты, пропуски, расхождения по контрольным выборкам

Устойчивость коннекторов

error rate, restart rate, время восстановления

Пример пользовательского SLO: «данные в витрине свежи не старше X минут в 99.9% времени», после чего цель раскладывается в алерты и план/факт по риску.

Дополнительные материалы

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки