Глава 159. Техношоу «Дропнуто»: выпуск 1

Техношоу «Дропнуто»: выпуск 1

Прямой эфир с честным postmortem-разбором двухнедельного инцидента в data-платформе: от первопричины до архитектурного разворота и организационных выводов.

Формат:Live tech show / blameless postmortem

Production:Т-Банк

Тематика:SRE, Data Platform, ETL/DWH

Источник

Telegram: book_cube

Оригинальный обзор выпуска с акцентом на SRE-практики и управленческие выводы.

Читать обзор

Контекст выпуска

Выпуск выдержан в духе blameless postmortems: фокус на причинах, механике отказа и изменениях в архитектуре/процессах, а не на персональных обвинениях. Это делает выпуск полезным как для инженеров, так и для руководителей, которым нужен общий язык надежности.

Гость и фокус экспертизы

Александр Крашенинников

Практик в области платформ данных, ETL и DWH.
Гость первого выпуска, рассказывающий о реальном двухнедельном инциденте.
Акцент на инженерных и организационных выводах после восстановления сервиса.

Цепочка инцидента

Этап 1

Потеря метаданных и деградация чтения

Удаление/потеря метаданных привела к сбоям в Trino и каскадной деградации потребителей данных.

Этап 2

Ограничения восстановления

Бэкапа в нужной точке не оказалось, а восстановление через CDC происходило медленно и не перекрывало потребность бизнеса.

Этап 3

Критический инцидент и смена подхода

Команда перешла к новой Kafka-архитектуре с контрактами, унификацией схем и параллельными загрузками.

Этап 4

Валидация, ремонт расхождений и recovery

Далее - сверка данных, исправление несоответствий, частичное восстановление сервиса и дозагрузка исторических данных из резервов.

Связанная глава

Data Pipeline / ETL / ELT Architecture

Проектирование пайплайнов: orchestration, recovery и качество данных.

Открыть главу

Что важно инженерам

CDC-конвейеры удобны в эксплуатации, но требуют заранее продуманных сценариев восстановления и проверки целостности.
Outbox-подход снижает риск потери событий между сервисами, но не заменяет дисциплину по схемам и версиям контрактов.
Контракты данных и унификация схем критичны для устойчивости ETL/DWH-контуров при аварийном переключении.
Для pipeline-надежности важна отдельная observability для коннекторов, лагов и сбоев репликации.

Primary source

Google SRE: Postmortem Culture

Базовые принципы blameless-культуры и обучения на сбоях.

Открыть статью

Управленческая оптика

Blameless postmortem снижает внутреннюю турбулентность и ускоряет переход к системным улучшениям вместо поиска виноватых.
Единый язык риска (severity, error budget, release freeze) помогает синхронизировать ожидания бизнеса и инженерии.
SLO для данных нужно формулировать в пользовательских терминах, а затем приземлять в технические метрики и алерты.
Инцидент в data-платформе - это не только технологический сбой, но и управленческий сигнал о зрелости процессов.

Primary source

Google SRE Workbook: Implementing SLOs

Как приземлять пользовательские ожидания в измеримые цели и алертинг.

Открыть материал

SLI/SLO для data-платформы

Скорость данных

freshness, end-to-end latency, consumer lag

Целостность

дубликаты, пропуски, расхождения по контрольным выборкам

Устойчивость коннекторов

error rate, restart rate, время восстановления

Пример пользовательского SLO: «данные в витрине свежи не старше X минут в 99.9% времени», после чего цель раскладывается в алерты и план/факт по риску.

Ссылки и связанные главы

YouTube: «Дропнуто», выпуск 1

Оригинальная запись эфира с разбором инцидента.

Telegram обзор

Сводка по инциденту и ключевые выводы.

Blameless postmortems (Google SRE)

Принципы постмортем-культуры без поиска виноватых.

SLO implementation (Google SRE Workbook)

Практика перехода от метрик к действующим SLO.

Надёжность в Т-Банке

Контекстный материал по reliability-практикам и культуре эксплуатации.

Смежные главы: Observability & Monitoring Design · Site Reliability Engineering · The Site Reliability Workbook · Data Pipeline / ETL / ELT Architecture · Паттерны консистентности и идемпотентность.