Инженерия надёжности сервисов (SRE) и операционная надёжность

17 глав

На этой странице собраны все главы темы. Используйте поиск и фильтры по типу и сложности, чтобы найти нужный материал внутри раздела.

Сложность:

Показываются только главы, которые одновременно соответствуют выбранному типу материала и уровню сложности.

Зачем нужны надёжность и инженерия надёжности сервисов (SRE)лёгкий

Вводная глава про показатели уровня сервиса (SLI), целевой уровень сервиса (SLO), бюджет ошибок, наблюдаемость, безопасные релизы, инциденты и цикл улучшений.

Показатель уровня сервиса (SLI), целевой уровень сервиса (SLO), соглашение об уровне сервиса (SLA) и бюджет ошибоксредний

Практический разбор: показатель уровня сервиса (SLI), целевой уровень сервиса (SLO), соглашение об уровне сервиса (SLA), бюджет ошибок, скорость его расходования, оповещения и политика релизов.

Управление инцидентами как инженерная дисциплинасредний

Как выстроить управление инцидентами: дежурство, эскалация, разборы инцидентов, среднее время обнаружения (MTTD), подтверждения (MTTA), восстановления (MTTR) и цикл инженерных улучшений.

Корневая причина (Root Cause): серверные баги как школа инженерии надёжности сервисов (SRE)средний

Разбор книги Хусейна Нассера о реальных серверных багах: системные замедления, протокол HTTP/1.1 и HTTP/2, балансировщики, исчерпание ресурсов, повреждение состояния и польза расследований для инженерии надёжности сервисов (SRE).

Site Reliability Engineering (short summary)средний

Как Google превращает надёжность в инженерную дисциплину: целевой уровень сервиса (SLO), бюджет ошибок, ручной операционный труд, дежурство, мониторинг и разборы инцидентов.

The Site Reliability Workbook (short summary)сложный

Практическое продолжение книги Google об инженерии надёжности сервисов (SRE): целевой уровень сервиса (SLO), оповещения, инцидентный процесс, разборы инцидентов, дежурства и сокращение ручного операционного труда.

Release It! (short summary)средний

Паттерны устойчивости от Michael Nygard: тайм-ауты, размыкатели цепи, изоляция по отсекам, сброс нагрузки и защита от каскадных отказов.

Grokking Continuous Delivery (short summary)лёгкий

Практическое введение в CI/CD от Christie Wilson: конвейеры поставки изменений, контроль версий, безопасное развёртывание и метрики DORA.

Наблюдаемость и проектирование мониторингасредний

Практический дизайн платформы наблюдаемости: логи, метрики, распределённая трассировка, целевой уровень сервиса (SLO) как основа оповещений, диагностические панели, операционные инструкции и расследование инцидентов.

Распределённая трассировка в микросервисах (Jaeger, Tempo)средний

Практический разбор распределённой трассировки в микросервисах: Jaeger, Tempo, OpenTelemetry, путь записи и чтения, выборка, хранение трассировок и расследование задержек.

Инженерия производительностисредний

Системный подход к производительности: задержка, пропускная способность, профилирование, нагрузочные тесты, планирование ёмкости и бюджеты производительности.

Хаос-инжиниринг: Gremlin, Litmus, Chaos Monkeyсредний

Практический подход к безопасным хаос-экспериментам: радиус поражения, условия остановки, Gremlin, Litmus, Chaos Monkey и проверка устойчивости.

Engineering Reliable Mobile Applications (short summary)средний

Практики Google для надёжности мобильных приложений: клиентская телеметрия, поэтапный запуск, фича-флаги, поддержка версий и влияние клиента на серверную нагрузку.

Prometheus: The Documentaryсредний

История Prometheus: SoundCloud, модель опроса метрик, язык запросов PromQL, Alertmanager, CNCF и путь к стандарту мониторинга.

eBPF: The Documentaryсложный

История eBPF: программируемость ядра Linux, верификатор, JIT-компиляция, Cilium, наблюдаемость, сетевые сценарии и защита во время выполнения.

AI, DevOps, and Kubernetes: Kelsey Hightower on What's Nextсредний

Интервью с Келси Хайтауэром о платформенной инженерии, зрелости платформы Kubernetes, API-контрактах, защитных ограничениях для ИИ, инженерной культуре и командных навыках.

Техношоу «Дропнуто»: выпуск 1средний

Разбор двухнедельного инцидента без поиска виноватых в платформе данных Т-Банка: потеря метаданных, восстановление через Kafka и контракты данных, целевой уровень сервиса (SLO) для данных и инженерные/управленческие выводы.