SRE и операционная надёжность
17 главНа этой странице собраны все главы темы. Открывайте главы по порядку или используйте страницу как карту раздела.
Зачем нужны надёжность и SRE
Авторский материалeasyВводная глава: надёжность, отказоустойчивость, релизы, observability и работа с инцидентами.
Открыть главуSLI / SLO / SLA и бюджет ошибок
Авторский материалmediumПрактический разбор SLI/SLO/SLA: зачем это нужно, как читать burn-rate и как считать budget через интерактивные калькуляторы.
Открыть главуIncident Management как инженерная дисциплина
Авторский материалmediumКак выстроить дисциплину работы с инцидентами: on-call модель, escalation policy, blameless postmortems и метрики зрелости.
Открыть главуSite Reliability Engineering (short summary)
Обзор книгиmediumКак Google управляет production: SLO, error budgets, toil, on-call, postmortems и четыре золотых сигнала.
Открыть главуThe Site Reliability Workbook (short summary)
Обзор книгиhardПрактическое продолжение SRE Book: SLO на практике, alerting, incident response и case studies от Google.
Открыть главуRelease It! (short summary)
Обзор книгиmediumПаттерны устойчивости от Michael Nygard: timeouts, circuit breakers, bulkheads и защита от cascade failures.
Открыть главуGrokking Continuous Delivery (short summary)
Обзор книгиeasyПрактическое введение в CI/CD от Christie Wilson: пайплайны, version control, безопасное развёртывание и DORA метрики.
Открыть главуObservability & Monitoring Design
Авторский материалmediumПрактический дизайн observability-платформы: логи, метрики, distributed tracing, SLO-based alerting, runbooks и feedback loop для production.
Открыть главуDistributed tracing в микросервисах (Jaeger, Tempo)
Авторский материалmediumПрактический разбор distributed tracing в микросервисах: архитектура tracing-контура, Jaeger и Tempo, write/read path, sampling и операционные trade-offs.
Открыть главуPerformance Engineering
Авторский материалmediumСистемный подход к производительности: latency optimization, profiling, capacity planning и performance budget в production.
Открыть главуChaos Engineering: Gremlin, Litmus, Chaos Monkey
Авторский материалmediumПрактический гайд по chaos engineering: как проектировать безопасные эксперименты и когда выбирать Gremlin, Litmus и Chaos Monkey.
Открыть главуEngineering Reliable Mobile Applications (short summary)
Обзор книгиmediumMobile SRE от Google: staged rollout, feature flags, клиентская телеметрия и влияние на backend.
Открыть главуЭволюция SRE: внедрение AI-ассистента в Т-Банке
Авторский материалhardРазбор доклада Ивана Юрченко о платформизации инцидент-менеджмента, SRE AI-ассистенте, LogAnalyzer и метриках качества ответов.
Открыть главуPrometheus: The Documentary
Документальный фильмmediumИстория Prometheus: SoundCloud, PromQL и путь к стандарту для cloud-native мониторинга.
Открыть главуeBPF: The Documentary
Документальный фильмhardUnlocking The Kernel — как технология расширения ядра Linux изменила networking, security и observability.
Открыть главуAI, DevOps, and Kubernetes: Kelsey Hightower on What's Next
Документальный фильмmediumИнтервью с Келси Хайтауэром о Platform Engineering, эволюции DevOps, зрелости Kubernetes, роли API-контрактов, AI guardrails и значимости soft skills.
Открыть главуТехношоу «Дропнуто»: выпуск 1
Документальный фильмmediumBlameless-разбор двухнедельного инцидента в data-платформе Т-Банка: потеря метаданных, восстановление через Kafka/контракты и практические выводы по SRE для данных.
Открыть главу