System Design Space

    Глава 149

    Обновлено: 9 февраля 2026 г. в 20:31

    The Site Reliability Workbook (short summary)

    Прогресс части0/13

    Бесплатная версия

    SRE Workbook от Google

    Полный текст книги доступен бесплатно на сайте Google

    sre.google

    The Site Reliability Workbook (Site Reliability Workbook: практическое применение)

    Авторы: Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne
    Издательство: O'Reilly Media, 2018
    Объём: 506 страниц

    Практическое продолжение SRE Book: SLO на практике, alerting, incident response и case studies от Google.

    The Site Reliability Workbook — оригинальная обложкаОригинал
    Site Reliability Workbook: практическое применение — переводПеревод

    Первая книга

    Site Reliability Engineering

    Обзор оригинальной SRE Book от Google

    Читать обзор

    Связь с оригинальной SRE Book

    SRE Book (2016)

    • Философия и принципы SRE
    • Опыт Google изнутри
    • Теоретический фундамент
    • «Почему SRE работает»

    SRE Workbook (2018)

    • Практические руководства
    • Шаблоны и чеклисты
    • Case studies из разных компаний
    • «Как внедрить SRE»

    Ключевые темы книги

    SLO на практике

    Пошаговое руководство по выбору SLI, установке SLO и работе с error budgets. Как документировать SLO и коммуницировать их стейкхолдерам.

    Alerting

    Как создавать alerts, которые действительно важны. Борьба с alert fatigue и принципы actionable alerting.

    Incident Response

    Структурированный процесс реагирования на инциденты: роли (Incident Commander, Ops Lead), коммуникация, эскалация.

    Postmortem Culture

    Шаблоны blameless postmortem, как проводить разбор инцидентов, отслеживать action items и делиться lessons learned.

    Toil Elimination

    Как измерять toil, приоритизировать автоматизацию и убеждать менеджмент выделять время на устранение рутины.

    On-Call

    Практики здорового on-call: scheduling, handoffs, компенсация и предотвращение burnout.

    Структура книги

    Part I

    Foundations

    Как развивалась SRE после первой книги. SLO в деталях: выбор SLI, калькулятор error budget, SLO документ.

    Part II

    Practices

    Monitoring и alerting. On-call. Incident management. Postmortems. Тестирование надёжности (Chaos Engineering).

    Part III

    Processes

    Organizational change management. SRE team models. Training и onboarding. Communication patterns.

    Case Studies

    Примеры из индустрии

    Реальные истории внедрения SRE в разных компаниях: стартапы, enterprise, компании не из tech-сектора.

    Практические инструменты из книги

    SLO Document Template

    Структура SLO-документа:

    • Service overview — описание сервиса
    • SLIs — метрики и методы измерения
    • SLOs — целевые значения
    • Error budget — политики при исчерпании
    • Rationale — обоснование выбора

    Incident Command System

    Роли при инциденте:

    • Incident Commander (IC) — координирует response
    • Operations Lead — технические действия
    • Communications Lead — внешняя коммуникация
    • Planning Lead — документация и handoffs

    Postmortem Template

    Секции postmortem-документа:

    • Summary — краткое описание инцидента
    • Impact — кто и как был затронут
    • Timeline — хронология событий
    • Root cause — системные причины
    • Action items — конкретные шаги с owners
    • Lessons learned — что пошло хорошо/плохо

    Применение на System Design интервью

    Полезные концепции

    • SLO-driven архитектура
    • Structured incident response
    • Alerting best practices
    • Chaos Engineering подходы
    • Toil measurement frameworks

    Вопросы, где пригодится

    • «Как определить SLO для сервиса?»
    • «Как реагировать на incidents?»
    • «Какие alerts настроить?»
    • «Как тестировать надёжность?»
    • «Как организовать on-call?»

    Связанная книга

    Building Secure and Reliable Systems

    Безопасность + надёжность от Google

    Читать обзор

    Связанные ресурсы

    Главные выводы

    SLO — это не просто метрика, а инструмент принятия решений
    Structured incident response снижает MTTR
    Blameless postmortems — ключ к культуре обучения
    Toil нужно измерять и систематически устранять
    On-call должен быть sustainable, иначе burnout
    SRE — это cultural change, не только технологии

    Где найти книгу