System Design Space
Граф знанийНастройки

Обновлено: 24 марта 2026 г. в 15:23

The Site Reliability Workbook (short summary)

hard

SRE Workbook полезен там, где красивые принципы приходится доводить до повседневной практики без магии и лозунгов.

Глава показывает, как SLO, alerting, incident response и rollout-процессы превращаются в рабочие playbooks, по которым команда поддерживает reliability изо дня в день, а не только во время громких аварий.

Для design review ценность здесь именно в переводе абстрактных идей в операционные ритуалы: кого будим, по каким сигналам, когда эскалируем и как закрепляем урок после сбоя.

Практическая польза главы

Практика проектирования

Переводите знания о практическом внедрении SRE через шаблоны и рабочие playbooks в конкретные эксплуатационные решения: интерфейсы алертинга, runbook-границы и rollback-стратегии.

Качество решений

Оценивайте архитектуру через SLO, error budget, MTTR и устойчивость critical-path, а не только через функциональную полноту.

Interview articulation

Структурируйте ответ вокруг reliability lifecycle: сигнал деградации, реакция, локализация причины, восстановление и профилактика повторов.

Trade-off framing

Явно фиксируйте компромиссы по практическом внедрении SRE через шаблоны и рабочие playbooks: скорость релизов, уровень автоматизации, стоимость observability и операционная сложность.

Бесплатная версия

SRE Workbook от Google

Полный текст книги доступен бесплатно на сайте Google

sre.google

The Site Reliability Workbook (Site Reliability Workbook: практическое применение)

Авторы: Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne
Издательство: O'Reilly Media, 2018
Объём: 506 страниц

Практическое продолжение SRE Book: SLO на практике, alerting, incident response и case studies от Google.

Оригинал
Перевод

Первая книга

Site Reliability Engineering

Обзор оригинальной SRE Book от Google

Читать обзор

Связь с оригинальной SRE Book

SRE Book (2016)

  • Философия и принципы SRE
  • Опыт Google изнутри
  • Теоретический фундамент
  • «Почему SRE работает»

SRE Workbook (2018)

  • Практические руководства
  • Шаблоны и чеклисты
  • Case studies из разных компаний
  • «Как внедрить SRE»

Ключевые темы книги

SLO на практике

Пошаговое руководство по выбору SLI, установке SLO и работе с error budgets. Как документировать SLO и коммуницировать их стейкхолдерам.

Alerting

Как создавать alerts, которые действительно важны. Борьба с alert fatigue и принципы actionable alerting.

Incident Response

Структурированный процесс реагирования на инциденты: роли (Incident Commander, Ops Lead), коммуникация, эскалация.

Postmortem Culture

Шаблоны blameless postmortem, как проводить разбор инцидентов, отслеживать action items и делиться lessons learned.

Toil Elimination

Как измерять toil, приоритизировать автоматизацию и убеждать менеджмент выделять время на устранение рутины.

On-Call

Практики здорового on-call: scheduling, handoffs, компенсация и предотвращение burnout.

Структура книги

Part I

Foundations

Как развивалась SRE после первой книги. SLO в деталях: выбор SLI, калькулятор error budget, SLO документ.

Part II

Practices

Monitoring и alerting. On-call. Incident management. Postmortems. Тестирование надёжности (Chaos Engineering).

Part III

Processes

Organizational change management. SRE team models. Training и onboarding. Communication patterns.

Case Studies

Примеры из индустрии

Реальные истории внедрения SRE в разных компаниях: стартапы, enterprise, компании не из tech-сектора.

Практические инструменты из книги

SLO Document Template

Структура SLO-документа:

  • Service overview — описание сервиса
  • SLIs — метрики и методы измерения
  • SLOs — целевые значения
  • Error budget — политики при исчерпании
  • Rationale — обоснование выбора

Incident Command System

Роли при инциденте:

  • Incident Commander (IC) — координирует response
  • Operations Lead — технические действия
  • Communications Lead — внешняя коммуникация
  • Planning Lead — документация и handoffs

Postmortem Template

Секции postmortem-документа:

  • Summary — краткое описание инцидента
  • Impact — кто и как был затронут
  • Timeline — хронология событий
  • Root cause — системные причины
  • Action items — конкретные шаги с owners
  • Lessons learned — что пошло хорошо/плохо

Применение на System Design интервью

Полезные концепции

  • SLO-driven архитектура
  • Structured incident response
  • Alerting best practices
  • Chaos Engineering подходы
  • Toil measurement frameworks

Вопросы, где пригодится

  • «Как определить SLO для сервиса?»
  • «Как реагировать на incidents?»
  • «Какие alerts настроить?»
  • «Как тестировать надёжность?»
  • «Как организовать on-call?»

Главные выводы

SLO — это не просто метрика, а инструмент принятия решений
Structured incident response снижает MTTR
Blameless postmortems — ключ к культуре обучения
Toil нужно измерять и систематически устранять
On-call должен быть sustainable, иначе burnout
SRE — это cultural change, не только технологии

Связанные главы

  • Site Reliability Engineering - Базовая SRE-философия и принципы, на которых строятся практические playbook-подходы из Workbook.
  • Building Secure and Reliable Systems - Расширяет reliability-практики через security-инженерию и совместный design надёжности и защиты.
  • SLI / SLO / SLA и Error Budgets - Практическая декомпозиция SLO-подхода, метрик качества и budget-политик для релизных решений.
  • Incident Management как дисциплина - Дополняет разделы Workbook по incident command, эскалации и postmortem-культуре.
  • Release It! (short summary) - Связывает SRE-процессы с устойчивыми техническими паттернами: timeouts, circuit breaker и bulkheads.

Где найти книгу

Чтобы отмечать прохождение, включи трекинг в Настройки