Бесплатная версия
SRE Workbook от Google
Полный текст книги доступен бесплатно на сайте Google
The Site Reliability Workbook (Site Reliability Workbook: практическое применение)
Авторы: Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne
Издательство: O'Reilly Media, 2018
Объём: 506 страниц
Практическое продолжение SRE Book: SLO на практике, alerting, incident response и case studies от Google.
Оригинал
ПереводПервая книга
Site Reliability Engineering
Обзор оригинальной SRE Book от Google
Связь с оригинальной SRE Book
SRE Book (2016)
- Философия и принципы SRE
- Опыт Google изнутри
- Теоретический фундамент
- «Почему SRE работает»
SRE Workbook (2018)
- Практические руководства
- Шаблоны и чеклисты
- Case studies из разных компаний
- «Как внедрить SRE»
Ключевые темы книги
SLO на практике
Пошаговое руководство по выбору SLI, установке SLO и работе с error budgets. Как документировать SLO и коммуницировать их стейкхолдерам.
Alerting
Как создавать alerts, которые действительно важны. Борьба с alert fatigue и принципы actionable alerting.
Incident Response
Структурированный процесс реагирования на инциденты: роли (Incident Commander, Ops Lead), коммуникация, эскалация.
Postmortem Culture
Шаблоны blameless postmortem, как проводить разбор инцидентов, отслеживать action items и делиться lessons learned.
Toil Elimination
Как измерять toil, приоритизировать автоматизацию и убеждать менеджмент выделять время на устранение рутины.
On-Call
Практики здорового on-call: scheduling, handoffs, компенсация и предотвращение burnout.
Структура книги
Foundations
Как развивалась SRE после первой книги. SLO в деталях: выбор SLI, калькулятор error budget, SLO документ.
Practices
Monitoring и alerting. On-call. Incident management. Postmortems. Тестирование надёжности (Chaos Engineering).
Processes
Organizational change management. SRE team models. Training и onboarding. Communication patterns.
Примеры из индустрии
Реальные истории внедрения SRE в разных компаниях: стартапы, enterprise, компании не из tech-сектора.
Практические инструменты из книги
SLO Document Template
Структура SLO-документа:
- Service overview — описание сервиса
- SLIs — метрики и методы измерения
- SLOs — целевые значения
- Error budget — политики при исчерпании
- Rationale — обоснование выбора
Incident Command System
Роли при инциденте:
- Incident Commander (IC) — координирует response
- Operations Lead — технические действия
- Communications Lead — внешняя коммуникация
- Planning Lead — документация и handoffs
Postmortem Template
Секции postmortem-документа:
- Summary — краткое описание инцидента
- Impact — кто и как был затронут
- Timeline — хронология событий
- Root cause — системные причины
- Action items — конкретные шаги с owners
- Lessons learned — что пошло хорошо/плохо
Применение на System Design интервью
Полезные концепции
- SLO-driven архитектура
- Structured incident response
- Alerting best practices
- Chaos Engineering подходы
- Toil measurement frameworks
Вопросы, где пригодится
- «Как определить SLO для сервиса?»
- «Как реагировать на incidents?»
- «Какие alerts настроить?»
- «Как тестировать надёжность?»
- «Как организовать on-call?»
Связанная книга
Building Secure and Reliable Systems
Безопасность + надёжность от Google
