Бесплатная версия
SRE Book от Google
Полный текст книги доступен бесплатно на сайте Google
Site Reliability Engineering (Site Reliability Engineering. Надежность и безотказность как в Google)
Авторы: Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy
Издательство: O'Reilly Media, 2016
Объём: 552 страниц
Как Google управляет production: SLO, error budgets, toil, on-call, postmortems и четыре золотых сигнала.
Оригинал
ПереводКлючевые концепции SRE
SLI / SLO / SLA
SLI (Service Level Indicator) — конкретная метрика качества сервиса (latency, availability, error rate).
SLO (Service Level Objective) — целевое значение SLI (например, 99.9% availability).
SLA (Service Level Agreement) — контракт с последствиями за нарушение SLO.
Error Budget
Допустимый «бюджет ошибок» — если SLO 99.9%, то error budget = 0.1%. Пока бюджет не исчерпан, команда может рисковать и выкатывать новые фичи. Если бюджет исчерпан — фокус смещается на надёжность.
Toil
Рутинная ручная работа, которая не приносит долгосрочной ценности: перезапуск сервисов, ручное масштабирование, реагирование на алерты. SRE должны автоматизировать toil, тратя на него не более 50% времени.
Postmortem Culture
Blameless postmortems — разбор инцидентов без поиска виноватых. Фокус на системных причинах и предотвращении повторения. Документирование timeline, root cause и action items.
Структура книги
Introduction
Что такое SRE и чем отличается от DevOps. Как Google пришёл к этой модели. Производственная среда Google: Borg, monitoring, networking.
Principles
SLO и error budgets. Eliminating toil. Monitoring distributed systems. Release engineering. Simplicity.
Practices
Practical alerting. On-call. Effective troubleshooting. Emergency response. Postmortem culture. Tracking outages. Testing for reliability. Software engineering in SRE.
Management
Accelerating SREs to on-call. Dealing with interrupts. Operational overload. Communication and collaboration.
Важные практики из книги
Monitoring & Alerting
Четыре золотых сигнала:
- Latency — время ответа (отдельно для успешных и ошибочных запросов)
- Traffic — объём запросов к системе
- Errors — процент неуспешных запросов
- Saturation — насколько загружены ресурсы
On-Call
Принципы здорового on-call:
- Не более 25% времени SRE на on-call
- Максимум 2 инцидента за смену (иначе — переработка)
- Чёткие runbooks для типовых проблем
- Обязательный handoff между сменами
Release Engineering
Как Google деплоит:
- Hermetic builds — воспроизводимые сборки
- Canary releases — постепенный rollout
- Feature flags для контроля рисков
- Автоматический rollback при деградации SLO
Применение на System Design интервью
Полезные концепции
- Определение SLO при clarification
- Error budget как метрика trade-offs
- Четыре золотых сигнала для мониторинга
- Graceful degradation
- Circuit breaker pattern
- Canary deployments
Вопросы, где пригодится
- «Как вы будете мониторить систему?»
- «Какие SLO вы бы установили?»
- «Как обрабатывать failures?»
- «Как деплоить без даунтайма?»
- «Что делать при перегрузке?»
Связанные книги от Google
The Site Reliability Workbook
Google, 2018
Практическое продолжение SRE Book с конкретными примерами, шаблонами и case studies.
Building Secure and Reliable Systems
Google, 2020
Как совместить security и reliability. Практики безопасной разработки от Google.
