System Design Space
Граф знанийНастройки

Обновлено: 24 марта 2026 г. в 15:23

Site Reliability Engineering (short summary)

medium

Google SRE важно читать не ради терминов, а ради модели, в которой надежность становится общей экономикой разработки, продукта и эксплуатации.

Книга собирает SLO, error budgets, toil reduction, on-call, postmortems и four golden signals в связную систему управления production, где решения принимаются через измерения и правила, а не через интуицию дежурной смены.

На интервью этот материал дает сильную опорную рамку для разговора о service objectives, operational load, границах автоматизации и цене отказа в больших системах.

Практическая польза главы

Практика проектирования

Переводите знания о базовых принципах Google SRE и их применении в production в конкретные эксплуатационные решения: интерфейсы алертинга, runbook-границы и rollback-стратегии.

Качество решений

Оценивайте архитектуру через SLO, error budget, MTTR и устойчивость critical-path, а не только через функциональную полноту.

Interview articulation

Структурируйте ответ вокруг reliability lifecycle: сигнал деградации, реакция, локализация причины, восстановление и профилактика повторов.

Trade-off framing

Явно фиксируйте компромиссы по базовых принципах Google SRE и их применении в production: скорость релизов, уровень автоматизации, стоимость observability и операционная сложность.

Бесплатная версия

SRE Book от Google

Полный текст книги доступен бесплатно на сайте Google

sre.google

Site Reliability Engineering (Site Reliability Engineering. Надежность и безотказность как в Google)

Авторы: Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy
Издательство: O'Reilly Media, 2016
Объём: 552 страниц

Как Google управляет production: SLO, error budgets, toil, on-call, postmortems и четыре золотых сигнала.

Оригинал
Перевод

Ключевые концепции SRE

SLI / SLO / SLA

SLI (Service Level Indicator) — конкретная метрика качества сервиса (latency, availability, error rate).

SLO (Service Level Objective) — целевое значение SLI (например, 99.9% availability).

SLA (Service Level Agreement) — контракт с последствиями за нарушение SLO.

Error Budget

Допустимый «бюджет ошибок» — если SLO 99.9%, то error budget = 0.1%. Пока бюджет не исчерпан, команда может рисковать и выкатывать новые фичи. Если бюджет исчерпан — фокус смещается на надёжность.

Toil

Рутинная ручная работа, которая не приносит долгосрочной ценности: перезапуск сервисов, ручное масштабирование, реагирование на алерты. SRE должны автоматизировать toil, тратя на него не более 50% времени.

Postmortem Culture

Blameless postmortems — разбор инцидентов без поиска виноватых. Фокус на системных причинах и предотвращении повторения. Документирование timeline, root cause и action items.

Структура книги

Part I

Introduction

Что такое SRE и чем отличается от DevOps. Как Google пришёл к этой модели. Производственная среда Google: Borg, monitoring, networking.

Part II

Principles

SLO и error budgets. Eliminating toil. Monitoring distributed systems. Release engineering. Simplicity.

Part III

Practices

Practical alerting. On-call. Effective troubleshooting. Emergency response. Postmortem culture. Tracking outages. Testing for reliability. Software engineering in SRE.

Part IV

Management

Accelerating SREs to on-call. Dealing with interrupts. Operational overload. Communication and collaboration.

Важные практики из книги

Monitoring & Alerting

Четыре золотых сигнала:

  • Latency — время ответа (отдельно для успешных и ошибочных запросов)
  • Traffic — объём запросов к системе
  • Errors — процент неуспешных запросов
  • Saturation — насколько загружены ресурсы

On-Call

Принципы здорового on-call:

  • Не более 25% времени SRE на on-call
  • Максимум 2 инцидента за смену (иначе — переработка)
  • Чёткие runbooks для типовых проблем
  • Обязательный handoff между сменами

Release Engineering

Как Google деплоит:

  • Hermetic builds — воспроизводимые сборки
  • Canary releases — постепенный rollout
  • Feature flags для контроля рисков
  • Автоматический rollback при деградации SLO

Применение на System Design интервью

Полезные концепции

  • Определение SLO при clarification
  • Error budget как метрика trade-offs
  • Четыре золотых сигнала для мониторинга
  • Graceful degradation
  • Circuit breaker pattern
  • Canary deployments

Вопросы, где пригодится

  • «Как вы будете мониторить систему?»
  • «Какие SLO вы бы установили?»
  • «Как обрабатывать failures?»
  • «Как деплоить без даунтайма?»
  • «Что делать при перегрузке?»

Главные выводы

SRE — это применение software engineering к операционным проблемам
Error budget — ключевой инструмент баланса скорости и надёжности
Toil нужно измерять и автоматизировать
Blameless postmortems улучшают культуру и системы
Мониторинг должен быть actionable
Simplicity — важнейший принцип надёжных систем

Связанные главы

Где найти книгу

Чтобы отмечать прохождение, включи трекинг в Настройки