System Design Space

    Глава 148

    Обновлено: 16 февраля 2026 г. в 03:00

    Site Reliability Engineering (short summary)

    Прогресс части0/13

    Бесплатная версия

    SRE Book от Google

    Полный текст книги доступен бесплатно на сайте Google

    sre.google

    Site Reliability Engineering (Site Reliability Engineering. Надежность и безотказность как в Google)

    Авторы: Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy
    Издательство: O'Reilly Media, 2016
    Объём: 552 страниц

    Как Google управляет production: SLO, error budgets, toil, on-call, postmortems и четыре золотых сигнала.

    Site Reliability Engineering — оригинальная обложкаОригинал
    Site Reliability Engineering. Надежность и безотказность как в Google — переводПеревод

    Ключевые концепции SRE

    SLI / SLO / SLA

    SLI (Service Level Indicator) — конкретная метрика качества сервиса (latency, availability, error rate).

    SLO (Service Level Objective) — целевое значение SLI (например, 99.9% availability).

    SLA (Service Level Agreement) — контракт с последствиями за нарушение SLO.

    Error Budget

    Допустимый «бюджет ошибок» — если SLO 99.9%, то error budget = 0.1%. Пока бюджет не исчерпан, команда может рисковать и выкатывать новые фичи. Если бюджет исчерпан — фокус смещается на надёжность.

    Toil

    Рутинная ручная работа, которая не приносит долгосрочной ценности: перезапуск сервисов, ручное масштабирование, реагирование на алерты. SRE должны автоматизировать toil, тратя на него не более 50% времени.

    Postmortem Culture

    Blameless postmortems — разбор инцидентов без поиска виноватых. Фокус на системных причинах и предотвращении повторения. Документирование timeline, root cause и action items.

    Структура книги

    Part I

    Introduction

    Что такое SRE и чем отличается от DevOps. Как Google пришёл к этой модели. Производственная среда Google: Borg, monitoring, networking.

    Part II

    Principles

    SLO и error budgets. Eliminating toil. Monitoring distributed systems. Release engineering. Simplicity.

    Part III

    Practices

    Practical alerting. On-call. Effective troubleshooting. Emergency response. Postmortem culture. Tracking outages. Testing for reliability. Software engineering in SRE.

    Part IV

    Management

    Accelerating SREs to on-call. Dealing with interrupts. Operational overload. Communication and collaboration.

    Важные практики из книги

    Monitoring & Alerting

    Четыре золотых сигнала:

    • Latency — время ответа (отдельно для успешных и ошибочных запросов)
    • Traffic — объём запросов к системе
    • Errors — процент неуспешных запросов
    • Saturation — насколько загружены ресурсы

    On-Call

    Принципы здорового on-call:

    • Не более 25% времени SRE на on-call
    • Максимум 2 инцидента за смену (иначе — переработка)
    • Чёткие runbooks для типовых проблем
    • Обязательный handoff между сменами

    Release Engineering

    Как Google деплоит:

    • Hermetic builds — воспроизводимые сборки
    • Canary releases — постепенный rollout
    • Feature flags для контроля рисков
    • Автоматический rollback при деградации SLO

    Применение на System Design интервью

    Полезные концепции

    • Определение SLO при clarification
    • Error budget как метрика trade-offs
    • Четыре золотых сигнала для мониторинга
    • Graceful degradation
    • Circuit breaker pattern
    • Canary deployments

    Вопросы, где пригодится

    • «Как вы будете мониторить систему?»
    • «Какие SLO вы бы установили?»
    • «Как обрабатывать failures?»
    • «Как деплоить без даунтайма?»
    • «Что делать при перегрузке?»

    Связанные книги от Google

    The Site Reliability Workbook

    Google, 2018

    Практическое продолжение SRE Book с конкретными примерами, шаблонами и case studies.

    Building Secure and Reliable Systems

    Google, 2020

    Как совместить security и reliability. Практики безопасной разработки от Google.

    Главные выводы

    SRE — это применение software engineering к операционным проблемам
    Error budget — ключевой инструмент баланса скорости и надёжности
    Toil нужно измерять и автоматизировать
    Blameless postmortems улучшают культуру и системы
    Мониторинг должен быть actionable
    Simplicity — важнейший принцип надёжных систем

    Где найти книгу