System Design Space
Граф знанийНастройки

Обновлено: 12 мая 2026 г. в 13:00

The Site Reliability Workbook (short summary)

сложный

SRE Workbook полезен там, где красивые принципы приходится доводить до повседневной практики без магии и лозунгов.

Глава показывает, как целевые уровни сервиса, оповещения, реагирование на инциденты и поэтапный выпуск изменений превращаются в рабочие регламенты, по которым команда поддерживает надёжность изо дня в день, а не только во время громких аварий.

Для архитектурного ревью ценность здесь именно в переводе абстрактных идей в операционные ритуалы: кого будим, по каким сигналам, когда эскалируем и как закрепляем урок после сбоя.

Практическая польза главы

Практика проектирования

Переводите принципы инженерии надёжности сервисов в конкретные документы, регламенты, правила оповещения и роли реагирования.

Качество решений

Оценивайте архитектуру через применимость целевых уровней сервиса, управляемость бюджета ошибок, шумность алертов и стоимость дежурств.

Аргументация на интервью

Показывайте, кто реагирует на сбой, какие сигналы важны, как команда эскалирует и какие улучшения фиксирует после разбора.

Формулировка компромиссов

Явно обсуждайте баланс между скоростью изменений, глубиной регламентов, операционной нагрузкой и реальной надёжностью.

Бесплатная версия

SRE Workbook от Google

Полный текст книги доступен бесплатно на сайте Google.

sre.google

The Site Reliability Workbook (Site Reliability Workbook: практическое применение)

Авторы: Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne
Издательство: O'Reilly Media, 2018
Объём: 506 страниц

Практическое продолжение SRE Book: внедрение SLO, оповещений, инцидентного процесса, разборов инцидентов, дежурств и сокращения ручного операционного труда.

Оригинал
Перевод

Эта глава смотрит на The Site Reliability Workbook как на практический слой инженерии надёжности сервисов: как оформить , связать с релизными решениями, построить , организовать , проводить , сокращать и удерживать .

Первая книга

Site Reliability Engineering

Обзор оригинальной SRE Book от Google.

Читать обзор

Как Workbook дополняет SRE Book

SRE Book (2016)

  • Философия и принципы инженерии надёжности сервисов.
  • Опыт Google изнутри.
  • Теоретический фундамент.
  • Почему эта модель работает.

SRE Workbook (2018)

  • Практические руководства и регламенты.
  • Шаблоны, чек-листы и примеры документов.
  • из разных компаний.
  • Как внедрять практики инженерии надёжности сервисов в реальной организации.

Ключевые темы книги

SLO на практике

Пошаговый подход к выбору , фиксации и управлению . Книга показывает, как вести и объяснять его .

Оповещения

Как строить , которые действительно требуют реакции. В фокусе — снижение и переход к .

Реагирование на инциденты

Структурированное : роли, , технический координатор, коммуникации и понятная эскалация.

Культура разбора инцидентов

помогает фиксировать хронологию, и , чтобы команда меняла систему, а не искала крайнего.

Сокращение ручного операционного труда

Как измерять , выбирать автоматизацию с заметным эффектом и защищать инженерное время от бесконечной повторяемой рутины.

Дежурство

Практики здорового : , , компенсация нагрузки и профилактика .

Структура книги

Part I

Foundations

Как практика развивалась после первой книги. Подробный разбор целевых уровней сервиса: выбор показателей, расчёт бюджета ошибок и оформление .

Part II

Practices

Мониторинг и оповещения, , , разборы инцидентов и проверка надёжности через .

Part III

Processes

Организационные изменения, модели команд инженерии надёжности сервисов, обучение новых участников и коммуникационные практики, которые делают эту работу повторяемой, а не героической.

Case Studies

Примеры из индустрии

Реальные внедрения практик надёжности в стартапах, крупных компаниях и организациях за пределами технологического сектора.

Практические инструменты из книги

Шаблон документа с SLO

помогает договориться не только о цифре, но и о смысле показателя.

  • Обзор сервиса и критического пользовательского пути.
  • Показатели уровня сервиса и методы измерения.
  • Целевые уровни сервиса и окно оценки.
  • при быстром расходовании или исчерпании.
  • Обоснование выбора и список заинтересованных сторон.

Система координации инцидента

разделяет принятие решений, технические действия, коммуникацию и планирование.

  • координирует работу и принимает операционные решения.
  • отвечает за диагностику и восстановление.
  • синхронизирует пользователей, бизнес и команды.
  • ведёт записи и помогает передавать контекст между сменами.

Шаблон разбора инцидента

Документ разбора превращает инцидент в управляемый цикл обучения, а не в поиск виноватых.

  • Краткое описание инцидента и пользовательского влияния.
  • с ключевыми сигналами и решениями.
  • и сопутствующие факторы.
  • с владельцами и сроками.
  • : что помогло, что мешало и что нужно изменить в системе.

Применение на интервью по системному дизайну

Полезные концепции

  • как проверка предположений
  • измерение и сокращение

Вопросы, где пригодится

  • Как определить целевой уровень сервиса?
  • Как команда реагирует на инцидент?
  • Какие оповещения действительно должны будить дежурного?
  • Как проверять надёжность до реального отказа?
  • Как организовать устойчивое дежурство?

Главные выводы

— не просто метрика, а инструмент принятия решений.
Структурированное снижает MTTR.
создают культуру обучения.
нужно измерять и систематически сокращать.
защищает команду от выгорания.
Инженерия надёжности сервисов — это изменение инженерной культуры, а не только набор инструментов.

Связанные главы

  • Site Reliability Engineering - Базовая модель инженерии надёжности сервисов: целевые уровни сервиса, бюджет ошибок, дежурство и разборы инцидентов, которые Workbook превращает в практические регламенты.
  • Building Secure and Reliable Systems - Расширяет практики надёжности через инженерные подходы к безопасности и совместное проектирование защиты и устойчивости.
  • SLI / SLO / SLA и бюджет ошибок - Подробно разбирает целевые уровни сервиса, метрики качества, бюджет ошибок и правила, которые помогают принимать релизные решения.
  • Управление инцидентами как инженерная дисциплина - Дополняет разделы Workbook про координацию инцидента, эскалацию, дежурство и культуру разбора без поиска виноватых.
  • Release It! (short summary) - Связывает процессы инженерии надёжности сервисов с техническими паттернами устойчивости: тайм-аутами, размыкателями цепи и изоляцией отказов.

Где найти книгу

Чтобы отмечать прохождение, включи трекинг в Настройки