The Site Reliability Workbook (short summary)

The Site Reliability Workbook полезен там, где красивые принципы инженерии надёжности сервисов приходится доводить до повседневной практики без магии и лозунгов.

Глава показывает, как целевые уровни сервиса, оповещения, реагирование на инциденты и поэтапный выпуск изменений превращаются в рабочие регламенты, по которым команда поддерживает надёжность изо дня в день, а не только во время громких аварий.

Для архитектурного ревью ценность здесь именно в переводе абстрактных идей в операционные ритуалы: кого будим, по каким сигналам, когда эскалируем и как закрепляем урок после сбоя.

Практическая польза главы

Практика проектирования

Переводите принципы инженерии надёжности сервисов в конкретные документы, регламенты, правила оповещения и роли реагирования.

Качество решений

Оценивайте архитектуру через применимость целевых уровней сервиса, управляемость бюджета ошибок, шумность алертов и стоимость дежурств.

Аргументация на интервью

Показывайте, кто реагирует на сбой, какие сигналы важны, как команда эскалирует и какие улучшения фиксирует после разбора.

Формулировка компромиссов

Явно обсуждайте баланс между скоростью изменений, глубиной регламентов, операционной нагрузкой и реальной надёжностью.

Бесплатная версия

Workbook Google по инженерии надёжности сервисов

Полный текст книги доступен бесплатно на сайте Google.

sre.google

The Site Reliability Workbook (Site Reliability Workbook: практическое применение)

Авторы: Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne
Издательство: O'Reilly Media, 2018
Объём: 506 страниц

Практическое продолжение книги Google об инженерии надёжности сервисов (SRE): целевой уровень сервиса (SLO), оповещения, инцидентный процесс, разборы инцидентов, дежурства и сокращение ручного операционного труда.

Оригинал

Перевод

Первая книга Google объясняла, почему инженерия надёжности сервисов устроена именно так. Практикум отвечает на следующий вопрос — как это завести у себя, когда команда уже тонет в дежурствах и спорах о релизах. Здесь практический слой: как оформить , привязать к решению «катим или ждём», настроить , развести роли в , проводить , сокращать и удерживать , пока люди не выгорели.

Первая книга

Site Reliability Engineering

Обзор оригинальной книги Google об инженерии надёжности сервисов.

Читать обзор

Как Workbook дополняет первую книгу Google

SRE Book (2016)

Философия и принципы инженерии надёжности сервисов.
Опыт Google изнутри.
Теоретический фундамент.
Почему эта модель работает.

SRE Workbook (2018)

Практические руководства и регламенты.
Шаблоны, чек-листы и примеры документов.
из разных компаний.
Как внедрять практики инженерии надёжности сервисов в реальной организации.

Ключевые темы книги

Целевые уровни сервиса на практике

Пошаговый подход к выбору , фиксации и управлению . Книга показывает, как вести и объяснять его .

Оповещения

Каждый лишний сигнал, на который нельзя ничего сделать, обесценивает все остальные. Книга показывает, как строить , требующие реакции, чтобы снизить и оставить только .

Реагирование на инциденты

Под нагрузкой инцидента нельзя одновременно чинить, объяснять и решать — кто-то один должен держать общую картину. Отсюда заранее разведённые роли в : , технический координатор, коммуникации и понятная эскалация.

Культура разбора инцидентов

помогает фиксировать хронологию, и , чтобы команда меняла систему, а не искала крайнего.

Сокращение ручного операционного труда

Рутина растёт незаметно и съедает время, которое могло пойти на устранение причин сбоев. Книга учит измерять , выбирать автоматизацию с заметным эффектом и защищать инженерное время от бесконечной повторяемой работы.

Дежурство

Дежурство — самая дорогая часть надёжности: за неё платят сном и нервами живые люди. Книга собирает практики здорового — , , компенсацию нагрузки и профилактику .

Структура книги

Part I

Foundations

Как практика развивалась после первой книги. Подробный разбор целевых уровней сервиса: выбор показателей, расчёт бюджета ошибок и оформление .

Part II

Practices

Мониторинг и оповещения, , , разборы инцидентов и проверка надёжности через .

Part III

Processes

Организационные изменения, модели команд инженерии надёжности сервисов, обучение новых участников и коммуникационные практики, которые делают эту работу повторяемой, а не героической.

Case Studies

Примеры из индустрии

Реальные внедрения практик надёжности в стартапах, крупных компаниях и организациях за пределами технологического сектора.

Практические инструменты из книги

Шаблон документа с целевым уровнем сервиса

Спор о надёжности почти всегда упирается в то, что стороны считают разное. фиксирует и саму цифру, и смысл показателя за ней, чтобы договорённость пережила смену команды.

Обзор сервиса и критического пользовательского пути.
Показатели уровня сервиса и методы измерения.
Целевые уровни сервиса и окно оценки.
при быстром расходовании или исчерпании.
Обоснование выбора и список заинтересованных сторон.

Система координации инцидента

разделяет принятие решений, технические действия, коммуникацию и планирование.

координирует работу и принимает операционные решения.
отвечает за диагностику и восстановление.
синхронизирует пользователей, бизнес и команды.
ведёт записи и помогает передавать контекст между сменами.

Шаблон разбора инцидента

Без записанного разбора инцидент забывается за неделю, а его причина возвращается следующим сбоем. Документ разбора превращает его в управляемый цикл обучения и снимает с команды режим поиска виноватых.

Краткое описание инцидента и пользовательского влияния.
с ключевыми сигналами и решениями.
и сопутствующие факторы.
с владельцами и сроками.
: что помогло, что мешало и что нужно изменить в системе.

Применение на интервью по системному дизайну

Полезные концепции

как проверка предположений
измерение и сокращение

Вопросы, где пригодится

Как определить целевой уровень сервиса?
Как команда реагирует на инцидент?
Какие оповещения действительно должны будить дежурного?
Как проверять надёжность до реального отказа?
Как организовать устойчивое дежурство?

Главные выводы

работает, когда по нему решают, катить релиз или притормозить, — иначе это просто цифра на дашборде.

Структурированное снижает среднее время восстановления.

создают культуру обучения.

нужно измерять и систематически сокращать.

защищает команду от выгорания.

Инструменты можно купить за неделю; инженерия надёжности сервисов приживается там, где меняется сама культура работы с отказами.

Связанные главы

Site Reliability Engineering - Базовая модель инженерии надёжности сервисов: целевые уровни сервиса, бюджет ошибок, дежурство и разборы инцидентов, которые Workbook превращает в практические регламенты.
Building Secure and Reliable Systems - Расширяет практики надёжности через инженерные подходы к безопасности и совместное проектирование защиты и устойчивости.
Уровни сервиса и бюджет ошибок - Подробно разбирает целевые уровни сервиса, метрики качества, бюджет ошибок и правила, которые помогают принимать релизные решения.
Управление инцидентами как инженерная дисциплина - Дополняет разделы Workbook про координацию инцидента, эскалацию, дежурство и культуру разбора без поиска виноватых.
Release It! (short summary) - Связывает процессы инженерии надёжности сервисов с техническими паттернами устойчивости: тайм-аутами, размыкателями цепи и изоляцией отказов.

Где найти книгу

Оригинал

oreilly.com

The Site Reliability Workbook

Перевод

piter.com

Site Reliability Workbook: практическое применение