Site Reliability Engineering (short summary)

Книгу Google важно читать не ради терминов, а ради модели, в которой надёжность становится общей экономикой разработки, продукта и эксплуатации.

Книга связывает целевые уровни сервиса, бюджет ошибок, сокращение ручного операционного труда, дежурство, разборы инцидентов и четыре золотых сигнала в систему управления промышленной эксплуатацией.

На интервью этот материал даёт сильную рамку для разговора о целях уровня сервиса, операционной нагрузке, границах автоматизации и цене отказа в больших системах.

Практическая польза главы

Практика проектирования

Проектируйте сервис через измеримые показатели, целевые уровни сервиса, бюджет ошибок, четыре золотых сигнала и понятные правила реакции.

Качество решений

Оценивайте архитектуру через ручной операционный труд, стоимость дежурства, риск релиза и способность команды учиться после инцидентов.

Аргументация на интервью

Объясняйте, как выбранная цель уровня сервиса влияет на мониторинг, выпуск изменений, откат и приоритет инженерных улучшений.

Формулировка компромиссов

Явно фиксируйте баланс между скоростью разработки, надёжностью, операционной нагрузкой и ценой недоступности.

Бесплатная версия

Книга Google об инженерии надёжности сервисов

Полный текст книги доступен бесплатно на сайте Google

sre.google

Site Reliability Engineering (Site Reliability Engineering. Надежность и безотказность как в Google)

Авторы: Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy
Издательство: O'Reilly Media, 2016
Объём: 552 страниц

Как Google превращает надёжность в инженерную дисциплину: целевой уровень сервиса (SLO), бюджет ошибок, ручной операционный труд, дежурство, мониторинг и разборы инцидентов.

Оригинал

Перевод

Надёжность нельзя «добавить» в готовый сервис — её приходится удерживать как инженерное свойство, с измеримыми целями и явной ценой каждого компромисса. Книга инженерии надёжности сервисов () описывает, как Google превратил эксплуатацию в инженерную дисциплину: показатели, цели и соглашения уровня сервиса задают язык разговора о надёжности, привязывает скорость изменений к этим целям, а , , дежурство, , разборы инцидентов и превращают эти цели в повседневную практику.

Ключевые идеи инженерии надёжности сервисов

SLI / SLO / SLA

— измеримая метрика качества: например, , или .

— целевое значение выбранного показателя, например 99,9% доступности.

— внешние обязательства и последствия за нарушение. Разделение нужно, чтобы внутренняя цель была строже внешнего обещания: тогда нарушенный целевой уровень виден команде раньше, чем по нему ударит клиент.

Бюджет ошибок

показывает, сколько риска команда может потратить без нарушения целевого уровня сервиса. Пока бюджет не исчерпан, можно быстрее выпускать изменения; когда он сгорел, приоритет смещается на восстановление надёжности.

Ручной операционный труд

— повторяемая работа без долгосрочной ценности: перезапуски, ручное масштабирование, однотипная реакция на алерты. Команды инженерии надёжности сервисов измеряют его и автоматизируют, чтобы он не вытеснял инженерную работу.

Культура разбора инцидентов

без поиска виноватых фиксирует хронологию, и . Цель — улучшить систему, а не наказать человека, который оказался ближе всех к сбою.

Структура книги

Part I

Introduction

Что такое инженерия надёжности сервисов, чем эта модель отличается от подхода DevOps и почему Google смог связать разработку с эксплуатацией через измеримые цели надёжности. Здесь же дан контекст среды Google: Borg, мониторинг и сеть.

Part II

Principles

Принципы целевых уровней сервиса, , сокращения , мониторинга распределённых систем, и простоты.

Part III

Practices

Практические оповещения, , диагностика неполадок, , культура разборов, отслеживание отказов, проверка надёжности и инженерия ПО внутри практики инженерии надёжности сервисов.

Part IV

Management

Подготовка инженеров к дежурству, работа с прерываниями, , коммуникация и сотрудничество между командами.

Практики из книги

Мониторинг и оповещения

помогают видеть состояние сервиса глазами пользователя:

Задержка — время ответа отдельно для успешных и ошибочных запросов.
Объём запросов — сколько работы проходит через систему.
Доля ошибок — сколько запросов завершилось неуспешно.
Насыщение ресурсов — насколько близко система подошла к пределу мощности.

Дежурство

Здоровое защищает и сервис, и команду:

Не более 25% времени инженеров надёжности уходит на дежурство.
Смена не должна регулярно превращаться в поток непрерывных инцидентов.
Для типовых проблем есть понятные .
Между сменами обязательна .

Инженерия выпуска изменений

снижает риск каждого релиза:

делают результат воспроизводимым.
запускают изменения постепенно.
помогают управлять риском без нового релиза.
должен срабатывать быстро, когда деградирует целевой уровень сервиса.

Применение на интервью по системному дизайну

Полезные концепции

Зафиксировать уже на этапе уточнения требований.
Использовать как метрику компромисса между скоростью и надёжностью.
Выбрать для мониторинга.
Спроектировать .
Ограничить каскадные сбои через .
Выпускать изменения через .

Где пригодится

Как вы будете мониторить систему?
Какие целевые уровни сервиса вы бы установили?
Как система ведёт себя при отказах?
Как выпускать изменения без недоступности?
Что делать при перегрузке?

Главные выводы

Инженерия надёжности сервисов применяет к операционным проблемам.

помогает балансировать скорость изменений и надёжность.

нужно измерять и автоматизировать.

Разборы инцидентов без поиска виноватых улучшают и культуру, и архитектуру.

Мониторинг ценен лишь тогда, когда ведёт к : если будит дежурного без понятного следующего шага, он быстро превращается в шум, который перестают замечать.

Простоту в инженерии надёжности сервисов считают свойством надёжности, а не вкусом: чем меньше движущихся частей, тем меньше способов у системы сломаться.

Связанные главы

The Site Reliability Workbook (short summary) - Практическое продолжение книги Google про инженерию надёжности сервисов: внедрение целевых уровней сервиса, оповещений, реагирования на инциденты и операционных шаблонов.
Building Secure and Reliable Systems (short summary) - Показывает, как соединять требования безопасности и надёжности в одной инженерной модели.
Release It! (short summary) - Дополняет подход инженерии надёжности сервисов практиками устойчивости: размыкателями цепи, изоляцией отказов и плавной деградацией.
eBPF: The Documentary - Расширяет практики наблюдаемости инженерии надёжности сервисов телеметрией и диагностикой на уровне ядра.

Где найти книгу

Оригинал

oreilly.com

Site Reliability Engineering

Перевод

piter.com

Site Reliability Engineering. Надежность и безотказность как в Google