SLI, SLO, SLA и error budget нужны затем, чтобы разговор о надежности перестал быть спором вкусов и превратился в договоренность о риске.
Глава показывает, как индикаторы, сервисные цели и бюджет ошибок связывают продуктовые ожидания с эксплуатацией: по ним читают burn rate, тормозят релизы и решают, когда системе нужнее починка, чем следующая функция.
На интервью эта тема особенно полезна, потому что через нее легко обсуждать дисциплину измерений, допустимый риск и release governance вместо абстрактной фразы о том, что система просто должна быть стабильной.
Практическая польза главы
Практика проектирования
Переводите знания о метриках качества сервиса и управлении error budget в конкретные эксплуатационные решения: интерфейсы алертинга, runbook-границы и rollback-стратегии.
Качество решений
Оценивайте архитектуру через SLO, error budget, MTTR и устойчивость critical-path, а не только через функциональную полноту.
Interview articulation
Структурируйте ответ вокруг reliability lifecycle: сигнал деградации, реакция, локализация причины, восстановление и профилактика повторов.
Trade-off framing
Явно фиксируйте компромиссы по метриках качества сервиса и управлении error budget: скорость релизов, уровень автоматизации, стоимость observability и операционная сложность.
Источник
Google SRE Workbook
Практический гайд по определению SLI/SLO и работе с error budgets.
SLI / SLO / SLA - это язык, который соединяет бизнес-ожидания и инженерные решения. В этой главе разберём, как формализовать надёжность и почему error budget напрямую влияет на релизы, приоритизацию и стоимость. Если нужен широкий контекст по SRE, начните с вводной главы раздела.
Что такое SLI, SLO и SLA
SLI
Service Level Indicator
Измеримый сигнал качества сервиса: availability, latency, error rate, freshness.
SLO
Service Level Objective
Целевое значение SLI за период. Пример: 99.9% успешных запросов за 30 дней.
SLA
Service Level Agreement
Внешний контракт с последствиями (компенсации, штрафы, условия поддержки).
Почему это важно
Единый язык для product и engineering
SLO переводит "сервис должен быть стабильным" в конкретные числа и правила принятия решений.
Контроль релизного риска
Error budget даёт формальный критерий: ускоряемся или переключаемся на стабилизацию.
Прозрачная приоритизация
Можно обосновать, почему сейчас важнее reliability work, а не новая фича.
Предсказуемые ожидания клиентов
SLA фиксирует границы ответственности, а SLO помогает держаться внутри этих границ.
Калькулятор 1: доступный downtime по SLO
Error budget = 0.100%
Допустимый downtime
43 мин
В секундах
2 592
Ошибок на 1M запросов
1 000
Формула: budget = (1 - SLO) * период. Например, при SLO 99.9% за 30 дней доступно около 43 минут downtime.
Калькулятор 2: burn-rate и остаток бюджета
Наблюдаемый error rate
0.0240%
Burn rate
0.24x
Сожжено в окне
0.03%
Остаток бюджета
84.97%
При текущем темпе бюджет закончится примерно через 106 д 5 ч 0 мин.
Бюджет тратится медленно: хороший запас под релизы.
Как применять в ежедневной работе
- Выберите 1-3 критичных user-journey и определите для них SLI.
- Согласуйте SLO с продуктом и стоимостью отказов.
- Опишите policy: какие релизы допустимы при burn-rate < 1, 1-2, > 2.
- Свяжите алерты и incident response с бюджетом, а не только с инфраструктурными метриками.
Типичные антипаттерны
Мерить SLI только на уровне инфраструктуры (CPU/RAM), а не пользовательского пути.
Ставить SLO 99.999% без связи с реальной стоимостью, архитектурой и ожиданиями бизнеса.
Использовать SLA как внутреннюю инженерную метрику вместо внешнего контрактного уровня.
Игнорировать burn rate и смотреть только на итог месяца, когда бюджет уже сгорел.
Рекомендации
Определяйте 1-3 ключевых user-journey и стройте SLI именно на них.
Привязывайте релизы к error budget policy: есть бюджет - можно рисковать, нет бюджета - stabilisation mode.
Используйте fast+slow burn-rate алерты, чтобы ловить и резкие, и плавные деградации.
Разделяйте внутренние SLO и внешние SLA, чтобы честно управлять ожиданиями пользователей.
References
Связанные главы
- Site Reliability Engineering (short summary) - Базовая концептуальная модель SRE: SLO, error budgets, toil и правила баланса скорости и надёжности.
- The Site Reliability Workbook (short summary) - Практики внедрения SLO и alerting в production: burn-rate алерты, policy и operating cadence.
- Observability & Monitoring Design - Покрывает проектирование метрик, логов и трейсинга, на которых строятся качественные SLI.
- Performance Engineering - Дополняет работу с latency SLI через profiling, capacity planning и performance budgets.
- Release It! (short summary) - Расширяет тему reliability-политик паттернами устойчивости и безопасного выпуска изменений.
