System Design SpaceSystem Design Space
Онбординг
Вернуться к оглавлению

SRE и операционная надёжность

17 глав

На этой странице собраны все главы темы. Открывайте главы по порядку или используйте страницу как карту раздела.

1

Зачем нужны надёжность и SRE

Авторский материалeasy

Вводная глава: надёжность, отказоустойчивость, релизы, observability и работа с инцидентами.

Открыть главу
2

SLI / SLO / SLA и бюджет ошибок

Авторский материалmedium

Практический разбор SLI/SLO/SLA: зачем это нужно, как читать burn-rate и как считать budget через интерактивные калькуляторы.

Открыть главу
3

Incident Management как инженерная дисциплина

Авторский материалmedium

Как выстроить дисциплину работы с инцидентами: on-call модель, escalation policy, blameless postmortems и метрики зрелости.

Открыть главу
4

Site Reliability Engineering (short summary)

Обзор книгиmedium

Как Google управляет production: SLO, error budgets, toil, on-call, postmortems и четыре золотых сигнала.

Открыть главу
5

The Site Reliability Workbook (short summary)

Обзор книгиhard

Практическое продолжение SRE Book: SLO на практике, alerting, incident response и case studies от Google.

Открыть главу
6

Release It! (short summary)

Обзор книгиmedium

Паттерны устойчивости от Michael Nygard: timeouts, circuit breakers, bulkheads и защита от cascade failures.

Открыть главу
7

Grokking Continuous Delivery (short summary)

Обзор книгиeasy

Практическое введение в CI/CD от Christie Wilson: пайплайны, version control, безопасное развёртывание и DORA метрики.

Открыть главу
8

Observability & Monitoring Design

Авторский материалmedium

Практический дизайн observability-платформы: логи, метрики, distributed tracing, SLO-based alerting, runbooks и feedback loop для production.

Открыть главу
9

Distributed tracing в микросервисах (Jaeger, Tempo)

Авторский материалmedium

Практический разбор distributed tracing в микросервисах: архитектура tracing-контура, Jaeger и Tempo, write/read path, sampling и операционные trade-offs.

Открыть главу
10

Performance Engineering

Авторский материалmedium

Системный подход к производительности: latency optimization, profiling, capacity planning и performance budget в production.

Открыть главу
11

Chaos Engineering: Gremlin, Litmus, Chaos Monkey

Авторский материалmedium

Практический гайд по chaos engineering: как проектировать безопасные эксперименты и когда выбирать Gremlin, Litmus и Chaos Monkey.

Открыть главу
12

Engineering Reliable Mobile Applications (short summary)

Обзор книгиmedium

Mobile SRE от Google: staged rollout, feature flags, клиентская телеметрия и влияние на backend.

Открыть главу
13

Эволюция SRE: внедрение AI-ассистента в Т-Банке

Авторский материалhard

Разбор доклада Ивана Юрченко о платформизации инцидент-менеджмента, SRE AI-ассистенте, LogAnalyzer и метриках качества ответов.

Открыть главу
14

Prometheus: The Documentary

Документальный фильмmedium

История Prometheus: SoundCloud, PromQL и путь к стандарту для cloud-native мониторинга.

Открыть главу
15

eBPF: The Documentary

Документальный фильмhard

Unlocking The Kernel — как технология расширения ядра Linux изменила networking, security и observability.

Открыть главу
16

AI, DevOps, and Kubernetes: Kelsey Hightower on What's Next

Документальный фильмmedium

Интервью с Келси Хайтауэром о Platform Engineering, эволюции DevOps, зрелости Kubernetes, роли API-контрактов, AI guardrails и значимости soft skills.

Открыть главу
17

Техношоу «Дропнуто»: выпуск 1

Документальный фильмmedium

Blameless-разбор двухнедельного инцидента в data-платформе Т-Банка: потеря метаданных, восстановление через Kafka/контракты и практические выводы по SRE для данных.

Открыть главу