Prometheus: The Documentary
История мониторинга, ставшего стандартом для cloud-native экосистемы
Источник
Книжный куб
Оригинальный пост с рекомендацией документального фильма
О чем фильм
Документальный фильм показывает, как Prometheus родился внутри SoundCloud в 2012 году и стал стандартом де-факто для мониторинга cloud-native приложений. История начинается с проблем надежности и сложности наблюдаемости за собственным оркестратором рабочих нагрузок.
Как развивалась история
SoundCloud и SRE-боль
Два ex-googlers (Julius Volz, Bjorn Rabenstein) отвечали за надежность SoundCloud. Внутри уже был свой оркестратор рабочих нагрузок (до появления Kubernetes).
Неудачные попытки с statsd и graphite
Мониторить кластер этими инструментами оказалось слишком тяжело, поэтому инженеры начали делать систему, похожую на мониторинг Borg в Google.
Рождение Prometheus
Новый подход: pull-модель сбора, time-series база и PromQL для запросов.
Open source и анонс
Код сразу публикуется на GitHub, затем SoundCloud официально анонсирует систему и ее подхватывает другая компания как early-adopter.
Вход в CNCF
Prometheus принимают в CNCF как второй hosted/incubating проект после Kubernetes. Это закрепляет нейтральную governance-модель и ускоряет экосистемный рост.
Graduated-статус в CNCF
Prometheus становится вторым graduated-проектом CNCF после Kubernetes. Для рынка это сигнал зрелости: стабильный governance, активное сообщество и production-ready профиль.
Prometheus v2.40 и native histograms (эксперимент)
В релизе 2.40 появляется экспериментальная поддержка native histograms. Это важный шаг в сторону более точных метрик распределений при высокой нагрузке.
Prometheus 3.0
Выходит мажорный релиз 3.0 (первый major за 7 лет): проект обновляет технический фундамент и продолжает эволюцию без потери роли стандарта cloud-native мониторинга.
Стабилизация 3.x
В ветке 3.x продолжается развитие; поддержка native histograms закрепляется как стабильная (начиная с v3.8), что упрощает использование в production-практике.
Ключевые технические идеи
Pull-модель
Система сама опрашивает цели, что упрощает масштабирование и снижает нагрузку на клиентов.
Time-series база
Оптимизация под метрики, временные ряды и высокую кардинальность.
PromQL
Гибкий язык запросов для агрегаций и вычислений поверх метрик.
Экосистема
Экспортеры, Alertmanager, Grafana и интеграции для Kubernetes.
Полезные ссылки
Связанные материалы
Site Reliability Engineering
Практики надежности, мониторинга и инцидент-менеджмента от Google.
Kubernetes: The Documentary
История создания оркестратора, с которым Prometheus стал стандартом.
Cloud Native
Контейнеры, Kubernetes и observability‑подходы для облачных систем.
Kubernetes Patterns
Паттерны для production‑deployments и экосистемы вокруг Kubernetes.
Building Microservices
Observability как часть архитектуры микросервисов.

