AI-автоматизация в SRE полезна ровно до той точки, пока не начинает создавать ложное чувство контроля.
Разбор Т-Банка показывает, как incident-management platform, AI assistant, LogAnalyzer и quality metrics складываются в новый operating loop, где часть рутинного анализа уходит машине, но требования к trust, explainability и escalation становятся жестче.
В архитектурных обсуждениях глава дает почву говорить о autonomy boundaries, recommendation quality, failure of the assistant itself и реальной цене внедрения AI в on-call workflow.
Практическая польза главы
Практика проектирования
Переводите знания о эволюции SRE automation и применении AI-ассистентов в эксплуатации в конкретные эксплуатационные решения: интерфейсы алертинга, runbook-границы и rollback-стратегии.
Качество решений
Оценивайте архитектуру через SLO, error budget, MTTR и устойчивость critical-path, а не только через функциональную полноту.
Interview articulation
Структурируйте ответ вокруг reliability lifecycle: сигнал деградации, реакция, локализация причины, восстановление и профилактика повторов.
Trade-off framing
Явно фиксируйте компромиссы по эволюции SRE automation и применении AI-ассистентов в эксплуатации: скорость релизов, уровень автоматизации, стоимость observability и операционная сложность.
Источник
Доклад Ивана Юрченко
Platform Engineering Night: эволюция incident management и внедрение AI-ассистента в SRE-процессы.
Эволюция SRE в Т-Банке в этом докладе показана через переход от платформизации и автоматизации к роботизации с помощью AI. Выступление Ивана Юрченко (FineDog Growth) опубликовано 28 апреля 2025 года и сфокусировано на внедрении ассистентов в полный lifecycle инцидентов: от детекции до post-analysis.
Контекст выступления
Докладчик
Иван Юрченко
Руководитель FineDog Growth в Т-Банке.
Конференция
Platform Engineering Night
Доклад о внедрении AI-ассистентов в практику SRE-команд.
Дата выступления
28 апреля 2025
Дата публикации выступления на YouTube.
Эволюция инструментов инцидент-менеджмента
1. Платформизация
Объединение разрозненных инструментов в единый контур incident management с общей моделью контекста и ответственности.
2. Автоматизация
Ускорение рутинных действий: сбор фактов, маршрутизация, подготовка артефактов для диагностики и post-analysis.
3. Роботизация
AI-помощники переходят от подсказок к поддержке принятия решений и выявлению аномалий до критической фазы инцидента.
Жизненный цикл инцидента и роль AI
Детекция
Выявление отклонений и сбор первичных сигналов из observability-контура.
Кластеризация и приоритизация сигналов, фильтрация шума.
Работа с инцидентом
Диагностика, сбор контекста, синхронизация команд и выбор гипотез.
Подсказка runbook-ов, поиск похожих кейсов, помощь с коммуникацией.
Пост-анализ
Фиксация причин, решений, preventive actions и обновление базы знаний.
Автогенерация черновиков postmortem и структурирование выводов.
AI-проекты в incident management
Summarizer
Система агрегирует события, коммуникации и факты инцидента, затем формирует черновики пост-анализов для ускорения RCA-процесса.
- Снижает ручной toil при подготовке пост-анализов.
- Помогает выявлять повторяющиеся паттерны инцидентов.
- Повышает консистентность структуры postmortem-документов.
LogAnalyzer
Инструмент анализирует логи, ищет связанные инциденты и визуализирует аномалии для ускорения диагностики.
- Логи выгружаются из Sage каждые 5 минут.
- Далее выполняются предобработка и сегментация текста.
- Используются TF-IDF и трансформеры для векторизации.
- Аномалии отображаются в 3D-пространстве.
SRE-ассистент: ключевые сценарии
- Интеграция с корпоративным мессенджером Time для входа в сценарии из дежурных каналов.
- Работа с инцидентами: контекст, статус, draft-постанализа и follow-up действия.
- Поиск и извлечение данных из внутренних баз знаний через RAG-подход.
- Управление дежурствами и операционными запросами без выхода из мессенджера.
- Оркестрация запросов к ботам и LLM-агентам в одном пользовательском интерфейсе.
Метрики качества и эффективности
SRE-ассистент
Precision
0.54
Recall
0.43
Оценка на ручной разметке примерно 600 запросов.
LogAnalyzer
Precision
0.64
Recall
0.85
Высокий recall важен для снижения риска пропуска аномалий.
Перспективы развития
- Новые итерации SRE-ассистента с улучшенным качеством ответов и покрытием сценариев.
- Улучшение метрик: отдельный контроль галлюцинаций, полноты и ошибок периодов.
- Усиление контура обнаружения аномалий и tighter integration с incident workflow.
- Продолжение обмена практиками с профессиональным сообществом platform/SRE engineering.
Практический чеклист
- Начинайте AI в incident management с узких сценариев высокого ROI: summarization, поиск контекста, triage.
- Определяйте контракт качества заранее: precision/recall, полнота ответа, допустимый уровень галлюцинаций.
- Интегрируйте ассистента в существующие каналы работы on-call (мессенджер, тикеты, runbooks), а не в изолированный UI.
- Проектируйте observability для самого ассистента: какие подсказки использованы и почему принято то или иное предложение.
- Используйте co-development с SRE-командами, чтобы golden paths были полезны в реальных инцидентах, а не только в демо.
References
- YouTube: Эволюция SRE: внедрение AI-ассистента в Т-Банке
- Telegram: пост #3598 (book_cube)
- Конференция Platform Engineering Night
- FineDog: платформа инцидент-менеджмента Т-Банка
- Sage: observability-платформа Т-Банка
- Telegram: AI и Platform Engineering (#3490)
- Telegram: AI-ассистент для кода (#3515)
- Telegram: AI-помощники при работе с кодом (#3518)
- Telegram: обзор процессов надежности в Т-Банке (#3556)
Связанные главы
- Зачем нужны надёжность и SRE - Фундамент SLO, incident response и reliability-практик.
- Observability & Monitoring Design - Сигналы, алерты и runbooks для production-инцидентов.
- Техношоу «Дропнуто»: выпуск 1 - Практический incident case в data-платформе Т-Банка.
- ML-платформа в Т-Банке: всеобщее благо или лучше не надо - Platform engineering компромиссы и DevEx для ML-направлений.
- AI в SDLC: путь от ассистентов к агентам от Александра Поломодова - Контекст эволюции AI-инструментов в инженерных процессах.
