Источник
Доклад Ивана Юрченко
Platform Engineering Night: эволюция incident management и внедрение AI-ассистента в SRE-процессы.
Эволюция SRE в Т-Банке в этом докладе показана через переход от платформизации и автоматизации к роботизации с помощью AI. Выступление Ивана Юрченко (FineDog Growth) опубликовано 28 апреля 2025 года и сфокусировано на внедрении ассистентов в полный lifecycle инцидентов: от детекции до post-analysis.
Контекст выступления
Докладчик
Иван Юрченко
Руководитель FineDog Growth в Т-Банке.
Конференция
Platform Engineering Night
Доклад о внедрении AI-ассистентов в практику SRE-команд.
Дата выступления
28 апреля 2025
Дата публикации выступления на YouTube.
Эволюция инструментов инцидент-менеджмента
1. Платформизация
Объединение разрозненных инструментов в единый контур incident management с общей моделью контекста и ответственности.
2. Автоматизация
Ускорение рутинных действий: сбор фактов, маршрутизация, подготовка артефактов для диагностики и post-analysis.
3. Роботизация
AI-помощники переходят от подсказок к поддержке принятия решений и выявлению аномалий до критической фазы инцидента.
Жизненный цикл инцидента и роль AI
Детекция
Выявление отклонений и сбор первичных сигналов из observability-контура.
Кластеризация и приоритизация сигналов, фильтрация шума.
Работа с инцидентом
Диагностика, сбор контекста, синхронизация команд и выбор гипотез.
Подсказка runbook-ов, поиск похожих кейсов, помощь с коммуникацией.
Пост-анализ
Фиксация причин, решений, preventive actions и обновление базы знаний.
Автогенерация черновиков postmortem и структурирование выводов.
AI-проекты в incident management
Summarizer
Система агрегирует события, коммуникации и факты инцидента, затем формирует черновики пост-анализов для ускорения RCA-процесса.
- Снижает ручной toil при подготовке пост-анализов.
- Помогает выявлять повторяющиеся паттерны инцидентов.
- Повышает консистентность структуры postmortem-документов.
LogAnalyzer
Инструмент анализирует логи, ищет связанные инциденты и визуализирует аномалии для ускорения диагностики.
- Логи выгружаются из Sage каждые 5 минут.
- Далее выполняются предобработка и сегментация текста.
- Используются TF-IDF и трансформеры для векторизации.
- Аномалии отображаются в 3D-пространстве.
SRE-ассистент: ключевые сценарии
- Интеграция с корпоративным мессенджером Time для входа в сценарии из дежурных каналов.
- Работа с инцидентами: контекст, статус, draft-постанализа и follow-up действия.
- Поиск и извлечение данных из внутренних баз знаний через RAG-подход.
- Управление дежурствами и операционными запросами без выхода из мессенджера.
- Оркестрация запросов к ботам и LLM-агентам в одном пользовательском интерфейсе.
Метрики качества и эффективности
SRE-ассистент
Precision
0.54
Recall
0.43
Оценка на ручной разметке примерно 600 запросов.
LogAnalyzer
Precision
0.64
Recall
0.85
Высокий recall важен для снижения риска пропуска аномалий.
Перспективы развития
- Новые итерации SRE-ассистента с улучшенным качеством ответов и покрытием сценариев.
- Улучшение метрик: отдельный контроль галлюцинаций, полноты и ошибок периодов.
- Усиление контура обнаружения аномалий и tighter integration с incident workflow.
- Продолжение обмена практиками с профессиональным сообществом platform/SRE engineering.
Практический чеклист
- Начинайте AI в incident management с узких сценариев высокого ROI: summarization, поиск контекста, triage.
- Определяйте контракт качества заранее: precision/recall, полнота ответа, допустимый уровень галлюцинаций.
- Интегрируйте ассистента в существующие каналы работы on-call (мессенджер, тикеты, runbooks), а не в изолированный UI.
- Проектируйте observability для самого ассистента: какие подсказки использованы и почему принято то или иное предложение.
- Используйте co-development с SRE-командами, чтобы golden paths были полезны в реальных инцидентах, а не только в демо.
Связанные главы
Зачем нужны надёжность и SRE
Фундамент SLO, incident response и reliability-практик.
Observability & Monitoring Design
Сигналы, алерты и runbooks для production-инцидентов.
Техношоу «Дропнуто»: выпуск 1
Практический incident case в data-платформе Т-Банка.
ML-платформа в Т-Банке: всеобщее благо или лучше не надо
Platform engineering компромиссы и DevEx для ML-направлений.
AI в SDLC: путь от ассистентов к агентам
Контекст эволюции AI-инструментов в инженерных процессах.
References
- YouTube: Эволюция SRE: внедрение AI-ассистента в Т-Банке
- Telegram: пост #3598 (book_cube)
- Конференция Platform Engineering Night
- FineDog: платформа инцидент-менеджмента Т-Банка
- Sage: observability-платформа Т-Банка
- Telegram: AI и Platform Engineering (#3490)
- Telegram: AI-ассистент для кода (#3515)
- Telegram: AI-помощники при работе с кодом (#3518)
- Telegram: обзор процессов надежности в Т-Банке (#3556)
