Глава 155. Эволюция SRE: внедрение AI-ассистента в Т-Банке

Источник

Доклад Ивана Юрченко

Platform Engineering Night: эволюция incident management и внедрение AI-ассистента в SRE-процессы.

Эволюция SRE в Т-Банке в этом докладе показана через переход от платформизации и автоматизации к роботизации с помощью AI. Выступление Ивана Юрченко (FineDog Growth) опубликовано 28 апреля 2025 года и сфокусировано на внедрении ассистентов в полный lifecycle инцидентов: от детекции до post-analysis.

Контекст выступления

Докладчик

Иван Юрченко

Руководитель FineDog Growth в Т-Банке.

Конференция

Platform Engineering Night

Доклад о внедрении AI-ассистентов в практику SRE-команд.

Дата выступления

28 апреля 2025

Дата публикации выступления на YouTube.

Эволюция инструментов инцидент-менеджмента

1. Платформизация

Объединение разрозненных инструментов в единый контур incident management с общей моделью контекста и ответственности.

2. Автоматизация

Ускорение рутинных действий: сбор фактов, маршрутизация, подготовка артефактов для диагностики и post-analysis.

3. Роботизация

AI-помощники переходят от подсказок к поддержке принятия решений и выявлению аномалий до критической фазы инцидента.

Жизненный цикл инцидента и роль AI

Детекция

Выявление отклонений и сбор первичных сигналов из observability-контура.

Кластеризация и приоритизация сигналов, фильтрация шума.

Работа с инцидентом

Диагностика, сбор контекста, синхронизация команд и выбор гипотез.

Подсказка runbook-ов, поиск похожих кейсов, помощь с коммуникацией.

Пост-анализ

Фиксация причин, решений, preventive actions и обновление базы знаний.

Автогенерация черновиков postmortem и структурирование выводов.

AI-проекты в incident management

Summarizer

Система агрегирует события, коммуникации и факты инцидента, затем формирует черновики пост-анализов для ускорения RCA-процесса.

Снижает ручной toil при подготовке пост-анализов.
Помогает выявлять повторяющиеся паттерны инцидентов.
Повышает консистентность структуры postmortem-документов.

LogAnalyzer

Инструмент анализирует логи, ищет связанные инциденты и визуализирует аномалии для ускорения диагностики.

Логи выгружаются из Sage каждые 5 минут.
Далее выполняются предобработка и сегментация текста.
Используются TF-IDF и трансформеры для векторизации.
Аномалии отображаются в 3D-пространстве.

SRE-ассистент: ключевые сценарии

Интеграция с корпоративным мессенджером Time для входа в сценарии из дежурных каналов.
Работа с инцидентами: контекст, статус, draft-постанализа и follow-up действия.
Поиск и извлечение данных из внутренних баз знаний через RAG-подход.
Управление дежурствами и операционными запросами без выхода из мессенджера.
Оркестрация запросов к ботам и LLM-агентам в одном пользовательском интерфейсе.

Метрики качества и эффективности

SRE-ассистент

Precision

0.54

Recall

0.43

Оценка на ручной разметке примерно 600 запросов.

LogAnalyzer

Precision

0.64

Recall

0.85

Высокий recall важен для снижения риска пропуска аномалий.

Перспективы развития

Новые итерации SRE-ассистента с улучшенным качеством ответов и покрытием сценариев.
Улучшение метрик: отдельный контроль галлюцинаций, полноты и ошибок периодов.
Усиление контура обнаружения аномалий и tighter integration с incident workflow.
Продолжение обмена практиками с профессиональным сообществом platform/SRE engineering.

Практический чеклист

Начинайте AI в incident management с узких сценариев высокого ROI: summarization, поиск контекста, triage.
Определяйте контракт качества заранее: precision/recall, полнота ответа, допустимый уровень галлюцинаций.
Интегрируйте ассистента в существующие каналы работы on-call (мессенджер, тикеты, runbooks), а не в изолированный UI.
Проектируйте observability для самого ассистента: какие подсказки использованы и почему принято то или иное предложение.
Используйте co-development с SRE-командами, чтобы golden paths были полезны в реальных инцидентах, а не только в демо.

Связанные главы

Зачем нужны надёжность и SRE

Фундамент SLO, incident response и reliability-практик.

Observability & Monitoring Design

Сигналы, алерты и runbooks для production-инцидентов.

Техношоу «Дропнуто»: выпуск 1

Практический incident case в data-платформе Т-Банка.

ML-платформа в Т-Банке: всеобщее благо или лучше не надо

Platform engineering компромиссы и DevEx для ML-направлений.

AI в SDLC: путь от ассистентов к агентам

Контекст эволюции AI-инструментов в инженерных процессах.

Эволюция SRE: внедрение AI-ассистента в Т-Банке

Контекст выступления

Эволюция инструментов инцидент-менеджмента

1. Платформизация

2. Автоматизация

3. Роботизация

Жизненный цикл инцидента и роль AI

Детекция

Работа с инцидентом

Пост-анализ

AI-проекты в incident management

Summarizer

LogAnalyzer

SRE-ассистент: ключевые сценарии

Метрики качества и эффективности

SRE-ассистент

LogAnalyzer

Перспективы развития

Практический чеклист

Связанные главы

References