System Design Space
Граф знанийНастройки

Обновлено: 24 марта 2026 г. в 15:23

Эволюция SRE: внедрение AI-ассистента в Т-Банке

hard

Разбор доклада Ивана Юрченко о платформизации инцидент-менеджмента, SRE AI-ассистенте, LogAnalyzer и метриках качества ответов.

AI-автоматизация в SRE полезна ровно до той точки, пока не начинает создавать ложное чувство контроля.

Разбор Т-Банка показывает, как incident-management platform, AI assistant, LogAnalyzer и quality metrics складываются в новый operating loop, где часть рутинного анализа уходит машине, но требования к trust, explainability и escalation становятся жестче.

В архитектурных обсуждениях глава дает почву говорить о autonomy boundaries, recommendation quality, failure of the assistant itself и реальной цене внедрения AI в on-call workflow.

Практическая польза главы

Практика проектирования

Переводите знания о эволюции SRE automation и применении AI-ассистентов в эксплуатации в конкретные эксплуатационные решения: интерфейсы алертинга, runbook-границы и rollback-стратегии.

Качество решений

Оценивайте архитектуру через SLO, error budget, MTTR и устойчивость critical-path, а не только через функциональную полноту.

Interview articulation

Структурируйте ответ вокруг reliability lifecycle: сигнал деградации, реакция, локализация причины, восстановление и профилактика повторов.

Trade-off framing

Явно фиксируйте компромиссы по эволюции SRE automation и применении AI-ассистентов в эксплуатации: скорость релизов, уровень автоматизации, стоимость observability и операционная сложность.

Источник

Доклад Ивана Юрченко

Platform Engineering Night: эволюция incident management и внедрение AI-ассистента в SRE-процессы.

Смотреть выступление

Эволюция SRE в Т-Банке в этом докладе показана через переход от платформизации и автоматизации к роботизации с помощью AI. Выступление Ивана Юрченко (FineDog Growth) опубликовано 28 апреля 2025 года и сфокусировано на внедрении ассистентов в полный lifecycle инцидентов: от детекции до post-analysis.

Контекст выступления

Докладчик

Иван Юрченко

Руководитель FineDog Growth в Т-Банке.

Конференция

Platform Engineering Night

Доклад о внедрении AI-ассистентов в практику SRE-команд.

Дата выступления

28 апреля 2025

Дата публикации выступления на YouTube.

Эволюция инструментов инцидент-менеджмента

1. Платформизация

Объединение разрозненных инструментов в единый контур incident management с общей моделью контекста и ответственности.

2. Автоматизация

Ускорение рутинных действий: сбор фактов, маршрутизация, подготовка артефактов для диагностики и post-analysis.

3. Роботизация

AI-помощники переходят от подсказок к поддержке принятия решений и выявлению аномалий до критической фазы инцидента.

Жизненный цикл инцидента и роль AI

Детекция

Выявление отклонений и сбор первичных сигналов из observability-контура.

Кластеризация и приоритизация сигналов, фильтрация шума.

Работа с инцидентом

Диагностика, сбор контекста, синхронизация команд и выбор гипотез.

Подсказка runbook-ов, поиск похожих кейсов, помощь с коммуникацией.

Пост-анализ

Фиксация причин, решений, preventive actions и обновление базы знаний.

Автогенерация черновиков postmortem и структурирование выводов.

AI-проекты в incident management

Summarizer

Система агрегирует события, коммуникации и факты инцидента, затем формирует черновики пост-анализов для ускорения RCA-процесса.

  • Снижает ручной toil при подготовке пост-анализов.
  • Помогает выявлять повторяющиеся паттерны инцидентов.
  • Повышает консистентность структуры postmortem-документов.

LogAnalyzer

Инструмент анализирует логи, ищет связанные инциденты и визуализирует аномалии для ускорения диагностики.

  • Логи выгружаются из Sage каждые 5 минут.
  • Далее выполняются предобработка и сегментация текста.
  • Используются TF-IDF и трансформеры для векторизации.
  • Аномалии отображаются в 3D-пространстве.

SRE-ассистент: ключевые сценарии

  • Интеграция с корпоративным мессенджером Time для входа в сценарии из дежурных каналов.
  • Работа с инцидентами: контекст, статус, draft-постанализа и follow-up действия.
  • Поиск и извлечение данных из внутренних баз знаний через RAG-подход.
  • Управление дежурствами и операционными запросами без выхода из мессенджера.
  • Оркестрация запросов к ботам и LLM-агентам в одном пользовательском интерфейсе.

Метрики качества и эффективности

SRE-ассистент

Precision

0.54

Recall

0.43

Оценка на ручной разметке примерно 600 запросов.

LogAnalyzer

Precision

0.64

Recall

0.85

Высокий recall важен для снижения риска пропуска аномалий.

Перспективы развития

  • Новые итерации SRE-ассистента с улучшенным качеством ответов и покрытием сценариев.
  • Улучшение метрик: отдельный контроль галлюцинаций, полноты и ошибок периодов.
  • Усиление контура обнаружения аномалий и tighter integration с incident workflow.
  • Продолжение обмена практиками с профессиональным сообществом platform/SRE engineering.

Практический чеклист

  • Начинайте AI в incident management с узких сценариев высокого ROI: summarization, поиск контекста, triage.
  • Определяйте контракт качества заранее: precision/recall, полнота ответа, допустимый уровень галлюцинаций.
  • Интегрируйте ассистента в существующие каналы работы on-call (мессенджер, тикеты, runbooks), а не в изолированный UI.
  • Проектируйте observability для самого ассистента: какие подсказки использованы и почему принято то или иное предложение.
  • Используйте co-development с SRE-командами, чтобы golden paths были полезны в реальных инцидентах, а не только в демо.

References

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки