System Design Space

    Глава 155

    Обновлено: 14 февраля 2026 г. в 08:56

    Эволюция SRE: внедрение AI-ассистента в Т-Банке

    Прогресс части0/13

    Разбор доклада Ивана Юрченко о платформизации инцидент-менеджмента, SRE AI-ассистенте, LogAnalyzer и метриках качества ответов.

    Источник

    Доклад Ивана Юрченко

    Platform Engineering Night: эволюция incident management и внедрение AI-ассистента в SRE-процессы.

    Смотреть выступление

    Эволюция SRE в Т-Банке в этом докладе показана через переход от платформизации и автоматизации к роботизации с помощью AI. Выступление Ивана Юрченко (FineDog Growth) опубликовано 28 апреля 2025 года и сфокусировано на внедрении ассистентов в полный lifecycle инцидентов: от детекции до post-analysis.

    Контекст выступления

    Докладчик

    Иван Юрченко

    Руководитель FineDog Growth в Т-Банке.

    Конференция

    Platform Engineering Night

    Доклад о внедрении AI-ассистентов в практику SRE-команд.

    Дата выступления

    28 апреля 2025

    Дата публикации выступления на YouTube.

    Эволюция инструментов инцидент-менеджмента

    1. Платформизация

    Объединение разрозненных инструментов в единый контур incident management с общей моделью контекста и ответственности.

    2. Автоматизация

    Ускорение рутинных действий: сбор фактов, маршрутизация, подготовка артефактов для диагностики и post-analysis.

    3. Роботизация

    AI-помощники переходят от подсказок к поддержке принятия решений и выявлению аномалий до критической фазы инцидента.

    Жизненный цикл инцидента и роль AI

    Детекция

    Выявление отклонений и сбор первичных сигналов из observability-контура.

    Кластеризация и приоритизация сигналов, фильтрация шума.

    Работа с инцидентом

    Диагностика, сбор контекста, синхронизация команд и выбор гипотез.

    Подсказка runbook-ов, поиск похожих кейсов, помощь с коммуникацией.

    Пост-анализ

    Фиксация причин, решений, preventive actions и обновление базы знаний.

    Автогенерация черновиков postmortem и структурирование выводов.

    AI-проекты в incident management

    Summarizer

    Система агрегирует события, коммуникации и факты инцидента, затем формирует черновики пост-анализов для ускорения RCA-процесса.

    • Снижает ручной toil при подготовке пост-анализов.
    • Помогает выявлять повторяющиеся паттерны инцидентов.
    • Повышает консистентность структуры postmortem-документов.

    LogAnalyzer

    Инструмент анализирует логи, ищет связанные инциденты и визуализирует аномалии для ускорения диагностики.

    • Логи выгружаются из Sage каждые 5 минут.
    • Далее выполняются предобработка и сегментация текста.
    • Используются TF-IDF и трансформеры для векторизации.
    • Аномалии отображаются в 3D-пространстве.

    SRE-ассистент: ключевые сценарии

    • Интеграция с корпоративным мессенджером Time для входа в сценарии из дежурных каналов.
    • Работа с инцидентами: контекст, статус, draft-постанализа и follow-up действия.
    • Поиск и извлечение данных из внутренних баз знаний через RAG-подход.
    • Управление дежурствами и операционными запросами без выхода из мессенджера.
    • Оркестрация запросов к ботам и LLM-агентам в одном пользовательском интерфейсе.

    Метрики качества и эффективности

    SRE-ассистент

    Precision

    0.54

    Recall

    0.43

    Оценка на ручной разметке примерно 600 запросов.

    LogAnalyzer

    Precision

    0.64

    Recall

    0.85

    Высокий recall важен для снижения риска пропуска аномалий.

    Перспективы развития

    • Новые итерации SRE-ассистента с улучшенным качеством ответов и покрытием сценариев.
    • Улучшение метрик: отдельный контроль галлюцинаций, полноты и ошибок периодов.
    • Усиление контура обнаружения аномалий и tighter integration с incident workflow.
    • Продолжение обмена практиками с профессиональным сообществом platform/SRE engineering.

    Практический чеклист

    • Начинайте AI в incident management с узких сценариев высокого ROI: summarization, поиск контекста, triage.
    • Определяйте контракт качества заранее: precision/recall, полнота ответа, допустимый уровень галлюцинаций.
    • Интегрируйте ассистента в существующие каналы работы on-call (мессенджер, тикеты, runbooks), а не в изолированный UI.
    • Проектируйте observability для самого ассистента: какие подсказки использованы и почему принято то или иное предложение.
    • Используйте co-development с SRE-командами, чтобы golden paths были полезны в реальных инцидентах, а не только в демо.

    Связанные главы

    References