Глава 182. ML-платформа в Т-Банке: всеобщее благо или лучше не надо

Источник

Желтый AI Club Talks

Интервью о философии, эволюции и практических компромиссах построения ML-платформы в Т-Банке.

ML-платформа в Т-Банке рассматривается как инфраструктурный продукт, который должен быть почти незаметен в повседневной работе команд, но критичен для масштабирования ML-производства. Ключевая идея: инкапсулировать операционные сложности (ресурсы, отказоустойчивость, мониторинг, воспроизводимость), чтобы инженеры фокусировались на моделях и продуктовой ценности.

Кто участвовал в интервью

Ведущий

Даниил Гаврилов

Руководитель Research-команды (Т-Банк).

Гость

Михаил Чебаков

Руководитель разработки платформ ML (Т-Банк).

Эволюция платформы

Ранний этап

SSH-кластеры и ручное управление

Команды работали напрямую на серверах через SSH. Это давало контроль, но плохо масштабировалось и осложняло воспроизводимость экспериментов.

Первый платформенный шаг

Простой оркестратор

Появился слой планирования задач и распределения ресурсов, что повысило утилизацию серверов и снизило долю ручных операций.

Зрелый этап

ML-платформа как продукт

Фокус сместился на data/workflow primitives, self-service и стандартизированные пути для разработки, продакшна и эксплуатации моделей.

Три ключевых домена ML-платформы

1. Инженерный опыт

Интерактивная работа одного инженера с минимальным циклом обратной связи.

Быстрые эксперименты, удобный запуск сред, predictable UX.

2. Производственные конвейеры

Автоматизация устойчивых ML-процессов с акцентом на воспроизводимость.

Стандартизованные пайплайны, версионирование артефактов, контроль качества.

3. Развертывание и эксплуатация

Надежный runtime-контур, где ML-решения приносят измеримую пользу бизнесу.

SLO, мониторинг, деградация, управление стоимостью и мощностями.

ЭкспериментыПайплайныПродакшн value

Самая важная функция: управление данными

Критичным элементом стала возможность создавать рабочие папки/пространства данных, доступные из любой точки кластера, с автоматическим резервным копированием.

Это снижает риск потери артефактов экспериментов, упрощает обработку нестандартных данных и помогает переносить работу между вычислительными контурами.

Почему команды сопротивляются миграции с SSH

Ощущение полного контроля

SSH-подход понятен и прозрачен: инженер видит окружение напрямую и быстро адаптирует open-source инструменты.

Скрытая цена такого подхода

На масштабе это приводит к проблемам с воспроизводимостью, потерей данных и сложностью эксплуатации множества ручных сценариев.

Принципы проектирования платформы

Делать правильный путь простым

Платформа должна направлять пользователя к корректным практикам по умолчанию: воспроизводимости, логированию, резервному копированию и безопасным деплоям.

Делать неправильный путь сложным

Если сценарий ведет к рискам (потеря данных, неповторяемый запуск, ручная эксплуатация), платформа должна усложнять такой путь или блокировать его.

UX важен не меньше архитектуры

Технически гибкое решение не равно удобному: функции должны быть discoverable и понятны без чтения длинной документации.

Как измерять эффективность ML-платформы

Базовые метрики adoption: число пользователей, команд, retention.
Периодические опросы и замеры удовлетворенности разных ML-направлений.
Dogfooding: использование платформы самой платформенной командой.
Co-development с продуктовыми командами вместо изоляции платформы.

Разнообразие ML-направлений

Платформа одновременно поддерживает направления с разными требованиями к данным, hardware, latency и воспроизводимости. Универсальная абстракция без domain-awareness здесь не работает.

R&D

RecSys

Генерация изображений

LLM

Прикладное NLP

Антифрод

Рисковые скоринги

Распознавание речи

Синтез речи

Практический чеклист

Отделяйте интерактивный DevEx-контур от production pipeline, но соединяйте их единым контрактом артефактов.
Сразу проектируйте переносимость между кластерами и резервное копирование рабочих данных.
Фиксируйте golden path для типовых задач (обучение, инференс, мониторинг), а нестандартные сценарии оформляйте как расширения.
Проверяйте UX новых функций на реальных командах до массового rollout, чтобы снизить сопротивление миграции с SSH-подхода.
Оценивайте платформу не только по uptime, но и по скорости ML delivery и воспроизводимости результатов.

Связанные главы

Краткий обзор платформы данных Т-Банка

Как устроен data-контур и governance на масштабе банка.

Эволюция архитектуры Т-Банка

Переход от коробочных решений к platform engineering и governance.

ML System Design (short summary)

Проектирование end-to-end ML-систем и production-ограничения.

AI Engineering (short summary)

Практики разработки AI-приложений и production workflows.

Hands-On Large Language Models (short summary)

База по LLM-пайплайнам, данным и эксплуатационным паттернам.

ML-платформа в Т-Банке: всеобщее благо или лучше не надо