Источник
Желтый AI Club Talks
Интервью о философии, эволюции и практических компромиссах построения ML-платформы в Т-Банке.
ML-платформа в Т-Банке рассматривается как инфраструктурный продукт, который должен быть почти незаметен в повседневной работе команд, но критичен для масштабирования ML-производства. Ключевая идея: инкапсулировать операционные сложности (ресурсы, отказоустойчивость, мониторинг, воспроизводимость), чтобы инженеры фокусировались на моделях и продуктовой ценности.
Кто участвовал в интервью
Ведущий
Даниил Гаврилов
Руководитель Research-команды (Т-Банк).
Гость
Михаил Чебаков
Руководитель разработки платформ ML (Т-Банк).
Эволюция платформы
Ранний этап
SSH-кластеры и ручное управление
Команды работали напрямую на серверах через SSH. Это давало контроль, но плохо масштабировалось и осложняло воспроизводимость экспериментов.
Первый платформенный шаг
Простой оркестратор
Появился слой планирования задач и распределения ресурсов, что повысило утилизацию серверов и снизило долю ручных операций.
Зрелый этап
ML-платформа как продукт
Фокус сместился на data/workflow primitives, self-service и стандартизированные пути для разработки, продакшна и эксплуатации моделей.
Три ключевых домена ML-платформы
1. Инженерный опыт
Интерактивная работа одного инженера с минимальным циклом обратной связи.
Быстрые эксперименты, удобный запуск сред, predictable UX.
2. Производственные конвейеры
Автоматизация устойчивых ML-процессов с акцентом на воспроизводимость.
Стандартизованные пайплайны, версионирование артефактов, контроль качества.
3. Развертывание и эксплуатация
Надежный runtime-контур, где ML-решения приносят измеримую пользу бизнесу.
SLO, мониторинг, деградация, управление стоимостью и мощностями.
Самая важная функция: управление данными
Критичным элементом стала возможность создавать рабочие папки/пространства данных, доступные из любой точки кластера, с автоматическим резервным копированием.
Это снижает риск потери артефактов экспериментов, упрощает обработку нестандартных данных и помогает переносить работу между вычислительными контурами.
Почему команды сопротивляются миграции с SSH
Ощущение полного контроля
SSH-подход понятен и прозрачен: инженер видит окружение напрямую и быстро адаптирует open-source инструменты.
Скрытая цена такого подхода
На масштабе это приводит к проблемам с воспроизводимостью, потерей данных и сложностью эксплуатации множества ручных сценариев.
Принципы проектирования платформы
Делать правильный путь простым
Платформа должна направлять пользователя к корректным практикам по умолчанию: воспроизводимости, логированию, резервному копированию и безопасным деплоям.
Делать неправильный путь сложным
Если сценарий ведет к рискам (потеря данных, неповторяемый запуск, ручная эксплуатация), платформа должна усложнять такой путь или блокировать его.
UX важен не меньше архитектуры
Технически гибкое решение не равно удобному: функции должны быть discoverable и понятны без чтения длинной документации.
Как измерять эффективность ML-платформы
- Базовые метрики adoption: число пользователей, команд, retention.
- Периодические опросы и замеры удовлетворенности разных ML-направлений.
- Dogfooding: использование платформы самой платформенной командой.
- Co-development с продуктовыми командами вместо изоляции платформы.
Разнообразие ML-направлений
Платформа одновременно поддерживает направления с разными требованиями к данным, hardware, latency и воспроизводимости. Универсальная абстракция без domain-awareness здесь не работает.
Практический чеклист
- Отделяйте интерактивный DevEx-контур от production pipeline, но соединяйте их единым контрактом артефактов.
- Сразу проектируйте переносимость между кластерами и резервное копирование рабочих данных.
- Фиксируйте golden path для типовых задач (обучение, инференс, мониторинг), а нестандартные сценарии оформляйте как расширения.
- Проверяйте UX новых функций на реальных командах до массового rollout, чтобы снизить сопротивление миграции с SSH-подхода.
- Оценивайте платформу не только по uptime, но и по скорости ML delivery и воспроизводимости результатов.
Связанные главы
Краткий обзор платформы данных Т-Банка
Как устроен data-контур и governance на масштабе банка.
Эволюция архитектуры Т-Банка
Переход от коробочных решений к platform engineering и governance.
ML System Design (short summary)
Проектирование end-to-end ML-систем и production-ограничения.
AI Engineering (short summary)
Практики разработки AI-приложений и production workflows.
Hands-On Large Language Models (short summary)
База по LLM-пайплайнам, данным и эксплуатационным паттернам.
