System Design Space
Граф знанийНастройки

Обновлено: 5 апреля 2026 г. в 18:39

ML-платформа в Т-Банке: всеобщее благо или лучше не надо

средний

Разбор интервью о развитии ML-платформы в Т-Банке: как перейти от ручного SSH-подхода к платформенной инженерии, общим потокам данных и зрелой эксплуатации моделей.

Платформенный взгляд на ML особенно важен там, где нужно масштабировать не одну модель, а способ работы десятков команд с моделями.

Глава показывает, как потоки данных, инженерная среда и стандартные процессы выпуска собираются в единый рабочий контур.

Для интервью это сильный материал о платформенной ответственности, организационном дизайне и зрелости ML-подхода.

Практическая польза главы

Платформенная ценность

Посмотреть на ML-платформу как на продукт для инженеров, а не как на набор разрозненных инструментов.

Организационный дизайн

Увидеть, как структура команды и платформенные практики влияют на скорость поставки моделей.

Эксплуатационная зрелость

Понять, как стандартизация снижает хаос вокруг выпуска и сопровождения ML-систем.

Материал для интервью

Получить живой пример платформенного развития вместо абстрактной теории.

Источник

Желтый AI Club Talks

Интервью о том, как в Т-Банке развивали ML-платформу: от ручного SSH-подхода к зрелому платформенному продукту.

Смотреть интервью

ML-платформа в Т-Банке показана здесь как инфраструктурный продукт, который помогает командам перейти от ручной работы по SSH к . Платформа берёт на себя вычисления, резервирование, наблюдаемость и повторяемые процессы, чтобы инженеры могли думать о моделях и пользе для продукта, а не о постоянной ручной эксплуатации.

Её задача не в том, чтобы спрятать сложность за «магией», а в том, чтобы дать командам понятный режим , сильный и устойчивую .

Кто участвовал в интервью

Ведущий

Даниил Гаврилов

Руководитель исследовательской команды в Т-Банке.

Гость

Михаил Чебаков

Руководитель разработки ML-платформы в Т-Банке.

Эволюция платформы

Ранний этап

SSH-кластеры и ручное управление

Команды работали напрямую на серверах через SSH. Такой подход давал ощущение полного контроля, но плохо масштабировался и осложнял повторяемость экспериментов.

Первый платформенный шаг

Простой оркестратор

Появился слой планирования задач и распределения ресурсов. Он повысил загрузку серверов и сократил объём ручной работы.

Зрелый этап

ML-платформа как продукт

Фокус сместился к платформенным примитивам для данных и рабочих процессов, режиму самообслуживания и стандартным путям для разработки, выпуска и эксплуатации моделей.

Три ключевых домена ML-платформы

1. Инженерный опыт

Интерактивная работа инженера с коротким циклом обратной связи.

Быстрые эксперименты, удобный запуск окружений, предсказуемое поведение инструментов.

2. Рабочие конвейеры

Автоматизация устойчивых ML-процессов с акцентом на воспроизводимость и повторяемый выпуск.

Стандартизованные конвейеры, версии артефактов, проверки качества.

3. Развертывание и эксплуатация

Надёжный рабочий контур, где ML-решения дают измеримый эффект для продукта и бизнеса.

Целевые уровни сервиса, мониторинг, деградация, управление стоимостью и мощностями.

ЭкспериментыКонвейерыПольза в продукте

Самая важная функция: управление данными

Критичным элементом стала возможность создавать рабочие папки/пространства данных, доступные из любой точки кластера, с автоматическим резервным копированием.

Это снижает риск потери артефактов экспериментов, упрощает обработку нестандартных данных и помогает переносить работу между вычислительными контурами.

Почему команды сопротивляются миграции с SSH

Ощущение полного контроля

SSH-подход понятен и прозрачен: инженер видит окружение напрямую и быстро подстраивает знакомые инструменты под свою задачу.

Скрытая цена такого подхода

На масштабе это приводит к проблемам с воспроизводимостью, потерей данных и сложностью эксплуатации множества ручных сценариев.

Принципы проектирования платформы

Делать правильный путь простым

Платформа должна вести пользователя к корректным практикам по умолчанию: воспроизводимости, логированию, резервному копированию и безопасному выпуску изменений.

Делать неправильный путь сложным

Если сценарий создаёт риски, например ведёт к потере данных, неповторяемому запуску или ручной эксплуатации, платформа должна усложнять такой путь или блокировать его.

UX важен не меньше архитектуры

Технически гибкое решение ещё не значит удобное: функции должны легко находиться и быть понятны без чтения длинной документации.

Как измерять эффективность ML-платформы

Платформа приносит пользу не только тогда, когда ускоряет эксперименты. Она должна поддерживать предсказуемый моделей, короткий и понятную в рабочих сценариях.

  • Базовые продуктовые метрики платформы: сколько инженеров и команд ею пользуются и возвращаются к ней регулярно.
  • Регулярные опросы и замеры удовлетворённости в разных ML-направлениях.
  • Использование платформы самой платформенной командой, а не только внешними пользователями.
  • Совместная разработка с продуктовыми командами вместо изолированного развития платформы.

Разнообразие ML-направлений

Платформа одновременно поддерживает направления с очень разными требованиями к данным, вычислениям, задержке и воспроизводимости. Одна универсальная абстракция для всех доменов здесь не работает.

Исследовательские задачи
Рекомендательные системы
Компьютерное зрение
Генерация изображений
LLM-системы
Прикладная обработка естественного языка
Антифрод
Скоринговые модели риска
Распознавание речи
Синтез речи

Практический чеклист

  • Разделяйте интерактивный контур инженера и рабочие конвейеры, но связывайте их единым контрактом артефактов.
  • С самого начала закладывайте переносимость между кластерами и резервное копирование рабочих данных.
  • Опишите типовой путь для обучения, вывода и мониторинга, а нестандартные сценарии оформляйте как расширения.
  • Проверяйте удобство новых функций на реальных командах до массового поэтапного запуска, чтобы снизить сопротивление миграции с SSH-подхода.
  • Оценивайте платформу не только по надёжности, но и по скорости поставки моделей и воспроизводимости результатов.

Источники

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки