System Design Space
Граф знанийНастройки

Обновлено: 24 марта 2026 г. в 14:56

ML-платформа в Т-Банке: всеобщее благо или лучше не надо

medium

Разбор интервью о развитии ML-платформы в Т-Банке: от SSH-контуров к platform engineering, data workflows и production эксплуатации.

Хорошая ML-платформа измеряется не количеством сервисов, а тем, насколько меньше трения она создает для команд.

Глава показывает переход от ручных SSH-контуров к platform engineering, где data workflows, production operations и self-service возможности приходится балансировать против платформенного налога.

В архитектурных разговорах это сильный кейс про ownership, internal platform value и тот момент, когда общая платформа начинает либо ускорять, либо замедлять организацию.

Практическая польза главы

Практика проектирования

Переводите знания о ML platform подходе и масштабировании моделей в enterprise-контуре в архитектурные решения по data flow, model serving и контрольным точкам качества.

Качество решений

Оценивайте систему через метрики модели и платформы одновременно: precision/recall, latency, drift, стоимость и операционные риски.

Interview articulation

Структурируйте ответ как цепочку data -> model -> serving -> monitoring, показывая где возникают ограничения и как вы ими управляете.

Trade-off framing

Явно фиксируйте компромиссы по ML platform подходе и масштабировании моделей в enterprise-контуре: скорость экспериментов, качество, explainability, resource budget и сложность поддержки.

Источник

Желтый AI Club Talks

Интервью о философии, эволюции и практических компромиссах построения ML-платформы в Т-Банке.

Смотреть интервью

ML-платформа в Т-Банке рассматривается как инфраструктурный продукт, который должен быть почти незаметен в повседневной работе команд, но критичен для масштабирования ML-производства. Ключевая идея: инкапсулировать операционные сложности (ресурсы, отказоустойчивость, мониторинг, воспроизводимость), чтобы инженеры фокусировались на моделях и продуктовой ценности.

Кто участвовал в интервью

Ведущий

Даниил Гаврилов

Руководитель Research-команды (Т-Банк).

Гость

Михаил Чебаков

Руководитель разработки платформ ML (Т-Банк).

Эволюция платформы

Ранний этап

SSH-кластеры и ручное управление

Команды работали напрямую на серверах через SSH. Это давало контроль, но плохо масштабировалось и осложняло воспроизводимость экспериментов.

Первый платформенный шаг

Простой оркестратор

Появился слой планирования задач и распределения ресурсов, что повысило утилизацию серверов и снизило долю ручных операций.

Зрелый этап

ML-платформа как продукт

Фокус сместился на data/workflow primitives, self-service и стандартизированные пути для разработки, продакшна и эксплуатации моделей.

Три ключевых домена ML-платформы

1. Инженерный опыт

Интерактивная работа одного инженера с минимальным циклом обратной связи.

Быстрые эксперименты, удобный запуск сред, predictable UX.

2. Производственные конвейеры

Автоматизация устойчивых ML-процессов с акцентом на воспроизводимость.

Стандартизованные пайплайны, версионирование артефактов, контроль качества.

3. Развертывание и эксплуатация

Надежный runtime-контур, где ML-решения приносят измеримую пользу бизнесу.

SLO, мониторинг, деградация, управление стоимостью и мощностями.

ЭкспериментыПайплайныПродакшн value

Самая важная функция: управление данными

Критичным элементом стала возможность создавать рабочие папки/пространства данных, доступные из любой точки кластера, с автоматическим резервным копированием.

Это снижает риск потери артефактов экспериментов, упрощает обработку нестандартных данных и помогает переносить работу между вычислительными контурами.

Почему команды сопротивляются миграции с SSH

Ощущение полного контроля

SSH-подход понятен и прозрачен: инженер видит окружение напрямую и быстро адаптирует open-source инструменты.

Скрытая цена такого подхода

На масштабе это приводит к проблемам с воспроизводимостью, потерей данных и сложностью эксплуатации множества ручных сценариев.

Принципы проектирования платформы

Делать правильный путь простым

Платформа должна направлять пользователя к корректным практикам по умолчанию: воспроизводимости, логированию, резервному копированию и безопасным деплоям.

Делать неправильный путь сложным

Если сценарий ведет к рискам (потеря данных, неповторяемый запуск, ручная эксплуатация), платформа должна усложнять такой путь или блокировать его.

UX важен не меньше архитектуры

Технически гибкое решение не равно удобному: функции должны быть discoverable и понятны без чтения длинной документации.

Как измерять эффективность ML-платформы

  • Базовые метрики adoption: число пользователей, команд, retention.
  • Периодические опросы и замеры удовлетворенности разных ML-направлений.
  • Dogfooding: использование платформы самой платформенной командой.
  • Co-development с продуктовыми командами вместо изоляции платформы.

Разнообразие ML-направлений

Платформа одновременно поддерживает направления с разными требованиями к данным, hardware, latency и воспроизводимости. Универсальная абстракция без domain-awareness здесь не работает.

R&D
RecSys
CV
Генерация изображений
LLM
Прикладное NLP
Антифрод
Рисковые скоринги
Распознавание речи
Синтез речи

Практический чеклист

  • Отделяйте интерактивный DevEx-контур от production pipeline, но соединяйте их единым контрактом артефактов.
  • Сразу проектируйте переносимость между кластерами и резервное копирование рабочих данных.
  • Фиксируйте golden path для типовых задач (обучение, инференс, мониторинг), а нестандартные сценарии оформляйте как расширения.
  • Проверяйте UX новых функций на реальных командах до массового rollout, чтобы снизить сопротивление миграции с SSH-подхода.
  • Оценивайте платформу не только по uptime, но и по скорости ML delivery и воспроизводимости результатов.

References

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки