System Design Space

    Глава 182

    Обновлено: 14 февраля 2026 г. в 12:30

    ML-платформа в Т-Банке: всеобщее благо или лучше не надо

    Прогресс части0/16

    Разбор интервью о развитии ML-платформы в Т-Банке: от SSH-контуров к platform engineering, data workflows и production эксплуатации.

    Источник

    Желтый AI Club Talks

    Интервью о философии, эволюции и практических компромиссах построения ML-платформы в Т-Банке.

    Смотреть интервью

    ML-платформа в Т-Банке рассматривается как инфраструктурный продукт, который должен быть почти незаметен в повседневной работе команд, но критичен для масштабирования ML-производства. Ключевая идея: инкапсулировать операционные сложности (ресурсы, отказоустойчивость, мониторинг, воспроизводимость), чтобы инженеры фокусировались на моделях и продуктовой ценности.

    Кто участвовал в интервью

    Ведущий

    Даниил Гаврилов

    Руководитель Research-команды (Т-Банк).

    Гость

    Михаил Чебаков

    Руководитель разработки платформ ML (Т-Банк).

    Эволюция платформы

    Ранний этап

    SSH-кластеры и ручное управление

    Команды работали напрямую на серверах через SSH. Это давало контроль, но плохо масштабировалось и осложняло воспроизводимость экспериментов.

    Первый платформенный шаг

    Простой оркестратор

    Появился слой планирования задач и распределения ресурсов, что повысило утилизацию серверов и снизило долю ручных операций.

    Зрелый этап

    ML-платформа как продукт

    Фокус сместился на data/workflow primitives, self-service и стандартизированные пути для разработки, продакшна и эксплуатации моделей.

    Три ключевых домена ML-платформы

    1. Инженерный опыт

    Интерактивная работа одного инженера с минимальным циклом обратной связи.

    Быстрые эксперименты, удобный запуск сред, predictable UX.

    2. Производственные конвейеры

    Автоматизация устойчивых ML-процессов с акцентом на воспроизводимость.

    Стандартизованные пайплайны, версионирование артефактов, контроль качества.

    3. Развертывание и эксплуатация

    Надежный runtime-контур, где ML-решения приносят измеримую пользу бизнесу.

    SLO, мониторинг, деградация, управление стоимостью и мощностями.

    ЭкспериментыПайплайныПродакшн value

    Самая важная функция: управление данными

    Критичным элементом стала возможность создавать рабочие папки/пространства данных, доступные из любой точки кластера, с автоматическим резервным копированием.

    Это снижает риск потери артефактов экспериментов, упрощает обработку нестандартных данных и помогает переносить работу между вычислительными контурами.

    Почему команды сопротивляются миграции с SSH

    Ощущение полного контроля

    SSH-подход понятен и прозрачен: инженер видит окружение напрямую и быстро адаптирует open-source инструменты.

    Скрытая цена такого подхода

    На масштабе это приводит к проблемам с воспроизводимостью, потерей данных и сложностью эксплуатации множества ручных сценариев.

    Принципы проектирования платформы

    Делать правильный путь простым

    Платформа должна направлять пользователя к корректным практикам по умолчанию: воспроизводимости, логированию, резервному копированию и безопасным деплоям.

    Делать неправильный путь сложным

    Если сценарий ведет к рискам (потеря данных, неповторяемый запуск, ручная эксплуатация), платформа должна усложнять такой путь или блокировать его.

    UX важен не меньше архитектуры

    Технически гибкое решение не равно удобному: функции должны быть discoverable и понятны без чтения длинной документации.

    Как измерять эффективность ML-платформы

    • Базовые метрики adoption: число пользователей, команд, retention.
    • Периодические опросы и замеры удовлетворенности разных ML-направлений.
    • Dogfooding: использование платформы самой платформенной командой.
    • Co-development с продуктовыми командами вместо изоляции платформы.

    Разнообразие ML-направлений

    Платформа одновременно поддерживает направления с разными требованиями к данным, hardware, latency и воспроизводимости. Универсальная абстракция без domain-awareness здесь не работает.

    R&D
    RecSys
    CV
    Генерация изображений
    LLM
    Прикладное NLP
    Антифрод
    Рисковые скоринги
    Распознавание речи
    Синтез речи

    Практический чеклист

    • Отделяйте интерактивный DevEx-контур от production pipeline, но соединяйте их единым контрактом артефактов.
    • Сразу проектируйте переносимость между кластерами и резервное копирование рабочих данных.
    • Фиксируйте golden path для типовых задач (обучение, инференс, мониторинг), а нестандартные сценарии оформляйте как расширения.
    • Проверяйте UX новых функций на реальных командах до массового rollout, чтобы снизить сопротивление миграции с SSH-подхода.
    • Оценивайте платформу не только по uptime, но и по скорости ML delivery и воспроизводимости результатов.

    Связанные главы

    References