ML Engineering
14 главНа этой странице собраны все главы темы. Открывайте главы по порядку или используйте страницу как карту раздела.
ML Engineering: как проектировать модели, конвейеры и рабочий контур
Авторский материаллёгкийВводная карта ML Engineering: метрики, данные, обучение, сервинг (serving), платформенная ответственность и эксплуатация моделей в рабочей среде.
Открыть главуMachine Learning System Design (short summary)
Обзор книгисложныйПрактическое руководство от Babushkin и Kravchenko: анализ проблемы, метрики, работа с данными, типичные ошибки и подготовка к ML интервью.
Открыть главуPrecision и recall на пальцах
Авторский материаллёгкийПростое объяснение точности, полноты, выбора порога, ROC AUC и PR AUC на примере истории про Васю и волка.
Открыть главуML Lifecycle: от данных и обучения до рабочей среды и контуров обратной связи
Авторский материалсреднийПрактическая карта жизненного цикла ML-системы: контракты на данные, обучение, проверка качества, реестр моделей, выпуск, мониторинг и переобучение.
Открыть главуВыпуск моделей, калибровка и контуры экспериментов
Авторский материалсреднийКак безопасно выпускать ML-модели: калибровка, настройка порогов, теневой режим, канареечный запуск, A/B-эксперименты и откат.
Открыть главуСервинг моделей и архитектура вывода
Авторский материалсреднийКак проектировать рабочий контур вывода для ML- и LLM-систем: онлайновый, пакетный и потоковый режимы, автомасштабирование, маршрутизация CPU/GPU, деградация и компромиссы между задержкой и стоимостью.
Открыть главуЧеловек в контуре, качество данных и операционный цикл AI
Авторский материалсреднийОперационный контур ML-систем: сбор обратной связи, процессы разметки, качество данных, разбор ошибок, расследование дрейфа и сигналы к переобучению.
Открыть главуML Ops Pipeline
Практический кейссложныйКейс про MLOps-контур: данные, признаки, обучение, реестр моделей, поэтапный запуск, рабочий вывод и мониторинг дрейфа как единая инженерная система.
Открыть главуХранилище признаков и сервинг моделей
Практический кейссложныйКейс про хранилище признаков и сервинг моделей: как сохранить один смысл признаков между обучением и рабочим контуром, выдержать корректность по моменту наблюдения и контролировать расхождение между офлайном и онлайном.
Открыть главуИстория появления Google TPU и их эволюции
Авторский материалсреднийКак Google прошла путь от TPU v1 для вывода до Ironwood: архитектурные компромиссы, экономика вычислений и отличие TPU-подхода от GPU.
Открыть главуИстория AI-ускорителей NVIDIA
Авторский материалсреднийКак NVIDIA прошла путь от программируемых GPU и CUDA до Tensor Cores, DGX, H100, Blackwell и rack-scale AI-инфраструктуры: архитектурные развилки, экосистема и экономика вычислений.
Открыть главуML-платформа в Т-Банке: всеобщее благо или лучше не надо
Авторский материалсреднийРазбор интервью о развитии ML-платформы в Т-Банке: как перейти от ручного SSH-подхода к платформенной инженерии, общим потокам данных и зрелой эксплуатации моделей.
Открыть главуML-система оценки мошенничества и риска
Практический кейссложныйПрактический ML-кейс: путь скоринга в реальном времени, ручная проверка, запаздывающие метки, настройка порогов, дрейф и следующий цикл калибровки.
Открыть главуАрхитектура ранжирования и рекомендаций для ML-систем
Авторский материалсреднийКак проектировать контур рекомендаций: генерацию кандидатов, ранжирование, слой правил, свежесть данных, обратную связь и следующий цикл обучения.
Открыть главу