System Design SpaceSystem Design Space
Вернуться к оглавлению

ML Engineering

14 глав

На этой странице собраны все главы темы. Открывайте главы по порядку или используйте страницу как карту раздела.

1

ML Engineering: как проектировать модели, конвейеры и рабочий контур

Авторский материаллёгкий

Вводная карта ML Engineering: метрики, данные, обучение, сервинг (serving), платформенная ответственность и эксплуатация моделей в рабочей среде.

Открыть главу
2

Machine Learning System Design (short summary)

Обзор книгисложный

Практическое руководство от Babushkin и Kravchenko: анализ проблемы, метрики, работа с данными, типичные ошибки и подготовка к ML интервью.

Открыть главу
3

Precision и recall на пальцах

Авторский материаллёгкий

Простое объяснение точности, полноты, выбора порога, ROC AUC и PR AUC на примере истории про Васю и волка.

Открыть главу
4

ML Lifecycle: от данных и обучения до рабочей среды и контуров обратной связи

Авторский материалсредний

Практическая карта жизненного цикла ML-системы: контракты на данные, обучение, проверка качества, реестр моделей, выпуск, мониторинг и переобучение.

Открыть главу
5

Выпуск моделей, калибровка и контуры экспериментов

Авторский материалсредний

Как безопасно выпускать ML-модели: калибровка, настройка порогов, теневой режим, канареечный запуск, A/B-эксперименты и откат.

Открыть главу
6

Сервинг моделей и архитектура вывода

Авторский материалсредний

Как проектировать рабочий контур вывода для ML- и LLM-систем: онлайновый, пакетный и потоковый режимы, автомасштабирование, маршрутизация CPU/GPU, деградация и компромиссы между задержкой и стоимостью.

Открыть главу
7

Человек в контуре, качество данных и операционный цикл AI

Авторский материалсредний

Операционный контур ML-систем: сбор обратной связи, процессы разметки, качество данных, разбор ошибок, расследование дрейфа и сигналы к переобучению.

Открыть главу
8

ML Ops Pipeline

Практический кейссложный

Кейс про MLOps-контур: данные, признаки, обучение, реестр моделей, поэтапный запуск, рабочий вывод и мониторинг дрейфа как единая инженерная система.

Открыть главу
9

Хранилище признаков и сервинг моделей

Практический кейссложный

Кейс про хранилище признаков и сервинг моделей: как сохранить один смысл признаков между обучением и рабочим контуром, выдержать корректность по моменту наблюдения и контролировать расхождение между офлайном и онлайном.

Открыть главу
10

История появления Google TPU и их эволюции

Авторский материалсредний

Как Google прошла путь от TPU v1 для вывода до Ironwood: архитектурные компромиссы, экономика вычислений и отличие TPU-подхода от GPU.

Открыть главу
11

История AI-ускорителей NVIDIA

Авторский материалсредний

Как NVIDIA прошла путь от программируемых GPU и CUDA до Tensor Cores, DGX, H100, Blackwell и rack-scale AI-инфраструктуры: архитектурные развилки, экосистема и экономика вычислений.

Открыть главу
12

ML-платформа в Т-Банке: всеобщее благо или лучше не надо

Авторский материалсредний

Разбор интервью о развитии ML-платформы в Т-Банке: как перейти от ручного SSH-подхода к платформенной инженерии, общим потокам данных и зрелой эксплуатации моделей.

Открыть главу
13

ML-система оценки мошенничества и риска

Практический кейссложный

Практический ML-кейс: путь скоринга в реальном времени, ручная проверка, запаздывающие метки, настройка порогов, дрейф и следующий цикл калибровки.

Открыть главу
14

Архитектура ранжирования и рекомендаций для ML-систем

Авторский материалсредний

Как проектировать контур рекомендаций: генерацию кандидатов, ранжирование, слой правил, свежесть данных, обратную связь и следующий цикл обучения.

Открыть главу