После предобучения большая языковая модель (LLM) умеет продолжать текст, но это ещё не ассистент: базовая модель просто предсказывает следующий токен, не следует инструкциям и не выровнена под человеческие предпочтения.
Эта глава — про адаптацию базовой модели после предобучения: обучение следованию инструкциям (SFT), эффективный файнтюнинг (LoRA/QLoRA) и выравнивание под предпочтения (DPO/RLHF). Соседние главы разводят границы: оптимизация инференса — про сервинг готовой модели, RAG — про подачу контекста извлечением, обзор AI Engineering — про общую картину.
Дальше разбираем конвейер pretraining → SFT → выравнивание, развилку «файнтюнить vs prompt/RAG», экономику full против PEFT, сбор и оценку предпочтений и типовые ошибки, из-за которых выпуск выровненной модели проседает на рассуждениях и коде.
Практическая польза главы
Три этапа: pretraining → SFT → выравнивание
Предобучение учит предсказанию токена и даёт base-модель; SFT на парах «инструкция → ответ» учит следовать инструкциям; выравнивание на парах предпочтений (DPO/RLHF) доводит модель до полезного ассистента. Пост-тренинг — это SFT плюс выравнивание поверх готовой базовой модели.
SFT и риск забывания
Supervised fine-tuning меняет не знания, а форму поведения: формат, роль, ответ по существу. Маленький или однобокий датасет ведёт к переобучению и катастрофическому забыванию — модель теряет общие способности ради узкого стиля, поэтому данные важнее, чем кажется.
PEFT: LoRA и QLoRA
LoRA (Hu et al., 2021) замораживает веса и вставляет обучаемые матрицы низкого ранга — обучается доля процента параметров. QLoRA (Dettmers et al., 2023) добавляет 4-битную квантизацию базовой модели и резко снижает требования к видеопамяти. Адаптеры весят мегабайты, поэтому их дёшево хранить, версионировать и подгружать на сервинге.
Выравнивание и оценка
RLHF (InstructGPT, Ouyang et al., 2022) строит reward-модель и оптимизирует политику через PPO; DPO (Rafailov et al., 2023) выражает ту же цель напрямую без отдельной reward-модели и RL. Оценку держат слоями — бенчмарки, LLM-judge и A/B — и ловят reward hacking и регрессии на рассуждениях и коде.
Связанная глава
Архитектура RAG-системы
Когда знания лучше подавать извлечением во время запроса, а не зашивать в веса дообучением.
После предобучения уже умеет продолжать текст, но это ещё не ассистент: предобученная просто предсказывает следующий токен, не следует инструкциям и не выровнена под то, что люди считают хорошим ответом. Пост-тренинг закрывает этот разрыв: обучение следованию инструкциям (SFT), эффективный файнтюнинг (LoRA/QLoRA) и выравнивание под предпочтения (DPO/RLHF) превращают предсказатель токенов в собеседника, который держит формат и отвечает по делу. Соседние главы разводят границы: — про сервинг уже готовой модели; — про подачу контекста извлечением; обзор AI Engineering — про общую картину. Эта глава — про то, как из base-модели получают полезного и выровненного ассистента.
Три этапа: pretraining → SFT → выравнивание
Путь от предобучения к выровненной модели идёт через три этапа. Для каждого видно, что подаётся на вход, чему модель учится и что получается на выходе.
SFT: обучение следованию инструкциям
Формат данных
Вход — пары «инструкция → желаемый ответ», часто с системным промптом и шаблоном диалога. Новых фактов модель тут не получает; она перенимает форму поведения: следовать формату, держать роль, отвечать по существу.
Что меняется
Та же языковая модель, та же задача предсказания следующего токена, но распределение данных смещается к демонстрациям «как надо». Это первый шаг, который превращает base-модель в полезного ассистента.
Риски
Маленький или однобокий датасет ведёт к и катастрофическому забыванию: модель теряет общие способности, полученные при предобучении, в обмен на узкий стиль.
Parameter-efficient fine-tuning: LoRA, QLoRA, адаптеры
LoRA
Hu et al. (2021) замораживают веса предобученной модели и вставляют в слои небольшие обучаемые матрицы низкого ранга. Обучается лишь малая доля параметров, а исходные веса не трогаются — отсюда дешёвое хранение множества адаптеров под одну базовую модель.
QLoRA
Dettmers et al. (2023) добавляют 4-битную квантизацию замороженной базовой модели и обучают поверх неё LoRA-адаптеры. Это резко снижает требования к видеопамяти и позволяет дообучать крупные модели там, где полный файнтюнинг недоступен.
Адаптеры и когда хватает
Семейство PEFT (LoRA, адаптеры, prefix/prompt-tuning) хорошо работает, когда нужно адаптировать поведение или домен, а не переучивать модель с нуля. Для стиля, формата и узкой задачи этого почти всегда достаточно.
Под капотом у всего семейства PEFT один приём: обучается малая доля параметров поверх замороженной базовой модели. Отсюда и выгоды — ниже счёт за обучение и память, дешевле хранить множество версий, а одна общая базовая модель продолжает обслуживать всех в продакшене.
Выравнивание под предпочтения: RLHF и DPO
RLHF (reward model + PPO)
Классический путь из InstructGPT (Ouyang et al., 2022): на парах предпочтений обучают отдельную reward-модель, затем политикой PPO дообучают LLM максимизировать её оценку. Мощно, но это полноценный конвейр со своей нестабильностью и стоимостью.
DPO
Rafailov et al. (2023) показывают, что выравнивание по парам предпочтений можно свести к прямой оптимизации простой классификационной функцией потерь — без отдельной reward-модели и без RL-цикла. Заметно проще и стабильнее в обучении.
Варианты (IPO/KTO/ORPO)
Вокруг DPO выросло семейство методов: IPO правит функцию потерь против переобучения на предпочтениях, KTO учится на отдельных оценках «хорошо/плохо» без пар, ORPO встраивает сигнал предпочтений прямо в стадию SFT.
И RLHF, и DPO учат модель на одном и том же сигнале — человеческих предпочтениях между ответами. Разница в механике: RLHF строит отдельную reward-модель и оптимизирует политику через PPO, тогда как DPO выражает ту же цель напрямую и обходится без RL-цикла, что делает его частым выбором по умолчанию.
Данные и оценка
- Сбор предпочтений: пары ответов с разметкой «какой лучше». Качество разметки и согласие между разметчиками напрямую определяют потолок выравнивания.
- Оценка идёт в несколько слоёв: , LLM-judge (модель как арбитр) и продуктовый A/B на живом трафике. Ни один слой не достаточен сам по себе.
- Reward hacking: модель находит способ нравиться reward-модели или судье, не становясь полезнее. Типичный симптом — многословные, уверенные, но пустые ответы.
- Регрессии: выигрыш в стиле и безопасности легко оплатить проседанием на рассуждениях, коде или редких языках. Нужны отдельные срезы, а не одна агрегированная цифра.
Стоимость и инфраструктура
- Полный файнтюнинг обновляет все веса и требует памяти под градиенты и состояния оптимизатора для всей модели; PEFT/LoRA обучает доли процента параметров и снимает большую часть нагрузки на .
- Множество экспериментов означает множество и версий. Адаптеры весят мегабайты вместо десятков гигабайт, поэтому их дёшево хранить, версионировать и сравнивать.
- Адаптеры влияют и на сервинг: одну базовую модель можно держать в памяти и подгружать разные LoRA под арендаторов или задачи. Как это исполняется на узле — тема соседней главы про .
Когда что выбирать: лестница стоимости и контроля
Развилка «файнтюнить vs prompt/RAG» решается не по моде, а по стоимости и нужному уровню контроля. Поднимайтесь по лестнице только тогда, когда предыдущая ступень не решает задачу.
минимум
Промптинг / few-shot
Меняем поведение без обучения — формулировкой задачи и примерами в контексте. Самый дешёвый и быстрый рычаг; пробовать всегда первым.
низкая
RAG
Подаём актуальные знания извлечением во время запроса, не трогая веса. Решает проблему свежести и фактов лучше, чем файнтюнинг. Подробнее — в главе про .
средняя
PEFT (LoRA/QLoRA)
Когда нужно устойчиво поменять стиль, формат или поведение в домене, и промпт/RAG этого не дают. Дёшево обучать и хранить, легко откатывать.
высокая
Full SFT + alignment
Полная адаптация поведения и выравнивание под предпочтения. Максимум контроля и стоимости; оправдан там, где модель — ядро продукта.
Ключевые компромиссы
- Контроль против стоимости: full SFT + alignment даёт максимум управляемости поведением, но это самый дорогой и медленный в итерациях путь.
- Налог на выравнивание: оптимизация под предпочтения и безопасность часто немного снижает пиковые способности модели. Это компромисс, а не баг.
- Данные важнее метода: качество и разнообразие демонстраций и предпочтений почти всегда решают больше, чем выбор между DPO и RLHF.
- PEFT против full: LoRA дешевле и безопаснее для итераций, но при глубокой смене поведения иногда уступает полному файнтюнингу — это нужно проверять, а не предполагать.
Частые ошибки
Рекомендации
Источники и материалы
Карта источников: InstructGPT держит схему RLHF с reward model и PPO; LoRA и QLoRA — семейство parameter-efficient fine-tuning; DPO — preference optimization без отдельной reward-модели; TRL — библиотечную реализацию этих этапов. Выбор между SFT, DPO, RLHF и PEFT остаётся эмпирическим: качество датасета, политика eval и базовая модель важнее названия метода.
Связанные главы
- AI Engineering: обзор - Общая карта работы с LLM в продукте, куда пост-тренинг встраивается как один из рычагов наряду с промптингом, RAG и сервингом.
- Архитектура RAG-системы - Альтернатива файнтюнингу для подачи знаний: извлечение контекста во время запроса вместо зашивания фактов в веса.
- Оптимизация инференса LLM - Что происходит при сервинге уже обученной модели и адаптеров: фазы декодирования, KV-cache, батчинг и стоимость за токен.
- Архитектура сервинга и инференса - Внешний контур исполнения модели: маршрутизация, бюджет задержек, режимы деградации и подгрузка адаптеров под арендаторов.
