Пост-тренинг LLM: SFT, LoRA и выравнивание (DPO/RLHF)

После предобучения большая языковая модель (LLM) умеет продолжать текст, но это ещё не ассистент: базовая модель просто предсказывает следующий токен, не следует инструкциям и не выровнена под человеческие предпочтения.

Эта глава — про адаптацию базовой модели после предобучения: обучение следованию инструкциям (SFT), эффективный файнтюнинг (LoRA/QLoRA) и выравнивание под предпочтения (DPO/RLHF). Соседние главы разводят границы: оптимизация инференса — про сервинг готовой модели, RAG — про подачу контекста извлечением, обзор AI Engineering — про общую картину.

Дальше разбираем конвейер pretraining → SFT → выравнивание, развилку «файнтюнить vs prompt/RAG», экономику full против PEFT, сбор и оценку предпочтений и типовые ошибки, из-за которых выпуск выровненной модели проседает на рассуждениях и коде.

Практическая польза главы

Три этапа: pretraining → SFT → выравнивание

Предобучение учит предсказанию токена и даёт base-модель; SFT на парах «инструкция → ответ» учит следовать инструкциям; выравнивание на парах предпочтений (DPO/RLHF) доводит модель до полезного ассистента. Пост-тренинг — это SFT плюс выравнивание поверх готовой базовой модели.

SFT и риск забывания

Supervised fine-tuning меняет не знания, а форму поведения: формат, роль, ответ по существу. Маленький или однобокий датасет ведёт к переобучению и катастрофическому забыванию — модель теряет общие способности ради узкого стиля, поэтому данные важнее, чем кажется.

PEFT: LoRA и QLoRA

LoRA (Hu et al., 2021) замораживает веса и вставляет обучаемые матрицы низкого ранга — обучается доля процента параметров. QLoRA (Dettmers et al., 2023) добавляет 4-битную квантизацию базовой модели и резко снижает требования к видеопамяти. Адаптеры весят мегабайты, поэтому их дёшево хранить, версионировать и подгружать на сервинге.

Выравнивание и оценка

RLHF (InstructGPT, Ouyang et al., 2022) строит reward-модель и оптимизирует политику через PPO; DPO (Rafailov et al., 2023) выражает ту же цель напрямую без отдельной reward-модели и RL. Оценку держат слоями — бенчмарки, LLM-judge и A/B — и ловят reward hacking и регрессии на рассуждениях и коде.

Связанная глава

Архитектура RAG-системы

Когда знания лучше подавать извлечением во время запроса, а не зашивать в веса дообучением.

Читать обзор

После предобучения уже умеет продолжать текст, но это ещё не ассистент: предобученная просто предсказывает следующий токен, не следует инструкциям и не выровнена под то, что люди считают хорошим ответом. Пост-тренинг закрывает этот разрыв: обучение следованию инструкциям (SFT), эффективный файнтюнинг (LoRA/QLoRA) и выравнивание под предпочтения (DPO/RLHF) превращают предсказатель токенов в собеседника, который держит формат и отвечает по делу. Соседние главы разводят границы: — про сервинг уже готовой модели; — про подачу контекста извлечением; обзор AI Engineering — про общую картину. Эта глава — про то, как из base-модели получают полезного и выровненного ассистента.

Три этапа: pretraining → SFT → выравнивание

Путь от предобучения к выровненной модели идёт через три этапа. Для каждого видно, что подаётся на вход, чему модель учится и что получается на выходе.

SFT: обучение следованию инструкциям

Формат данных

Вход — пары «инструкция → желаемый ответ», часто с системным промптом и шаблоном диалога. Новых фактов модель тут не получает; она перенимает форму поведения: следовать формату, держать роль, отвечать по существу.

Что меняется

Та же языковая модель, та же задача предсказания следующего токена, но распределение данных смещается к демонстрациям «как надо». Это первый шаг, который превращает base-модель в полезного ассистента.

Риски

Маленький или однобокий датасет ведёт к и катастрофическому забыванию: модель теряет общие способности, полученные при предобучении, в обмен на узкий стиль.

Parameter-efficient fine-tuning: LoRA, QLoRA, адаптеры

LoRA

Hu et al. (2021) замораживают веса предобученной модели и вставляют в слои небольшие обучаемые матрицы низкого ранга. Обучается лишь малая доля параметров, а исходные веса не трогаются — отсюда дешёвое хранение множества адаптеров под одну базовую модель.

QLoRA

Dettmers et al. (2023) добавляют 4-битную квантизацию замороженной базовой модели и обучают поверх неё LoRA-адаптеры. Это резко снижает требования к видеопамяти и позволяет дообучать крупные модели там, где полный файнтюнинг недоступен.

Адаптеры и когда хватает

Семейство PEFT (LoRA, адаптеры, prefix/prompt-tuning) хорошо работает, когда нужно адаптировать поведение или домен, а не переучивать модель с нуля. Для стиля, формата и узкой задачи этого почти всегда достаточно.

Под капотом у всего семейства PEFT один приём: обучается малая доля параметров поверх замороженной базовой модели. Отсюда и выгоды — ниже счёт за обучение и память, дешевле хранить множество версий, а одна общая базовая модель продолжает обслуживать всех в продакшене.

Выравнивание под предпочтения: RLHF и DPO

RLHF (reward model + PPO)

Классический путь из InstructGPT (Ouyang et al., 2022): на парах предпочтений обучают отдельную reward-модель, затем политикой PPO дообучают LLM максимизировать её оценку. Мощно, но это полноценный конвейр со своей нестабильностью и стоимостью.

DPO

Rafailov et al. (2023) показывают, что выравнивание по парам предпочтений можно свести к прямой оптимизации простой классификационной функцией потерь — без отдельной reward-модели и без RL-цикла. Заметно проще и стабильнее в обучении.

Варианты (IPO/KTO/ORPO)

Вокруг DPO выросло семейство методов: IPO правит функцию потерь против переобучения на предпочтениях, KTO учится на отдельных оценках «хорошо/плохо» без пар, ORPO встраивает сигнал предпочтений прямо в стадию SFT.

И RLHF, и DPO учат модель на одном и том же сигнале — человеческих предпочтениях между ответами. Разница в механике: RLHF строит отдельную reward-модель и оптимизирует политику через PPO, тогда как DPO выражает ту же цель напрямую и обходится без RL-цикла, что делает его частым выбором по умолчанию.

Данные и оценка

Сбор предпочтений: пары ответов с разметкой «какой лучше». Качество разметки и согласие между разметчиками напрямую определяют потолок выравнивания.
Оценка идёт в несколько слоёв: , LLM-judge (модель как арбитр) и продуктовый A/B на живом трафике. Ни один слой не достаточен сам по себе.
Reward hacking: модель находит способ нравиться reward-модели или судье, не становясь полезнее. Типичный симптом — многословные, уверенные, но пустые ответы.
Регрессии: выигрыш в стиле и безопасности легко оплатить проседанием на рассуждениях, коде или редких языках. Нужны отдельные срезы, а не одна агрегированная цифра.

Стоимость и инфраструктура

Полный файнтюнинг обновляет все веса и требует памяти под градиенты и состояния оптимизатора для всей модели; PEFT/LoRA обучает доли процента параметров и снимает большую часть нагрузки на .
Множество экспериментов означает множество и версий. Адаптеры весят мегабайты вместо десятков гигабайт, поэтому их дёшево хранить, версионировать и сравнивать.
Адаптеры влияют и на сервинг: одну базовую модель можно держать в памяти и подгружать разные LoRA под арендаторов или задачи. Как это исполняется на узле — тема соседней главы про .

Когда что выбирать: лестница стоимости и контроля

Развилка «файнтюнить vs prompt/RAG» решается не по моде, а по стоимости и нужному уровню контроля. Поднимайтесь по лестнице только тогда, когда предыдущая ступень не решает задачу.

минимум

Промптинг / few-shot

Меняем поведение без обучения — формулировкой задачи и примерами в контексте. Самый дешёвый и быстрый рычаг; пробовать всегда первым.

низкая

RAG

Подаём актуальные знания извлечением во время запроса, не трогая веса. Решает проблему свежести и фактов лучше, чем файнтюнинг. Подробнее — в главе про .

средняя

PEFT (LoRA/QLoRA)

Когда нужно устойчиво поменять стиль, формат или поведение в домене, и промпт/RAG этого не дают. Дёшево обучать и хранить, легко откатывать.

высокая

Full SFT + alignment

Полная адаптация поведения и выравнивание под предпочтения. Максимум контроля и стоимости; оправдан там, где модель — ядро продукта.

Ключевые компромиссы

Контроль против стоимости: full SFT + alignment даёт максимум управляемости поведением, но это самый дорогой и медленный в итерациях путь.
Налог на выравнивание: оптимизация под предпочтения и безопасность часто немного снижает пиковые способности модели. Это компромисс, а не баг.
Данные важнее метода: качество и разнообразие демонстраций и предпочтений почти всегда решают больше, чем выбор между DPO и RLHF.
PEFT против full: LoRA дешевле и безопаснее для итераций, но при глубокой смене поведения иногда уступает полному файнтюнингу — это нужно проверять, а не предполагать.

Частые ошибки

Файнтюнить ради свежих фактов вместо RAG: веса плохо держат знания и быстро устаревают, а обновлять их дорого.

Сразу прыгать в обучение, не исчерпав промптинг и few-shot: часто нужный эффект достигается без единого шага градиента.

Оценивать выпуск одной агрегированной метрикой и не ловить регрессии на рассуждениях, коде или редких сценариях.

Доверять reward-модели или LLM-judge как абсолютной истине и не проверять выравнивание на живом трафике и срезах.

Связанные главы

AI Engineering: обзор - Общая карта работы с LLM в продукте, куда пост-тренинг встраивается как один из рычагов наряду с промптингом, RAG и сервингом.
Архитектура RAG-системы - Альтернатива файнтюнингу для подачи знаний: извлечение контекста во время запроса вместо зашивания фактов в веса.
Оптимизация инференса LLM - Что происходит при сервинге уже обученной модели и адаптеров: фазы декодирования, KV-cache, батчинг и стоимость за токен.
Архитектура сервинга и инференса - Внешний контур исполнения модели: маршрутизация, бюджет задержек, режимы деградации и подгрузка адаптеров под арендаторов.

Пост-тренинг LLM: SFT, LoRA и выравнивание (DPO/RLHF)

Практическая польза главы

Три этапа: pretraining → SFT → выравнивание

SFT: обучение следованию инструкциям

Формат данных

Что меняется

Риски

Parameter-efficient fine-tuning: LoRA, QLoRA, адаптеры

LoRA

QLoRA

Адаптеры и когда хватает

Выравнивание под предпочтения: RLHF и DPO

RLHF (reward model + PPO)

DPO

Варианты (IPO/KTO/ORPO)

Данные и оценка

Стоимость и инфраструктура

Когда что выбирать: лестница стоимости и контроля

Ключевые компромиссы

Частые ошибки

Рекомендации

Источники и материалы

Связанные главы