System Design Space
Граф знанийНастройки

Обновлено: 21 июня 2026 г. в 20:27

Пост-тренинг LLM: SFT, LoRA и выравнивание (DPO/RLHF)

средний

Как из предобученной base-модели получают полезного и выровненного ассистента: обучение следованию инструкциям (SFT), эффективный файнтюнинг (LoRA, QLoRA) и выравнивание под предпочтения (RLHF и DPO). Конвейер pretraining → SFT → выравнивание, развилка «файнтюнить vs prompt/RAG», стоимость и оценка, частые ошибки.

После предобучения большая языковая модель (LLM) умеет продолжать текст, но это ещё не ассистент: базовая модель просто предсказывает следующий токен, не следует инструкциям и не выровнена под человеческие предпочтения.

Эта глава — про адаптацию базовой модели после предобучения: обучение следованию инструкциям (SFT), эффективный файнтюнинг (LoRA/QLoRA) и выравнивание под предпочтения (DPO/RLHF). Соседние главы разводят границы: оптимизация инференса — про сервинг готовой модели, RAG — про подачу контекста извлечением, обзор AI Engineering — про общую картину.

Дальше разбираем конвейер pretraining → SFT → выравнивание, развилку «файнтюнить vs prompt/RAG», экономику full против PEFT, сбор и оценку предпочтений и типовые ошибки, из-за которых выпуск выровненной модели проседает на рассуждениях и коде.

Практическая польза главы

Три этапа: pretraining → SFT → выравнивание

Предобучение учит предсказанию токена и даёт base-модель; SFT на парах «инструкция → ответ» учит следовать инструкциям; выравнивание на парах предпочтений (DPO/RLHF) доводит модель до полезного ассистента. Пост-тренинг — это SFT плюс выравнивание поверх готовой базовой модели.

SFT и риск забывания

Supervised fine-tuning меняет не знания, а форму поведения: формат, роль, ответ по существу. Маленький или однобокий датасет ведёт к переобучению и катастрофическому забыванию — модель теряет общие способности ради узкого стиля, поэтому данные важнее, чем кажется.

PEFT: LoRA и QLoRA

LoRA (Hu et al., 2021) замораживает веса и вставляет обучаемые матрицы низкого ранга — обучается доля процента параметров. QLoRA (Dettmers et al., 2023) добавляет 4-битную квантизацию базовой модели и резко снижает требования к видеопамяти. Адаптеры весят мегабайты, поэтому их дёшево хранить, версионировать и подгружать на сервинге.

Выравнивание и оценка

RLHF (InstructGPT, Ouyang et al., 2022) строит reward-модель и оптимизирует политику через PPO; DPO (Rafailov et al., 2023) выражает ту же цель напрямую без отдельной reward-модели и RL. Оценку держат слоями — бенчмарки, LLM-judge и A/B — и ловят reward hacking и регрессии на рассуждениях и коде.

Связанная глава

Архитектура RAG-системы

Когда знания лучше подавать извлечением во время запроса, а не зашивать в веса дообучением.

Читать обзор

После предобучения уже умеет продолжать текст, но это ещё не ассистент: предобученная просто предсказывает следующий токен, не следует инструкциям и не выровнена под то, что люди считают хорошим ответом. Пост-тренинг закрывает этот разрыв: обучение следованию инструкциям (SFT), эффективный файнтюнинг (LoRA/QLoRA) и выравнивание под предпочтения (DPO/RLHF) превращают предсказатель токенов в собеседника, который держит формат и отвечает по делу. Соседние главы разводят границы: — про сервинг уже готовой модели; — про подачу контекста извлечением; обзор AI Engineering — про общую картину. Эта глава — про то, как из base-модели получают полезного и выровненного ассистента.

Три этапа: pretraining → SFT → выравнивание

Путь от предобучения к выровненной модели идёт через три этапа. Для каждого видно, что подаётся на вход, чему модель учится и что получается на выходе.

Предобучениеогромный корпус текстаучит: предсказание токена→ base-модельSFTпары «инструкция → ответ»учит: следовать инструкциям→ SFT-модельВыравниваниепары предпочтенийучит: DPO / RLHF→ ассистентПост-тренинг = SFT + выравнивание; PEFT (LoRA/QLoRA) удешевляет оба этапаэтапы пост-тренинга

SFT: обучение следованию инструкциям

Формат данных

Вход — пары «инструкция → желаемый ответ», часто с системным промптом и шаблоном диалога. Новых фактов модель тут не получает; она перенимает форму поведения: следовать формату, держать роль, отвечать по существу.

Что меняется

Та же языковая модель, та же задача предсказания следующего токена, но распределение данных смещается к демонстрациям «как надо». Это первый шаг, который превращает base-модель в полезного ассистента.

Риски

Маленький или однобокий датасет ведёт к и катастрофическому забыванию: модель теряет общие способности, полученные при предобучении, в обмен на узкий стиль.

Parameter-efficient fine-tuning: LoRA, QLoRA, адаптеры

LoRA

Hu et al. (2021) замораживают веса предобученной модели и вставляют в слои небольшие обучаемые матрицы низкого ранга. Обучается лишь малая доля параметров, а исходные веса не трогаются — отсюда дешёвое хранение множества адаптеров под одну базовую модель.

QLoRA

Dettmers et al. (2023) добавляют 4-битную квантизацию замороженной базовой модели и обучают поверх неё LoRA-адаптеры. Это резко снижает требования к видеопамяти и позволяет дообучать крупные модели там, где полный файнтюнинг недоступен.

Адаптеры и когда хватает

Семейство PEFT (LoRA, адаптеры, prefix/prompt-tuning) хорошо работает, когда нужно адаптировать поведение или домен, а не переучивать модель с нуля. Для стиля, формата и узкой задачи этого почти всегда достаточно.

Под капотом у всего семейства PEFT один приём: обучается малая доля параметров поверх замороженной базовой модели. Отсюда и выгоды — ниже счёт за обучение и память, дешевле хранить множество версий, а одна общая базовая модель продолжает обслуживать всех в продакшене.

Выравнивание под предпочтения: RLHF и DPO

RLHF (reward model + PPO)

Классический путь из InstructGPT (Ouyang et al., 2022): на парах предпочтений обучают отдельную reward-модель, затем политикой PPO дообучают LLM максимизировать её оценку. Мощно, но это полноценный конвейр со своей нестабильностью и стоимостью.

DPO

Rafailov et al. (2023) показывают, что выравнивание по парам предпочтений можно свести к прямой оптимизации простой классификационной функцией потерь — без отдельной reward-модели и без RL-цикла. Заметно проще и стабильнее в обучении.

Варианты (IPO/KTO/ORPO)

Вокруг DPO выросло семейство методов: IPO правит функцию потерь против переобучения на предпочтениях, KTO учится на отдельных оценках «хорошо/плохо» без пар, ORPO встраивает сигнал предпочтений прямо в стадию SFT.

И RLHF, и DPO учат модель на одном и том же сигнале — человеческих предпочтениях между ответами. Разница в механике: RLHF строит отдельную reward-модель и оптимизирует политику через PPO, тогда как DPO выражает ту же цель напрямую и обходится без RL-цикла, что делает его частым выбором по умолчанию.

Данные и оценка

  • Сбор предпочтений: пары ответов с разметкой «какой лучше». Качество разметки и согласие между разметчиками напрямую определяют потолок выравнивания.
  • Оценка идёт в несколько слоёв: , LLM-judge (модель как арбитр) и продуктовый A/B на живом трафике. Ни один слой не достаточен сам по себе.
  • Reward hacking: модель находит способ нравиться reward-модели или судье, не становясь полезнее. Типичный симптом — многословные, уверенные, но пустые ответы.
  • Регрессии: выигрыш в стиле и безопасности легко оплатить проседанием на рассуждениях, коде или редких языках. Нужны отдельные срезы, а не одна агрегированная цифра.

Стоимость и инфраструктура

  • Полный файнтюнинг обновляет все веса и требует памяти под градиенты и состояния оптимизатора для всей модели; PEFT/LoRA обучает доли процента параметров и снимает большую часть нагрузки на .
  • Множество экспериментов означает множество и версий. Адаптеры весят мегабайты вместо десятков гигабайт, поэтому их дёшево хранить, версионировать и сравнивать.
  • Адаптеры влияют и на сервинг: одну базовую модель можно держать в памяти и подгружать разные LoRA под арендаторов или задачи. Как это исполняется на узле — тема соседней главы про .

Когда что выбирать: лестница стоимости и контроля

Развилка «файнтюнить vs prompt/RAG» решается не по моде, а по стоимости и нужному уровню контроля. Поднимайтесь по лестнице только тогда, когда предыдущая ступень не решает задачу.

минимум

Промптинг / few-shot

Меняем поведение без обучения — формулировкой задачи и примерами в контексте. Самый дешёвый и быстрый рычаг; пробовать всегда первым.

низкая

RAG

Подаём актуальные знания извлечением во время запроса, не трогая веса. Решает проблему свежести и фактов лучше, чем файнтюнинг. Подробнее — в главе про .

средняя

PEFT (LoRA/QLoRA)

Когда нужно устойчиво поменять стиль, формат или поведение в домене, и промпт/RAG этого не дают. Дёшево обучать и хранить, легко откатывать.

высокая

Full SFT + alignment

Полная адаптация поведения и выравнивание под предпочтения. Максимум контроля и стоимости; оправдан там, где модель — ядро продукта.

Ключевые компромиссы

  • Контроль против стоимости: full SFT + alignment даёт максимум управляемости поведением, но это самый дорогой и медленный в итерациях путь.
  • Налог на выравнивание: оптимизация под предпочтения и безопасность часто немного снижает пиковые способности модели. Это компромисс, а не баг.
  • Данные важнее метода: качество и разнообразие демонстраций и предпочтений почти всегда решают больше, чем выбор между DPO и RLHF.
  • PEFT против full: LoRA дешевле и безопаснее для итераций, но при глубокой смене поведения иногда уступает полному файнтюнингу — это нужно проверять, а не предполагать.

Частые ошибки

Файнтюнить ради свежих фактов вместо RAG: веса плохо держат знания и быстро устаревают, а обновлять их дорого.
Сразу прыгать в обучение, не исчерпав промптинг и few-shot: часто нужный эффект достигается без единого шага градиента.
Оценивать выпуск одной агрегированной метрикой и не ловить регрессии на рассуждениях, коде или редких сценариях.
Доверять reward-модели или LLM-judge как абсолютной истине и не проверять выравнивание на живом трафике и срезах.

Рекомендации

Идти снизу вверх по лестнице стоимости: промпт → RAG → PEFT → full SFT+alignment, останавливаясь там, где задача уже решена.
Сначала SFT для базового поведения и формата, затем выравнивание под предпочтения (DPO как простой дефолт, RLHF — когда оправдан).
Держать многослойную оценку: офлайн-бенчмарки, LLM-judge и продуктовый A/B, плюс отдельные срезы против регрессий.
Предпочитать LoRA/QLoRA для итераций: дёшево обучать, легко версионировать и откатывать, удобно держать несколько адаптеров на одной базовой модели.

Источники и материалы

Карта источников: InstructGPT держит схему RLHF с reward model и PPO; LoRA и QLoRA — семейство parameter-efficient fine-tuning; DPO — preference optimization без отдельной reward-модели; TRL — библиотечную реализацию этих этапов. Выбор между SFT, DPO, RLHF и PEFT остаётся эмпирическим: качество датасета, политика eval и базовая модель важнее названия метода.

Связанные главы

  • AI Engineering: обзор - Общая карта работы с LLM в продукте, куда пост-тренинг встраивается как один из рычагов наряду с промптингом, RAG и сервингом.
  • Архитектура RAG-системы - Альтернатива файнтюнингу для подачи знаний: извлечение контекста во время запроса вместо зашивания фактов в веса.
  • Оптимизация инференса LLM - Что происходит при сервинге уже обученной модели и адаптеров: фазы декодирования, KV-cache, батчинг и стоимость за токен.
  • Архитектура сервинга и инференса - Внешний контур исполнения модели: маршрутизация, бюджет задержек, режимы деградации и подгрузка адаптеров под арендаторов.

Чтобы отмечать прохождение, включи трекинг в Настройки