System Design Space
Граф знанийНастройки

Обновлено: 30 мая 2026 г. в 12:08

GenAI/RAG System Architecture

средний

Авторская глава о рабочей RAG-архитектуре: загрузка знаний, извлечение контекста, оркестрация ответа, защитные ограничения, оценивание и компромиссы между SLO и стоимостью.

Почти любая RAG-система ломается не в модели, а на стыках загрузки знаний, извлечения контекста, оркестрации ответа и проверок безопасности.

Глава раскладывает рабочий контур на части и показывает, как загрузка знаний, ранжирование, защитные ограничения, оценивание и контроль стоимости вместе определяют, будет ли ответ действительно полезным.

Для интервью и архитектурных разговоров она полезна как способ обсуждать RAG не как быстрый прототип, а как систему с SLO, режимами отказа и эксплуатационными компромиссами.

Практическая польза главы

Практика проектирования

Переводите знания о рабочей RAG-архитектуре, качестве извлечения контекста и управлении знаниями в архитектурные решения для потоков данных, сервинга моделей и контрольных точек качества.

Качество решений

Оценивайте систему через метрики модели и платформы одновременно: precision/recall, задержки, дрейф, стоимость и операционные риски.

Аргументация на интервью

Структурируйте ответ как цепочку данные -> модель -> сервинг -> мониторинг, показывая, где возникают ограничения и как вы ими управляете.

Явные компромиссы

Явно фиксируйте компромиссы по рабочей RAG-архитектуре, качестве извлечения контекста и управлении знаниями: скорость экспериментов, качество, объяснимость, бюджет ресурсов и сложность поддержки.

Основной источник

Базовая статья о RAG (2020)

Работа, которая формализовала RAG как подход к генерации с опорой на найденный контекст.

Открыть статью

GenAI/RAG System Architecture - это не один сервис вокруг LLM, а связка нескольких контуров: загрузки знаний, , оркестрации ответа, и операционного оценивания качества. Пригодной к рабочей эксплуатации система становится только тогда, когда эти контуры проектируются как единый контракт по задержке, качеству и стоимости.

Ниже - практическая схема, которую можно использовать как стартовую архитектуру для корпоративного AI-ассистента, помощника по базе знаний или бота поддержки.

Референсная архитектура GenAI/RAG

Диаграмма показывает RAG-контур по слоям: от загрузки знаний и индекса до генерации ответа, защитных ограничений и резервного пути.

Источники знаний и загрузка
документацияинструкции для дежурныхобращения поддержкивладельцы данных
Переход между слоями
Очистка, чанки и индекс
дедупликациянормализациячанкиверсии документов
Переход между слоями
Извлечение и фильтры доступа
семантический поисклексический поискACLфильтры запроса
Переход между слоями
Повторное ранжирование и сборка контекста
rerankertop-kблоки контексталимит контекста
Переход между слоями
Генерация и оформление ответа
системные инструкцииLLMцитатыформат клиента
Переход между слоями
Защитные ограничения и резервный путь
PII-проверкипроверки правилfallbackаудит

Что держать под контролем

RAG-контур полезно смотреть не только как цепочку сервисов, но и как баланс качества извлечения, задержки ответа, стоимости и безопасности выпуска.

Качество извлечения

hit ratemiss reasonscitation coveragegrounded-answer rate

Рабочие ограничения

p95 latencycontext windowACL correctnessprovider timeout

Безопасный выпуск

replay setshadow rolloutfreshnessregression checks

Путь запроса: от вопроса до ответа с опорой на источники

Ниже показан синхронный путь RAG-запроса: от первичных проверок вопроса через извлечение и сборку контекста до ответа с цитатами, ссылками на источники и финальными проверками.

Как вопрос проходит через RAG-контур

Синхронный путь от запроса до ответа с цитатами и проверками

Интерактивный прогонШаг 1/5

Активный шаг

Бюджет шага: ~30-80 ms

1. Вопрос и предварительные проверки

Система нормализует запрос, определяет сценарий, отсекает вопросы вне домена и запускает ранние проверки правил до извлечения контекста.

Онлайновый путь ответа с опорой на источники

  • Контур жёстко ограничен задержкой.
  • Качество извлечения контекста влияет на итог не меньше, чем сама модель.
  • Проверки доступа и защитные ограничения работают и до генерации, и после неё.
Бюджет задержкиACLЦитатыРезервный путь

SLO и базовые ориентиры по ёмкости

Задержка

P95 < 2.0s

Разделяйте бюджет отдельно на извлечение контекста, вывод модели и постобработку.

Качество

Доля ответов с опорой на источники > 90%

Оценивайте, насколько ответ опирается на найденный контекст, а не только насколько он гладко звучит.

Экономика

Стоимость закрытой задачи в целевом коридоре

Держите стоимость под контролем через маршрутизацию моделей, кэш и лимиты на размер контекста.

Рекомендации

  • Проектируйте RAG как две связанные системы: платформу знаний (загрузка и индекс) и онлайн-контур ответа (извлечение контекста и генерация).
  • Делайте наблюдаемость извлечения контекста первоклассной: долю попаданий, причины промахов, задержку и качество по сегментам.
  • Стабилизируйте контракты: структуру чанков, фильтры запроса, блоки контекста и формат ответа для клиентов.
  • Перед поэтапным запуском новой модели прогоняйте её и на теневом трафике, и на историческом эталонном наборе задач.

Частые ошибки

  • Оценивать систему только BLEU/ROUGE без продуктовых метрик и проверки опоры на источники.
  • Индексировать данные «как есть» без очистки, дедупликации и контроля версий источников.
  • Пытаться чинить качество только текстом запроса, игнорируя качество извлечения контекста и свежесть данных.
  • Применять контроль доступа после генерации ответа, а не до извлечения контекста.

Мини-чеклист запуска

  1. Есть каталог источников знаний и назначенные владельцы данных.
  2. Для каждого сценария определены метрики качества, SLO по задержке и ограничения по стоимости.
  3. Включены проверки правил на входе и выходе, а также аудит логов решений.
  4. Настроены поэтапный и теневой запуск, а также регрессионные тесты на наборе для прогонов по историческим данным.
  5. Сделаны резервные сценарии для отказов извлечения контекста, повторного ранжирования и LLM-провайдера.

Источники

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки