System Design Space
Граф знанийНастройки

Обновлено: 15 марта 2026 г. в 21:08

GenAI/RAG System Architecture

medium

Авторская глава о production-архитектуре GenAI/RAG: ingestion, retrieval, orchestration, guardrails, evaluation и SLO/cost trade-offs.

Эта глава темы 13 фокусируется на RAG-архитектуре, retrieval quality и управлении контекстом.

В реальном проектировании AI/ML-систем материал помогает связывать модельные решения с платформенной архитектурой: data pipeline, inference path, стоимость эксплуатации и требования надежности.

Для System Design interview глава полезна тем, что дает понятный язык объяснения ML-компромиссов: качество модели, latency/throughput, безопасность данных, наблюдаемость и эволюция решения в production.

Практическая польза главы

Практика проектирования

Переводите знания о RAG-архитектуре, retrieval quality и управлении контекстом в архитектурные решения по data flow, model serving и контрольным точкам качества.

Качество решений

Оценивайте систему через метрики модели и платформы одновременно: precision/recall, latency, drift, стоимость и операционные риски.

Interview articulation

Структурируйте ответ как цепочку data -> model -> serving -> monitoring, показывая где возникают ограничения и как вы ими управляете.

Trade-off framing

Явно фиксируйте компромиссы по RAG-архитектуре, retrieval quality и управлении контекстом: скорость экспериментов, качество, explainability, resource budget и сложность поддержки.

Primary source

RAG paper (2020)

Базовая работа, которая формализовала подход retrieval-augmented generation.

Открыть статью

GenAI/RAG System Architecture - это не один сервис вокруг LLM, а связка нескольких контуров: ingestion данных, retrieval, orchestration генерации, guardrails и операционная оценка качества. Система становится production-ready только когда эти контуры проектируются как единый контракт по latency, quality и cost.

Ниже - практический blueprint, который можно использовать как стартовую схему для корпоративного AI-assistant, knowledge copilot или customer support бота.

Референсная архитектура GenAI/RAG

Knowledge ingestion

  • Соберите источники (docs, runbooks, тикеты, wiki) и заведите ownership на каждый источник.
  • Постройте очистку и нормализацию текста до индексации: убирайте дубли, шум и устаревшие версии.
  • Используйте версионирование документов и incremental reindex, чтобы не «ломать» поиск при каждом деплое.

Retrieval plane

  • Комбинируйте dense + lexical retrieval, чтобы снизить риск пропуска критичных фрагментов.
  • Держите metadata filters (tenant, product, language, ACL) в обязательном query-contract.
  • Вводите reranking только после измерений: это часто лучший прирост качества при умеренной цене.

Generation orchestration

  • Соберите prompt-template как код: системный промпт, policy-блок, retrieved context, user intent.
  • Задайте budget на токены и latency до вызова модели, иначе tail latency быстро выходит из SLO.
  • Добавьте fallback: cache ответов, smaller model, или ответ с частичной деградацией при перегрузке.

Guardrails and governance

  • Проверяйте запрос и ответ на PII/секреты, policy violations и prompt injection.
  • Применяйте authorization на retrieval-этапе, а не после генерации ответа.
  • Логируйте решение guardrails с reason-codes для расследований и аудита.

Evaluation and operations

  • Разделите offline eval (retrieval/generation quality) и online eval (task success, CSAT, containment rate).
  • Считайте cost per resolved task, а не только cost per 1K tokens.
  • Держите replay-наборы и regression checks, чтобы безопасно обновлять embeddings, prompt и модели.

Request path: от вопроса до grounded-ответа

1) Intent и policy pre-check

~30-80 ms

Нормализация запроса, определение use-case и проверка policy до обращения к retrieval. На этом шаге удобно отсеивать запросы вне домена.

2) Retrieval + rerank

~80-250 ms

Поиск релевантных фрагментов с учетом ACL и контекста пользователя. Reranker повышает точность топ-k перед генерацией.

3) Prompt assembly + generation

~300-1500 ms

Формирование финального prompt-контракта, вызов LLM, контроль max tokens и stop conditions.

4) Post-check + response shaping

~40-120 ms

Проверки ответа (safety/compliance), добавление цитат/ссылок на источники и форматирование под UI-клиент.

SLO и capacity baseline

Latency

P95 < 2.0s

Декомпозируйте бюджет на retrieval, model inference и post-processing по отдельности.

Quality

Grounded answer rate > 90%

Оценивайте наличие опоры на retrieved context, а не только «красивость» текста.

Economics

Cost/task в целевом коридоре

Контролируйте стоимость через routing моделей, cache и лимиты контекста.

Рекомендации

  • Проектируйте RAG как две системы: data platform (ingestion/index) и online serving (retrieval/generation).
  • Держите retrieval observability первого класса: hit@k, miss reasons, latency и quality по сегментам.
  • Стабилизируйте contracts: schema чанков, query filters, prompt slots и формат ответа для клиентов.
  • Перед rollout новой модели проводите shadow-трафик и offline replay на эталонном наборе задач.

Частые ошибки

  • Оценивать систему только BLEU/ROUGE без продуктовых метрик и проверки groundedness.
  • Индексировать «как есть» без очистки, дедупликации и контроля версии источников.
  • Пытаться чинить quality только prompt'ом, игнорируя качество retrieval и data freshness.
  • Применять access-control после генерации ответа, а не до извлечения контекста.

Мини-чеклист запуска

  1. Есть каталог источников знаний и назначенные владельцы данных.
  2. Для каждого use-case определены quality metrics, latency SLO и cost guardrails.
  3. Включены policy-проверки на входе и выходе, а также аудит логов решений.
  4. Настроены canary/shadow rollout и регрессионные тесты на replay-наборе.
  5. Сделаны fallback-сценарии для отказов retrieval, reranker и LLM-провайдера.

Источники

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки

System Design Space

© 2026 Александр Поломодов