System Design Space
Граф знанийНастройки

Обновлено: 7 апреля 2026 г. в 15:05

Защитные ограничения LLM, внедрение инструкций в запрос и паттерны безопасности

средний

Практическая глава о том, как проектировать защитные ограничения для LLM-систем: внедрение инструкций в запрос, злоупотребление инструментами, проверка ответа, контроль политик и безопасная деградация.

Защитные ограничения становятся важными в тот момент, когда модель начинает видеть чужой контекст, выполнять инструменты и влиять на пользовательское действие.

Глава объясняет, почему внедрение инструкций в запрос, злоупотребление инструментами и дрейф политик надо воспринимать как архитектурные риски на границах доверия, а не как странности модели, которые лечатся одним классификатором.

Для интервью и архитектурных обсуждений она помогает разложить безопасность на конкретные слои: проверки входа, контроль выполнения, проверку ответа, разбор инцидентов и безопасный резервный сценарий.

Практическая польза главы

Границы доверия

Разбирайте LLM-контур по зонам доверия: пользовательский ввод, найденный контекст, инструменты и ответ требуют разных правил контроля.

Контроль инструментов

Обсуждайте права вызова, проверку аргументов, согласования и условия остановки как часть архитектуры, а не как постобработку поверх модели.

Безопасная деградация

Продумывайте отказ и резервный путь заранее: система должна безопасно останавливаться или отказывать, а не действовать наугад.

Материал для интервью

Глава даёт каркас, с которым легче объяснять внедрение инструкций в запрос, границы доверия, расследование инцидентов и безопасность агентного цикла.

Границы доверия важнее поздней фильтрации ответа

Для LLM-систем начинаются не там, где ответ уже почти готов, а в тот момент, когда система впервые получает пользовательский текст, найденный контекст или вывод инструмента.

Как только модель начинает видеть внешний контекст и влиять на действия, безопасность перестаёт быть задачей одного фильтра. Она становится задачей явных зон доверия, контроля прав, условий остановки и безопасного резервного пути.

Референсная архитектура защитных ограничений для LLM

Ниже показан базовый контур, в котором защита начинается на входе, проходит через доверенный контекст и вызов инструментов, а заканчивается не фильтром ответа, а безопасным отказом и разбором инцидента.

Вход и нормализация запроса
классификация сценарияочистка запросаранние проверки правилограничение режима
Переход между слоями
Сборка доверенного контекста
ACLмаркировка доверияфильтры источниковконтекст без скрытых указаний
Переход между слоями
Контроль вызова инструментов
список разрешённых вызововсхема аргументовуровень рискасогласование
Переход между слоями
Проверка ответа и оформление
проверка схемыссылки на источникичувствительное содержимоеправила отказа
Переход между слоями
Разбор инцидентов и исторические прогоны
наборы атакисторические прогоныкоды причинразбор инцидентов
Переход между слоями
Резервный путь и безопасная деградация
режим только чтениячастичный ответручной перехватостановка сценария

Что держать под контролем

Контур защитных ограничений полезно смотреть не как один фильтр поверх модели, а как последовательность слоёв, где каждая граница доверия имеет собственные проверки, право остановить путь и свой режим деградации.

Границы доверия

системные инструкциипользовательский вводнайденный контекствывод инструментов

Runtime-контроли

ACL и режим доступапроверка аргументовсогласованияусловия остановки

Безопасный выпуск

наборы атакисторические прогоныкоды причинрезервный путь

Где ломается доверие

Атаки через редко живут только в пользовательском сообщении. Они проходят через разные зоны доверия и используют тот слой, где архитектура перестаёт различать данные, инструкции и реальные права на действие.

Системные инструкции и конфигурация

Что может пойти не так

Шаблоны запросов, правила и режимы выполнения могут конфликтовать друг с другом или случайно открывать слишком широкий путь действий.

Почему это опасно

Если базовые правила не детерминированы, остальные проверки уже не понимают, какие ограничения действительно обязательны.

Что обязано проверяться

Версионирование шаблонов, явный режим выполнения, тесты на конфликт правил и журнал активной политики для каждого сценария.

Пользовательский ввод

Что может пойти не так

Запрос может просить игнорировать системные ограничения, раскрыть скрытые инструкции или подтолкнуть модель к опасному режиму.

Почему это опасно

Пользовательский текст приходит ближе всего к модели и часто выглядит достаточно естественно, чтобы пройти без ранней остановки.

Что обязано проверяться

Нормализация запроса, классификация сценария, ранние проверки правил и ограничение режима до извлечения контекста и выбора инструмента.

Найденный контекст

Что может пойти не так

Документы, тикеты и статьи базы знаний могут содержать вредоносные инструкции, устаревшие права доступа или просто конфликтующие указания.

Почему это опасно

Если найденный фрагмент воспринимается как доверенная инструкция, модель начинает подчиняться чужому тексту, а не архитектурным правилам.

Что обязано проверяться

ACL до извлечения контекста, маркировка доверия источников, отделение данных от инструкций и фильтрация скрытых указаний в найденных фрагментах.

Вывод инструментов

Что может пойти не так

Ответ инструмента может вернуть лишние данные, скрытые команды или результат, который модель затем примет за новую инструкцию.

Почему это опасно

Инструментальный вывод часто выглядит авторитетно, поэтому без схемы и фильтрации он легко пробивает защиту в поздней части цикла.

Что обязано проверяться

Схема ответа инструмента, белый список полей, редактирование чувствительных данных и запрет передавать сырой вывод в модель как новую инструкцию.

Путь внедрения инструкций в запрос и точки остановки

Опасный путь нужно разрывать раньше, чем он дойдёт до поздней постобработки. Ниже показано, где система обязана остановиться на входе, на доверенном контексте, на выборе инструмента и на выпуске ответа.

Как защитный контур должен разрывать опасный путь

Пошаговая схема от ранней проверки запроса до отказа и журналирования

Интерактивный прогонШаг 1/5

Активный шаг

1. Ранние проверки запроса

Система нормализует запрос, определяет режим сценария и сразу проверяет, не пытается ли пользователь переписать ограничения или выйти за рамки домена.

Основной контроль

Нормализация текста, классификация сценария, ранние проверки правил и ограничение режима до вызова модели.

Где обязана остановиться

Останавливать путь нужно уже здесь, если запрос требует обхода ограничений, доступа вне роли или опасного режима работы.

Контур остановки опасного запроса

  • Опасный путь нельзя доводить до поздней постобработки.
  • Маркировка доверия должна проходить через весь контур, а не теряться после извлечения контекста.
  • Любой путь на запись должен останавливаться раньше, чем произойдёт побочный эффект.
Граница доверияACLСогласованиеРезервный путь

Почему команды здесь ошибаются

Сводить всю защиту к одному классификатору поверх уже собранного сценария.
Смешивать системные инструкции, пользовательский ввод, найденный контекст и вывод инструментов в одну доверенную строку.
Разрешать агенту вызывать инструменты с более широкими правами, чем нужны для текущего шага.
Проверять правила и ACL после генерации ответа, а не до извлечения контекста и до вызова инструмента.
Не сохранять коды причин и результаты отказов, из-за чего инциденты нельзя воспроизвести и разобрать.

Практические рекомендации

Проектируйте зоны доверия отдельно и передавайте их через весь runtime, а не только через один шаблон запроса.
Оставляйте режим только чтения вариантом по умолчанию, а путь на запись делайте отдельным сценарием с согласованием.
Проверяйте схемы аргументов и допустимость вызова до любого побочного эффекта, а не после него.
Готовьте наборы атак и исторические прогоны до выпуска новой модели, инструмента или политики.
Продумывайте отказ и резервный путь заранее: безопасная остановка лучше уверенного, но неподтвержденного действия.

Мини-чеклист запуска

Для каждого источника данных определены владелец, уровень доверия и правила доступа.
ACL и проверки правил применяются до извлечения контекста и до вызова инструмента, а не в конце цикла.
У каждого инструмента есть список разрешённых вызовов, схема аргументов, класс риска и путь согласования.
Система умеет безопасно отказаться, вернуть частичный ответ или перейти в режим только чтения при низкой уверенности.
Перед выпуском проходят наборы атак, исторические прогоны и проверка кодов причин для отказов и блокировок.

Главное для архитектурного разбора

Где проходит граница между доверенными инструкциями и внешним текстом в этом сценарии?
Какие действия система может выполнить без человека, а какие требуют отдельного согласования?
Что именно останавливает опасный путь до вызова инструмента и до побочного эффекта?
Как расследуется инцидент: сохраняются ли источник контекста, вывод инструмента и код причины?
Как система безопасно деградирует при конфликте источников, ошибке инструмента или низкой уверенности?

Связанные главы

Чтобы отмечать прохождение, включи трекинг в Настройки