Защитные ограничения LLM, внедрение инструкций в запрос и паттерны безопасности

Защитные ограничения становятся важными в тот момент, когда модель начинает видеть чужой контекст, выполнять инструменты и влиять на пользовательское действие.

Глава объясняет, почему внедрение инструкций в запрос, злоупотребление инструментами и дрейф политик надо воспринимать как архитектурные риски на границах доверия, а не как странности модели, которые лечатся одним классификатором.

Для интервью и архитектурных обсуждений она помогает разложить безопасность на конкретные слои: проверки входа, контроль выполнения, проверку ответа, разбор инцидентов и безопасный резервный сценарий.

Практическая польза главы

Границы доверия

Разбирайте LLM-контур по зонам доверия: пользовательский ввод, найденный контекст, инструменты и ответ требуют разных правил контроля.

Контроль инструментов

Обсуждайте права вызова, проверку аргументов, согласования и условия остановки как часть архитектуры, а не как постобработку поверх модели.

Безопасная деградация

Продумывайте отказ и резервный путь заранее: система должна безопасно останавливаться или отказывать, а не действовать наугад.

Материал для интервью

Глава даёт каркас, с которым легче объяснять внедрение инструкций в запрос, границы доверия, расследование инцидентов и безопасность агентного цикла.

Границы доверия важнее поздней фильтрации ответа

Для -систем начинаются не там, где ответ уже почти готов, а в тот момент, когда система впервые получает пользовательский текст, найденный контекст или вывод инструмента.

Как только модель начинает видеть внешний контекст и влиять на действия, одного фильтра на выходе уже мало. Дальше работают явные зоны доверия, контроль прав, условия остановки и безопасный резервный путь — и каждый из них стоит проектировать отдельно, а не надеяться на финальную проверку ответа.

Референсная архитектура защитных ограничений для больших языковых моделей

Ниже показан базовый контур, в котором защита начинается на входе, проходит через доверенный контекст и вызов инструментов, а заканчивается не фильтром ответа, а безопасным отказом и разбором инцидента.

Вход и нормализация запроса

классификация сценарияочистка запросаранние проверки правилограничение режима

Переход между слоями

Сборка доверенного контекста

ACLмаркировка доверияфильтры источниковконтекст без скрытых указаний

Переход между слоями

Контроль вызова инструментов

список разрешённых вызововсхема аргументовуровень рискасогласование

Переход между слоями

Проверка ответа и оформление

проверка схемыссылки на источникичувствительное содержимоеправила отказа

Переход между слоями

Разбор инцидентов и исторические прогоны

наборы атакисторические прогоныкоды причинразбор инцидентов

Переход между слоями

Резервный путь и безопасная деградация

режим только чтениячастичный ответручной перехватостановка сценария

Что держать под контролем

Контур защитных ограничений полезно смотреть не как один фильтр поверх модели, а как последовательность слоёв, где каждая граница доверия имеет собственные проверки, право остановить путь и свой режим деградации.

Границы доверия

системные инструкциипользовательский вводнайденный контекствывод инструментов

Опасный путь нужно разрывать раньше, чем он дойдёт до поздней постобработки. Ниже показано, где система обязана остановиться на входе, на доверенном контексте, на выборе инструмента и на выпуске ответа.

Как защитный контур должен разрывать опасный путь

Пошаговая схема от ранней проверки запроса до отказа и журналирования

Интерактивный прогонШаг 1/5

Активный шаг

1. Ранние проверки запроса

Система нормализует запрос, определяет режим сценария и сразу проверяет, не пытается ли пользователь переписать ограничения или выйти за рамки домена.

Основной контроль

Нормализация текста, классификация сценария, ранние проверки правил и ограничение режима до вызова модели.

Где обязана остановиться

Останавливать путь нужно уже здесь, если запрос требует обхода ограничений, доступа вне роли или опасного режима работы.

Контур остановки опасного запроса

Опасный путь нельзя доводить до поздней постобработки.
Маркировка доверия должна проходить через весь контур, а не теряться после извлечения контекста.
Любой путь на запись должен останавливаться раньше, чем произойдёт побочный эффект.

Граница доверияACLСогласованиеРезервный путь

Почему команды здесь ошибаются

Сводить всю защиту к одному классификатору поверх уже собранного сценария.

Смешивать системные инструкции, пользовательский ввод, найденный контекст и вывод инструментов в одну доверенную строку.

Разрешать агенту вызывать инструменты с более широкими правами, чем нужны для текущего шага.

Проверять правила и списки управления доступом после генерации ответа, а не до извлечения контекста и до вызова инструмента.

Не сохранять коды причин и результаты отказов, из-за чего инциденты нельзя воспроизвести и разобрать.

Практические рекомендации

Проектируйте зоны доверия отдельно и передавайте их через всю среду выполнения (runtime), а не только через один шаблон запроса.

Оставляйте режим только чтения вариантом по умолчанию, а путь на запись делайте отдельным сценарием с согласованием.

Проверяйте схемы аргументов и допустимость вызова до любого побочного эффекта, а не после него.

Готовьте наборы атак и исторические прогоны до выпуска новой модели, инструмента или политики.

Продумывайте отказ и резервный путь заранее: безопасная остановка лучше уверенного, но неподтвержденного действия.

Мини-чеклист запуска

Для каждого источника данных определены владелец, уровень доверия и правила доступа.

Списки управления доступом и проверки правил применяются до извлечения контекста и до вызова инструмента, а не в конце цикла.

У каждого инструмента есть список разрешённых вызовов, схема аргументов, класс риска и путь согласования.

Система умеет безопасно отказаться, вернуть частичный ответ или перейти в режим только чтения при низкой уверенности.

Перед выпуском проходят наборы атак, исторические прогоны и проверка кодов причин для отказов и блокировок.

Главное для архитектурного разбора

Где проходит граница между доверенными инструкциями и внешним текстом в этом сценарии?

Какие действия система может выполнить без человека, а какие требуют отдельного согласования?

Что именно останавливает опасный путь до вызова инструмента и до побочного эффекта?

Как расследуется инцидент: сохраняются ли источник контекста, вывод инструмента и код причины?

Как система безопасно деградирует при конфликте источников, ошибке инструмента или низкой уверенности?

Источники и материалы

OWASP — Top 10 for LLM Applications (2025): LLM01 Prompt Injection и др.Anthropic — Mitigate jailbreaks and prompt injections (документация Claude)NIST — AI Risk Management Framework (AI RMF 1.0)Anthropic — Building effective agents (зоны доверия, песочница, guardrails)

Связанные главы

GenAI/RAG System Architecture - Базовый контур извлечения контекста и оркестрации вокруг модели: именно здесь найденный фрагмент позже становится зоной доверия.
Агентные рабочие цепочки и архитектура вызова инструментов - Как защитные ограничения встраиваются в агентный цикл, вызов инструментов и контроль действий.
Оценивание и наблюдаемость для AI-систем - Как измерять, разбирать и исправлять инциденты безопасности и регрессии.
API Security Patterns - Соседняя security-тема: те же приёмы — валидация входа, применение политик, ограничение злоупотреблений — но на границе обычного API, а не модели.