Этап 8 — Промпты для RAG и работы с данными

RAG нужен, когда ответа в параметрах модели недостаточно и требуется актуальный контекст.

Темы этапа

Вставка контекста
Chunking
Grounding
Борьба с галлюцинациями через источники

Вставка контекста

Контекст должен быть:

релевантным,
компактным,
структурированным (с метаданными источника).

«Свалить всё в prompt» — плохая стратегия.

Chunking

Разбиение данных влияет на качество retrieval.

Плохой chunking:

рвёт смысл,
теряет связи,
ухудшает попадание нужного факта в top-k.

Хороший chunking балансирует:

размер,
семантическую целостность,
скорость поиска.

Grounding

Grounding означает: модель должна опираться на переданные источники, а не домысливать.

Полезные правила:

цитировать источник,
отмечать уровень уверенности,
явно говорить, когда факта нет.

Антигаллюцинационный паттерн

Retrieve
Rank
Generate with citation
Validate against source

Prompt pipeline

Что prompt должен задавать в RAG

RAG повышает надёжность только тогда, когда prompt объясняет модели, как использовать найденные материалы. Модель должна понимать, что источники — это доказательства, а не свободный фон для вдохновения. Она должна отвечать по переданному контексту, цитировать источник для важных утверждений и признавать, когда контекста недостаточно. Без этих правил retrieval может сделать галлюцинации убедительнее: в ответе будут цитаты, но сам вывод останется слабо подтверждённым.

Chunking также нужно косвенно объяснять модели через metadata. У chunk-а должны быть title, source id, дата или версия при необходимости и достаточно соседнего контекста, чтобы фрагмент был понятен. Prompt должен просить модель предпочитать прямое подтверждение широкой смысловой похожести. Это удерживает генерацию ближе к доказательствам.

Компонент RAG	Ответственность prompt-а	Типичная ошибка
Retrieved chunk	Считать доказательством с source id	Использовать контекст как общий фон
Правило цитирования	Привязывать claims к точному источнику	Декоративные цитаты
Политика отсутствия фактов	Говорить «недостаточно данных»	Уверенная догадка
Validation step	Сравнивать ответ с источниками	Неподтверждённый вывод

Вывод этапа

RAG — это не только retrieval-инфра, но и правильно спроектированные prompts, которые заставляют модель «держаться источников».

Объяснение для новичка

RAG означает Retrieval-Augmented Generation. Идея простая: перед ответом приложение ищет релевантные документы, кладёт найденные фрагменты в контекст модели, а модель отвечает на основе этих фрагментов. Это нужно, когда ответ должен опираться на актуальные или внутренние данные: документацию компании, базу знаний, договоры, changelog, FAQ.

Retrieval — это поиск подходящих фрагментов. Chunking — разбиение больших документов на части, чтобы поиск мог найти нужный смысловой блок. Если chunk слишком маленький, теряется контекст. Если слишком большой, в prompt попадает шум. Ranking выбирает лучшие фрагменты из найденных.

Grounding означает, что утверждения в ответе должны опираться на источники. Если источник не подтверждает вывод, модель не должна выдавать уверенный ответ. Citations нужны не для красоты, а для проверки: человек или система должны понять, из какого документа взят факт.

Ответь только по предоставленным источникам.
Если источники не подтверждают ответ, скажи, каких данных не хватает.
Для каждого ключевого утверждения укажи источник.
Не используй знания вне контекста для фактических утверждений.

Мини-сценарии из практики

Ответ выглядит убедительно, но не совпадает с источниками: в промпте нет жёсткого требования на цитирование.
В контекст вставлен большой документ целиком, и качество падает: chunking не учитывает смысловые границы.
Модель ссылается на источник, но вывод делает не из него: отсутствует проверка grounding на уровне пайплайна.

Быстрые правила принятия решений

Для фактических ответов делай обязательной привязку утверждений к источникам.
Chunking проектируй по смысловым блокам, а не по «фиксированным символам».
Если источники не подтверждают ответ, система должна возвращать «недостаточно данных».

Вопросы для самопроверки

Почему без grounding даже хороший LLM-ответ остаётся недостоверным?
Какие ошибки появляются при плохом chunking?
Когда корректно возвращать отказ вместо «вероятного» ответа?

Rag Grounding And Citations