Поиск информации. Часть 4 (Вздох): Обоснование и RAG

Когда люди говорят о ‘grounding’ в ИИ, они обычно имеют в виду процесс проверки того, что мощные ИИ-системы – такие как большие языковые модели – не выдумывают вещи или не распространяют дезинформацию. Речь идет об обеспечении того, чтобы эти системы оставались связанными с реальностью.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Чтобы начать беседы более разумно, модели искусственного интеллекта разрабатываются таким образом, чтобы признавать, когда им не хватает знаний, а затем пытаться проверить информацию, чтобы обеспечить точность.

Довольны теперь?

TL;DR

RAG закрепляет LLM в конкретных знаниях, подкрепленных фактическими, авторитетными и актуальными данными. Это снижает галлюцинации.

Что такое RAG?

Извлечение расширенной генерации, или RAG, является ключевой техникой для обеспечения точности ответов ИИ. Большие языковые модели (LLM) учатся на огромном количестве данных, но во всех наборах данных есть пробелы. Это особенно верно для таких тем, как текущие события или вопросы, где потребности людей быстро меняются.

https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text

Система находит полезную информацию из внешних источников, определяет похожий контент и добавляет его к предоставляемому ответу.

Поскольку сейчас в сети доступно так много информации, крайне важно чётко понимать, что означают те или иные вещи, и убеждаться в достоверности информации.

Зачем он нам нужен?

Большие языковые модели иногда придумывают вещи. Они разработаны так, чтобы всегда давать ответ, даже если этот ответ неточен.

Обоснованные результаты приносят некоторое облегчение от потока безумной информации.

AI-модели обучаются на данных, имеющих определённую дату отсечки, часто более чем за год до текущего момента. Это означает, что им не хватает знаний о событиях, произошедших в последнее время, и они не могут отвечать на вопросы о вещах, которые произошли в течение последнего года без доступа к актуальной информации.

После того, как модель обучается на большом количестве данных, гораздо более экономично использовать RAG-систему для обработки новой информации, вместо переобучения всей модели.

Недавно я наткнулся на фантастическую презентацию от Dawn Anderson под названием «You Can’t Generate What You Can’t Retrieve.» Как человек, который годами строил веб-сайты и работал с контентом, я нашел ее невероятно познавательной и настоятельно рекомендую вам ознакомиться с ней – даже если вы не можете посетить живую сессию. Это действительно стоит вашего времени.

Отличаются ли Grounding и RAG? Должны ли они отличаться?

Да. RAG — это форма обоснования.

Подумайте об этом так;

Заземление – это конечный результат – «Пожалуйста, прекратите выдумывать.
RAG – это механизм. Когда у него нет достаточной уверенности, чтобы ответить на запрос, внутренний монолог ChatGPT говорит: «Не выдумывай, проверь информацию.«
Таким образом, заземление может быть достигнуто посредством тонкой настройки, проектирования подсказок, или RAG.

Как цифровой маркетолог, я всегда говорю людям, что потрясающие истории не всегда правдивы. Вы слышите что-то невероятное – например, утверждение о том, что шрам был вызван укусом акулы – и это привлекает ваше внимание. Но небольшая проверка фактов быстро раскрывает реальность: в этом случае это была не акула, а аллергия на арахис, которая привела к девятичасовой операции и шраму. Это хорошее напоминание о том, чтобы проверять информацию, прежде чем принимать её как истину, что крайне важно в моей работе и жизни в целом.

Правдивая история – и я верил в неё до университета. Это был мой отец.

Долгое время было неясно, какую поисковую систему используют эти модели, но мы подтвердили, что ChatGPT продолжает использовать результаты поиска Google для создания своих ответов при выполнении веб-поиска.

Почему Никто Не Может Решить Проблему Галлюцинаций ИИ?

Многие из бессмысленных результатов, выдаваемых этими моделями, можно понять, если рассматривать их как простую попытку завершить информацию, даже если у них её нет. Они часто плавно обрабатывают недостающие данные.

Это правдоподобная ложь.

Это похоже на случай с Элизабет Холмс и Theranos. Складывается ощущение, что что-то не так, но люди предпочитают игнорировать предупреждающие знаки. Это ‘вы’ относится к влиятельным представителям СМИ или инвестиционным компаниям, которые не провели тщательное расследование, прежде чем двигаться дальше.

Несмотря на продолжающиеся улучшения в языковых моделях, сохраняется устойчивая проблема: они иногда «галлюцинируют». Это означает, что они уверенно предоставляют ответы, которые просто не соответствуют действительности.

Это прямая цитата от OpenAI. Из уст галлюцинирующего коня.

Большие языковые модели иногда генерируют неверную или бессмысленную информацию — явление, известное как «галлюцинация». Недавние исследования от OpenAI показывают, что это происходит из-за того, что способ обучения и оценки этих моделей уделяет приоритет *созданию* ответа, независимо от того, является ли этот ответ фактически правильным.

Представьте это как дрессировку собаки: модель вознаграждается просто за ответ. Однако это не объясняет *почему* она совершает ошибки. Это просто означает, что модель разработана для ответа на любой ваш вопрос, уверенно и без проверки своей работы.

Это в значительной степени обусловлено тем, как была обучена модель.

Подкрепите эти системы достаточным объемом структурированных данных – даже если они не идеально размечены – и они станут удивительно хорошо предсказывать, что произойдет дальше, до такой степени, что смогут звучать убедительно по-человечески.

Не тот, с кем бы вы потусовались на вечеринке. Но звучащий разумно.

Как цифровой маркетолог, работающий с ИИ, я узнал, что модели действительно полагаются на повторение. Если фрагмент информации часто встречается в данных, на которых они обучаются, они гораздо менее склонны к ошибкам. В основном, повторение – это ключ к успеху для них. Однако, когда факт *не* упоминается часто, это сигнализирует о том, что, вероятно, существует много невидимой или уникальной информации – множество потенциальных вариаций, которым модель еще не научилась. Это способ оценить, сколько ‘нового’ материала она может встретить.

Информация, которая редко используется, часто называется ‘коэффициентом одиночек’. Интересно, что высокий коэффициент одиночек очень проблематичен при обучении больших языковых моделей, но на самом деле идеален при планировании таких мероприятий, как девичники в Эссексе.

Согласно этой статье о том, почему языковые модели галлюцинируют:

Даже при наличии идеальных обучающих данных, языковые модели всё равно будут совершать ошибки из-за способа, которым они спроектированы для обучения.

Даже при наличии идеальных обучающих данных, модели все равно будут совершать ошибки. Они созданы людьми, а мы все склонны к ошибкам – плюс, мы часто переоцениваем свою собственную точность.

Методы, применяемые после первоначального обучения модели – такие как обучение на основе отзывов людей или подключение модели к информации из реального мира – могут помочь минимизировать неточные или бессмысленные ответы.

Как работает RAG?

По сути, процесс использования Генерации, дополненной извлечением, начинается даже до того, как кто-то задаёт вопрос. Однако я просто предлагаю базовое понимание, и я не являюсь профессионалом в этой области.

RAG добавляет компонент поиска информации к AI-слою. Система:

Извлекает данные

Дополняет запрос

➡️ Генерирует улучшенный ответ.

Более подробное объяснение (если оно вам потребуется) выглядело бы примерно так:

Пользователь вводит запрос, и он преобразуется в вектор.
LLM использует свою параметрическую память, чтобы попытаться предсказать следующую вероятную последовательность токенов.
Векторное расстояние между запросом и набором документов вычисляется с использованием Cosine Similarity или Euclidean Distance.
Это определяет, способна ли хранимая (или параметрическая) память модели выполнить запрос пользователя без обращения к внешней базе данных.
Если определённый порог уверенности не достигнут, вызывается RAG (или форма обоснования).
Отправляется запрос к внешней базе данных.
Архитектура RAG дополняет существующий ответ. Она проясняет фактическую точность или добавляет информацию к текущему ответу.
Генерируется окончательный, улучшенный вывод.

Большие языковые модели обычно получают информацию из внешних баз данных, таких как Google или Bing, поэтому им не нужно создавать собственные базы данных для генерации с расширенным поиском (RAG).

Это значительно удешевляет вещи.

Технологические компании часто конкурируют жестко, и это соперничество вызвало проблему, когда Google удалил конкретный источник данных в сентябре 2025 года. Это изменение существенно повлияло на способность ChatGPT находить и цитировать информацию, поскольку он полагался на внешних партнеров для сбора этих данных.

Многие новые RAG-системы используют комбинированный подход к поиску информации. Они выполняют как семантический поиск – который понимает *значение* слов – так и традиционный поиск по ключевым словам. Подобно улучшениям, внесенным в модели, такие как BERT (например, DaBERTa и RankBrain), это позволяет системе учитывать весь документ и его контекст при предоставлении ответа.

Как SEO-эксперт, изучающий ИИ, я тестировал различные подходы к производительности моделей, и результаты очевидны: гибридизация – это революция. Мы недавно провели тематическое исследование в сельском хозяйстве, где наша первоначальная модель достигла точности 75%. Просто дообучив модель, мы повысили этот показатель до 81%. Но настоящий скачок произошел, когда мы добавили Retrieval-Augmented Generation (RAG) – это подняло точность до 86%. Это действительно показывает, как комбинирование техник может значительно улучшить результаты.

Параметрическая против Непараметрической памяти

Память модели — это по сути информация, которую она усвоила из данных, на которых она была обучена.

Прежде чем их можно будет использовать, большие языковые модели обучаются на огромном количестве информации, включая текст, числа и изображения. Эти данные затем организуются в формат, который позволяет модели распознавать взаимосвязи и закономерности в своей внутренней структуре.

Когда вы задаете ИИ вопрос, он предсказывает наиболее вероятные следующие слова, ранжируя их по вероятности. Настройка ‘temperature’ контролирует, насколько разнообразие или случайность вводится в эти предсказания.

Непараметрические системы памяти хранят информацию вне самой модели, используя внешние базы данных. Примеры включают поисковые индексы, такие как Google, а также платформы, такие как Wikipedia и Reddit – по сути, любую хорошо организованную базу данных. Это внешнее хранилище позволяет модели находить и использовать конкретные детали при необходимости.

Методологии RAG способны объединить эти два конкурирующих, но высоко комплементарных направления.

Модели приобретают «понимание» языка и нюансов благодаря параметрической памяти.
Затем ответы обогащаются и/или основываются на непараметрической памяти для проверки и подтверждения выходных данных.

Более высокие температуры увеличивают случайность. Или «креативность». Более низкие температуры – наоборот.

На самом деле это довольно иронично – эти модели не очень креативны. Хотя, возможно, это не лучший способ выразить это, по сути, преобразование слов и документов в числовые представления является очень статистическим процессом.

Почему это важно для SEO?

Если ваш бизнес зависит от того, чтобы люди находили вас через поиск на базе искусственного интеллекта, получение высоких позиций в поисковых системах имеет решающее значение. Вам необходимо убедиться, что ваш контент учитывается, когда пользователи проводят поиск с использованием Retrieval-Augmented Generation (RAG).

Вам следует знать, как работает RAG и как на него влиять.

Если ваш бренд недостаточно хорошо представлен в данных, на которых обучался ИИ, вы не можете исправить это прямо сейчас. Однако вы можете улучшить ситуацию для будущих версий ИИ. Имейте в виду, что знания ИИ не обновляются мгновенно.

Чтобы включаться в ответы, генерируемые этими системами, ваша информация должна быть хорошо представлена во внешних базах данных. Более высокие рейтинги означают более высокую вероятность появления в результатах поиска, основанных на этих технологиях.

Я настоятельно рекомендую ознакомиться с презентацией Марка Уильямса-Кука ‘From Rags to Riches’. Это отличный ресурс, который предлагает практические советы по определению ситуаций, когда генерация с расширенным извлечением (Retrieval-Augmented Generation (RAG)) полезна и как направлять запросы, чтобы извлечь из этого пользу.

https://www.youtube.com/watch?v=gBcFkf5DWpc

В основном, снова, вам нужно сделать хорошее SEO.

Убедитесь, что вы занимаете как можно более высокую позицию в поисковых системах по соответствующему запросу.
Убедитесь, что вы понимаете, как максимизировать свои шансы на включение в обоснованный ответ LLM.
Со временем займитесь более эффективным маркетингом, чтобы попасть в обучающие данные.

В целом, короткие, прямые ответы, которые связаны с важной информацией и расширяют уже известное, будут работать лучше всего. Для оптимальных результатов поиска с помощью ИИ стремитесь к текстовым фрагментам длиной от 200 до 500 символов.

Разбиение информации на более мелкие части помогает модели быстро и эффективно найти именно то, что вам нужно. Хотя более крупные фрагменты предоставляют больше контекста, они иногда могут запутать модель и привести к менее точным результатам.

Top Tips (Same Old)

Я часто говорю это в конце этих статей, и я все еще считаю, что это в целом верно.

Ответьте на релевантный запрос в верхней части страницы (информация, представленная в начале).
Чётко и лаконично сопоставляйте ваши сущности.
Предоставьте некоторый уровень получения информации.
Избегайте двусмысленности, особенно в середине документа.
Имейте чётко определённый аргумент и структуру страницы, с хорошо структурированными заголовками.
Боже мой, пусть будет интересно. Используйте уникальные данные, изображения, видео. Всё, что удовлетворит пользователя.
Соответствуйте их намерениям.

Как всегда, очень SEO. Много AI.

Смотрите также

2026-03-02 17:43