Обновление GraphRAG улучшает результаты поиска AI

Разница между RAG и GraphRAG

Как опытный веб-мастер, ставший свидетелем эволюции поисковых систем с момента их скромного зарождения, я должен сказать, что GraphRAG выделяется как революционная инновация в этой области. Идея использования диаграммы знаний для организации и обобщения данных является не чем иным, как революционной. Это похоже на переход от пыльного библиотечного каталога к динамичной интерактивной карте информации, и все это на кончиках ваших пальцев.


Проще говоря, RAG (Поисковая расширенная генерация) работает, используя мощную языковую модель вместе с поисковой базой данных. Такая настройка позволяет более точно выдавать ответы на поисковые запросы. Извлекая текущие и актуальные данные из поискового индекса, он сводит к минимуму риск того, что поисковая система ИИ предоставит устаревшие или сфабрикованные ответы.

GraphRAG расширяет возможности традиционных RAG (готов, ожидает ответа и завершен), создавая граф знаний на основе поискового индекса, который впоследствии создает сводки, известные как «отчеты сообщества». Проще говоря, вместо того, чтобы полагаться исключительно на обновления вручную или отдельные ответы, GraphRAG использует данные из поискового индекса для создания взаимосвязанной сети (граф знаний), а затем генерирует краткие сводки по конкретным темам или областям (отчеты сообщества).

GraphRAG использует двухэтапный процесс:

Шаг 1. Создание структуры тематического индекса

Принято считать, что GraphRAG работает с графами знаний, но это еще не все. В действительности, на этапе механизма индексирования GraphRAG создает эти графы знаний из неорганизованных данных, таких как веб-страницы. В отличие от RAG, который просто собирает и обобщает информацию без создания иерархического графика, GraphRAG выделяется тем, что превращает необработанные данные в структурированные знания.

На шаге 2 GraphRAG использует построенный им граф знаний, чтобы предложить соответствующий контекст модели изучения языка (LLM), что позволяет ей давать более точные ответы на вопросы.

По словам Microsoft, проблема с функцией Retrival Augmented Generation (RAG) заключается в том, что ей трудно извлекать данные, относящиеся к конкретным темам, поскольку она в первую очередь фокусируется на понимании семантических связей.

Один из способов перефразирования данного текста заключается в следующем: вместо RAG, который использует семантические связи для поиска ответов, GraphRAG выделяется тем, что сначала преобразует все документы в своей поисковой базе данных в иерархический граф знаний, который классифицирует темы и подтемы (темы) постепенно от общее к частному. Это позволяет GraphRAG находить решения, даже если релевантные ключевые слова не связаны семантически в документе, благодаря фокусу на тематическом сходстве.

Система Baseline RAG испытывает трудности с обработкой запросов, которые требуют сбора данных из различных частей набора данных для получения ответа, например, таких вопросов, как «Каковы 5 основных тем в данных?» работает плохо, поскольку Baseline RAG работает путем поиска семантически связанного текста в наборе данных. Поскольку в запросе нет конкретных указаний, позволяющих направить его на получение соответствующей информации, он может не дать точных результатов.

С помощью GraphRAG мы можем решать такие вопросы, поскольку структура графа знаний, созданная LLM, дает представление об общей организации (и, следовательно, повторяющихся темах) в наборе данных. Таким образом, частный набор данных группируется в соответствующие семантические группы, которые были предварительно обобщены. Затем LLM привлекает эти группы для обобщения и обсуждения этих тем при ответе на запрос пользователя.

Обновление для GraphRAG

Таким образом, GraphRAG создает граф знаний, используя свой индекс поиска. «Сообщество» представляет собой совокупность связанных разделов или документов, сгруппированных вместе из-за их тематического сходства. С другой стороны, «отчет сообщества» представляет собой краткий обзор, созданный LLM для каждого конкретного сообщества.

В первоначальной конструкции GraphRAG он обрабатывал все отчеты сообщества, даже те, которые содержали низкоуровневые сводки, не имеющие прямого отношения к поисковому запросу. Microsoft называет эту методологию «статической», поскольку она не включает динамическую фильтрацию или настройку на основе релевантности запроса.

В обновленном GraphRAG представлен «динамический выбор сообщества», который оценивает актуальность каждого отчета сообщества. Нерелевантные отчеты и их подсообщества удаляются, что повышает эффективность и точность за счет сосредоточения внимания только на актуальной информации.

При таком подходе мы включаем в наш алгоритм глобального поиска метод, называемый динамическим выбором сообщества. Этот метод использует преимущества структуры графа знаний, найденного в нашем наборе данных. Мы начинаем с оценки соответствия отчета сообщества вопросу пользователя с помощью модели большого языка (LLM). Если отчет считается нерелевантным, он и любые связанные с ним узлы или подсообщества исключаются из процесса поиска. И наоборот, если отчет считается релевантным, мы исследуем его дочерние узлы и повторяем один и тот же процесс. Конечным результатом является то, что только соответствующие отчеты попадают в операцию уменьшения карты, которая генерирует окончательный ответ для пользователя.

Выводы: результаты обновления GraphRAG

Microsoft обнаружила, что последняя версия GraphRAG значительно сократила вычислительные затраты примерно на 77%. Это снижение было особенно заметно в стоимости токена во время обработки языковой моделью (LLM). Проще говоря, токены — это фундаментальные компоненты текста, которые обрабатываются LLM. Для расширенного GraphRAG теперь требуется меньший LLM, что означает снижение затрат без ущерба для качества результатов.

Положительное влияние на качество результатов поиска:

  • Динамический поиск предоставляет ответы, содержащие более конкретную информацию.
  • Результаты более полные и специфичные для запроса пользователя, что помогает избежать предоставления слишком большого количества информации.

GraphRAG: улучшение глобального поиска за счет динамического выбора сообщества

Смотрите также

2024-11-20 13:38

Повысьте видимость результатов поиска с помощью обзоров ИИ [Вебинар]

Как опытный специалист по цифровому маркетингу с более чем десятилетним опытом работы в постоянно развивающейся поисковой среде, я могу с уверенностью сказать, что оставаться на шаг впереди имеет решающее значение для успеха в этой быстро развивающейся отрасли. Появление инструментов на основе искусственного интеллекта, несомненно, изменило наш подход к SEO, и 90%-ная доля рынка Google является свидетельством его доминирования.


В сфере поиска информации происходят масштабные изменения, поскольку инструменты на базе искусственного интеллекта, такие как ChatGPT Search, Perplexity и Microsoft Copilot, революционизируют взаимодействие пользователей с результатами поиска. Несмотря на нынешнюю эпоху стремительного технологического прогресса, один факт остается неизменным: Google сохраняет свою доминирующую позицию в мире поиска, имея впечатляющий контроль над 90% рынка.

Учитывая эту информацию, как она повлияет на ваш подход к поиску в будущем? Какие корректировки можно внести, чтобы оставаться заметными и конкурентоспособными?

Вот тут-то мы и вступаем.

5 декабря приходите на специальный вебинар с участием специалистов Botify и DemandSphere. В прямом эфире они поделятся подробной разбивкой 120 000 поисковых запросов Google!

Давайте вместе углубимся в основные выводы о сводках искусственного интеллекта Google и изучим практические методы их использования.

На этом вебинаре вы узнаете:

  • Механика обзоров ИИ: что их провоцирует, каким запросам они отдают приоритет и как они меняют процесс поиска.
  • Освоение недвижимости поисковой выдачи: сколько места занимают эти функции и какие стратегии оптимизации вам нужны, чтобы конкурировать.
  • Полезные советы, как оставаться впереди. Повысьте свою заметность и рейтинг без необходимости полного пересмотра стратегии.

Независимо от того, являетесь ли вы опытным специалистом по SEO или новичком, этот вебинар предлагает ценные знания и ресурсы, которые помогут вам успешно маневрировать в усиливающейся конкурентной среде органического поиска.

Почему вам стоит принять участие?

Сводки AI быстро становятся отличительным элементом результатов поиска Google. Овладение стратегиями адаптации к этим достижениям может определить, преуспеете ли вы в поиске или потеряете позиции.

Кроме того, давайте углубимся в причины, по которым базовые принципы SEO, такие как создание первоклассного контента и использование эффективных методов сканирования веб-страниц, продолжают иметь решающее значение даже в мире, где доминирует искусственный интеллект.

Не пропустите!

Приходите на наше предстоящее живое мероприятие, где вы узнаете уникальные точки зрения, примете участие в оживленных вопросах и ответах после вебинара и вооружитесь практическими тактиками SEO для разработки стратегии на 2025 год.

Если вы не можете присоединиться к нам в прямом эфире, не волнуйтесь! Зарегистрируйтесь, и мы обязательно поделимся с вами записью, чтобы вы могли посмотреть ее в удобное для вас время.

Смотрите также

2024-11-20 00:08

Google: сигналы на уровне страницы и на уровне сайта важны для ранжирования

Как опытный эксперт по SEO с более чем десятилетним опытом работы за плечами, я видел, как ландшафт поисковых систем резко меняется, так же, как и эволюция самого Интернета. Это последнее обновление от Google, касающееся руководства по системам поискового ранжирования, — это не просто настройка; это значительный шаг к прозрачности, который я искренне приветствую.


Как эксперт по SEO, я заметил, что Google недавно уточнил свои рекомендации о том, как факторы на странице и общие показатели веб-сайта влияют на рейтинг в поисковых системах, что дает нам более четкое понимание процесса ранжирования.

Теперь документ включает в себя рекомендации из мартовского основного сообщения в блоге Google.

Ключевые изменения

Согласно пересмотренному руководству, когда дело доходит до рейтинга в поисковых системах, Google уделяет большое внимание содержанию каждой конкретной страницы. Однако более широкие факторы, охватывающие весь сайт, также играют роль в общем процессе ранжирования.

Рейтинг каждой страницы не гарантируется автоматически высоким только потому, что весь веб-сайт имеет надежные сигналы по всему сайту. Аналогичным образом, плохие сигналы по всему сайту не обязательно приведут к низкому рейтингу каждой отдельной страницы.

Это часть усилий Google по обеспечению прозрачности процесса ранжирования.

Контекст из мартовского поста в блоге

Этот абзац, судя по всему, является новым дополнением к руководству Google по поисковым системам ранжирования:

Разработанные нами системы ранжирования работают постранично, учитывая множество факторов и механизмов для определения соответствующего рейтинга для каждой страницы. Кроме того, мы используем общие сигналы и классификаторы по всему сайту, которые помогают нам лучше понимать страницы. Хороший набор сигналов для всего сайта не гарантирует, что каждая страница сайта будет постоянно иметь высокий рейтинг, и наоборот, плохой набор сигналов для всего сайта не гарантирует, что весь контент сайта будет иметь низкий рейтинг.

Кажется, этот текст разделяет те же идеи, что и мартовский пост в блоге о манипулировании репутацией сайта и рейтинге в поисковых системах.

Мартовский пост в блоге содержит похожий, но более короткий раздел вопросов и ответов в разделе «Какие сигналы ранжирования есть у сайта?»:

Основная структура наших алгоритмов ранжирования в первую очередь ориентирована на каждую веб-страницу индивидуально, анализируя множество показателей и механизмов для определения их релевантности и позиции. Однако мы принимаем во внимание определенные факторы, которые влияют и на весь сайт.

Что это значит?

Для специалистов по SEO и владельцев веб-сайтов это разъяснение подчеркивает важность поддержания обоих:

  • Качественный контент отдельных страниц
  • Сильные сигналы качества по всему сайту

Другими словами, это обновление не вводит никаких новых элементов, влияющих на рейтинг в поиске. Скорее, он уточняет и уточняет информацию о текущих передовых практиках.

Последние меры Google направлены на борьбу со спамом и некачественным контентом путем внедрения новых правил против злоупотребления доменами с истекшим сроком действия, чрезмерного манипулирования контентом и нанесения ущерба авторитету веб-сайта.

Смотрите также

2024-11-19 22:08

Google разъясняет политику злоупотребления репутацией сайта

Как опытный специалист по SEO с более чем десятилетним стажем работы в индустрии цифрового маркетинга, я был свидетелем эволюции алгоритмов поисковых систем и их неустанного стремления к качественному контенту и подлинному пользовательскому опыту. Последнее разъяснение Google относительно политики злоупотребления репутацией сайта является еще одним шагом в этом направлении, направленным на борьбу с паразитическими практиками SEO, которые манипулируют рейтингами с помощью стороннего контента.


Недавно компания Google представила новое объяснение своей Политики в отношении злоупотребления репутацией сайта, представленной ранее в этом году. Основное внимание уделяется борьбе с тактикой «хищнического SEO», когда сайты используют хорошо зарекомендовавшие себя доменные имена для искусственного улучшения результатов поиска с помощью внешнего контента.

Крис Нельсон из команды качества поиска Google утверждает:

Пользователи ясно дали понять, что злоупотребление репутацией сайта, часто называемое «паразитным SEO», отрицательно влияет на качество результатов поиска. Последняя корректировка политики направлена ​​на пресечение такой практики.

Разъяснение политики

Проще говоря, пересмотренная политика ясно указывает на то, что использование внешнего контента с целью манипулирования рейтингом веб-сайта в поисковых системах противоречит правилам Google, независимо от того, принимает ли основная сторона непосредственное участие или контролирует это действие.

Это объяснение дается после тщательного изучения различных видов коммерческого сотрудничества, таких как партнерства под белой маркой, лицензионные соглашения и модели долевой собственности. (или) Это объяснение возникло после тщательного изучения Google множества бизнес-схем, включая отношения «white label», лицензионные контракты и структуры совместного владения.

Обновленная формулировка политики гласит:

Неправомерное использование веб-сайта путем размещения контента из других источников с целью манипулирования результатами поисковых систем, используя при этом показатели надежности хост-сайта.

Подробности политики

Что такое нарушение?

Google приводит несколько примеров нарушений правил, в том числе:

  • Образовательные сайты, на которых размещены сторонние обзоры кредитов до зарплаты
  • Медицинские сайты публикуют несвязанный контент с обзорами казино
  • Сайты обзоров фильмов, содержащие контент о социальных сетях.
  • Спортивные сайты, на которых размещаются сторонние обзоры пищевых добавок без контроля редакции.
  • Новостные сайты, публикующие купонный контент от третьих лиц без надлежащего участия

Что не является нарушением?

Google признает, что существует различие между вредным поведением и легальным внешним контентом.

Приемлемые примеры включают в себя:

  • Телеграфная служба и синдицированный новостной контент
  • Пользовательский контент на сайтах форумов
  • Редакционный контент при непосредственном участии принимающего сайта
  • Правильно раскрытый рекламный контент

Фон

В мае началось применение политики злоупотребления репутацией сайта.

По своему опыту опытного веб-мастера я наблюдал значительный волновой эффект в мире новостей и публикаций, о чем свидетельствует обширная документация Ольги Зарр.

Известные новостные агентства, такие как CNN, USA Today и Los Angeles Times, были одними из первых организаций, которые были оштрафованы за размещение сторонних купонов и рекламных материалов на своих сайтах.

Гленн Гейб поделился ранними наблюдениями:

Вчера по поисковому запросу «промокоды uber» CNN заняла второе место, а Fortune — четвертое. Однако оба этих источника больше не появляются в поиске, даже когда я пытаюсь найти их самостоятельно. Невероятно!

— Гленн Гейб (@glenngabe), 6 мая 2024 г.

Процесс восстановления продемонстрировал четкие закономерности: с сайтов, которые удалили оскорбительный контент или внедрили теги noindex в затронутые разделы, начали сниматься ручные действия. Однако восстановление рейтинга требует времени, поскольку сканерам Google необходимо обработать эти изменения.

Кстати, я хотел бы рассказать о веб-сайте, который, возможно, был пропущен во время уведомлений о ручных действиях. Интересно, что недавно они решили неиндексировать свой каталог купонов, хотя кажется, что этот сайт имеет тенденцию получать больше трафика, когда другие сайты подвергаются штрафам из-за ручных действий. Однако важно отметить, что рассматриваемый контент не был проиндексирован…

— Гленн Гейб (@glenngabe), 11 мая 2024 г.

Заглядывая в будущее

До сих пор правоприменение основывалось на ручных действиях, но Google намекнул на будущие изменения, которые будут включать в себя автоматизированные алгоритмы для выявления и наказания веб-сайтов с оскорбительной репутацией, хотя точные сроки для этих обновлений не были указаны.

Владельцы сайтов-нарушителей будут уведомлены через Search Console, что позволит им подать запрос на повторную проверку.

Смотрите также

2024-11-19 20:08

Google представляет инструменты для покупок в магазинах на базе искусственного интеллекта

Как опытный эксперт по SEO с более чем десятилетним опытом работы за плечами, я могу с уверенностью сказать, что последние объявления Google меняют правила игры как для розничных продавцов, так и для потребителей. Интеграция Google Lens в физические магазины — это блестящий шаг, который использует возможности искусственного интеллекта для оптимизации процесса покупок.


Google представил улучшенный опыт покупок в обычных магазинах и расширил возможности оплаты, отражая усовершенствования своих технологических решений для розничной торговли.

Ключевые обновления

Google Объектив

Как профессионал в области цифрового маркетинга, я бы сказал это так: с помощью Google Lens, обрабатывающего 20 миллиардов поисковых запросов в месяц, я могу делать снимки товаров в обычных магазинах, и это поможет мне найти лучшие цены и отзывы покупателей в Интернете. Делаем покупки умнее и удобнее!

Система использует базу данных продуктов Google, содержащую более 45 миллиардов позиций, и модели Gemini AI.

В объявлении Google говорится:

Благодаря значительному прогрессу в области искусственного интеллекта для распознавания изображений мы разработали свежее обновление. Это усовершенствование поддерживается обширным графиком покупок, содержащим более 45 миллиардов списков продуктов, данными о запасах в реальном времени у различных розничных продавцов и нашими моделями Gemini. Результатом стал инновационный подход к покупкам, который гармонично сочетает в себе онлайн- и офлайн-покупки.

Согласно внутренним исследованиям, проведенным компанией, примерно трое из каждых четырех американцев используют смартфоны при совершении покупок в обычных магазинах.

Сначала эта инновационная функция будет реализована исключительно для косметических товаров, игрушек и электронных товаров в магазинах США, участвующих в программе.

Чтобы пользователи могли использовать эту функцию, им необходимо дать разрешение на обмен данными о местоположении в приложении Google, будь то на устройстве Android или iOS.

В связанном обновлении Google Maps планирует добавить функции поиска продуктов, которые позволят пользователям находить определенные товары, доступные в магазинах поблизости.

Меры безопасности

Google также объявила о планах протестировать новые службы обнаружения мошенничества для продавцов.

Система работает над улучшением своей способности выявлять мошеннические транзакции, одновременно сводя к минимуму случаи, когда она может ошибочно пометить законные транзакции как потенциально мошеннические.

Гугл объясняет:

Наша постоянная цель — защитить как потребителей, так и бизнес от роста мошенничества в будущем. Вскоре мы запустим пробный запуск службы, призванной помочь торговцам обнаруживать подозрительные транзакции и пресекать действия мошенников, которые могут попытаться использовать украденные финансовые данные. Это также обеспечит бесперебойное проведение законных транзакций, которые могли быть ошибочно помечены как мошеннические.

Заглядывая в будущее

Эти заявления появились на фоне подготовки ритейлеров к увеличению активности праздничных покупок.

Согласно заявлениям компании, мы можем ожидать поэтапного представления этих новых функций в течение ближайших недель.

Это время совпадает с более широкими отраслевыми инициативами, направленными на внедрение технологий искусственного интеллекта в процесс совершения покупок, одновременно решая растущие проблемы, связанные с безопасностью платежей.

Смотрите также

2024-11-19 17:39