GraphRAG — лучший RAG, и теперь он бесплатен через @sejournal, @martinibuster

Как эксперт по SEO с обширным опытом в области технологий искусственного интеллекта и машинного обучения, я в восторге от новой технологии Microsoft GraphRAG. Возможность позволить чат-ботам и системам ответов связывать точки всего набора данных меняет правила игры.


Microsoft объявила, что сделает доступной для общественности революционную технологию под названием GraphRAG. Это нововведение позволяет чат-ботам и системам ответов создавать сложные связи между обширными наборами данных, значительно превосходя возможности стандартных методов поиска и дополненной генерации (RAG).

В чем разница между RAG и GraphRAG?

RAG (Поисковая дополненная генерация) — это технология, которая позволяет большой языковой модели (LLM) получать доступ к базе данных, аналогичной поисковому индексу, в качестве справочного материала для ответов на запросы. Он действует как посредник между LLM и традиционным индексом поисковой системы.

Как эксперт по SEO, я бы охарактеризовал генерацию ответов в реальном времени (RAG) как переломный момент в сфере чат-ботов и поисковых систем с искусственным интеллектом. Когда дело доходит до ответов на запросы, RAG использует авторитетные и надежные источники данных для обеспечения точных ответов. Кроме того, он позволяет генеративным моделям искусственного интеллекта решать вопросы по неподготовленным темам, получая доступ к актуальной информации. Этот передовой подход используется передовыми поисковыми системами искусственного интеллекта, такими как Perplexity, что позволяет давать более полные и точные ответы.

Как профессионал в области цифрового маркетинга, я бы описал это так: преимущество RAG заключается в применении встроенных технологий. Вложения — это, по сути, метод кодирования значения слов, предложений и документов в числовые векторы. Поступая таким образом, мы можем эффективно представлять семантические отношения между различными элементами, расширяя функциональные возможности поиска RAG. Это позволяет ему точно сопоставить запрос пользователя с соответствующим содержимым в базе данных, подобно тому, как работает индекс поисковой системы.

Недостаток использования встраивания заключается в том, что оно ограничивает способность RAG понимать текст в деталях (вместо того, чтобы улавливать более широкий контекст во всем наборе данных).

«Ограничением Naive RAG является его ориентация на топ-k ближайших фрагментов текста. Это может привести к ошибкам, поскольку вопросы могут сопоставляться с текстом, который имеет внешнее сходство, что приводит к неправильным ответам.»

Как опытный веб-мастер, я бы сказал, что отличительной чертой GraphRAG является способность модели большого языка (LLM) получать ответы из всего набора данных, а не только из отдельных точек данных.

Как специалист по цифровому маркетингу, я бы описал функциональность GraphRAG так: я использую GraphRAG для преобразования неструктурированных данных, таких как веб-страницы, в структурированные графы знаний. Этот процесс раскрывает скрытые отношения между различными сущностями, включая людей, места, концепции и вещи. Создав такое структурированное представление, машины смогут легче воспринимать и использовать информацию.

GraphRAG создает «темы» с названием Microsoft как зонтичные категории, а «темы» — как подтемы с различными уровнями детализации. LLM генерирует иерархическую сводку по каждой теме, предлагая всестороннее понимание данных. Это нововведение позволяет чат-боту отвечать на запросы больше на основе знаний (сводок), чем только на основе встроенных данных.

«Подведение итогов по каждому сообществу с помощью большой скрытой модели (LLM) предлагает иерархическую перспективу вашего набора данных, предоставляя вводный обзор без необходимости заранее определять конкретные вопросы. Каждое сообщество выступает в качестве основы для своего собственного всеобъемлющего резюме с подробным описанием объектов. и их взаимосвязи.»

Сводки сообщества эффективно решают глобальные запросы, принимая во внимание все описания сущностей и связей в индексе графа, полученном на основе входных текстов. Следовательно, для генерации ответа на запрос можно использовать метод сокращения карты, сохраняя всю важную информацию в более широком контексте данных.

Примеры RAG и GraphRAG

Исследовательская работа GraphRAG продемонстрировала широкие возможности GraphRAG в решении запросов, для которых нет соответствующих данных в данных индексированных материалах. Показательный случай связан с небольшой подборкой российских и украинских новостных статей за июнь 2023 года (переведенных на английский язык).

Простой вопрос на соответствие текста

«Первоначальный запрос был: «Что такое Новороссия?» И RAG, и GraphRAG смогли ответить на этот запрос, но GraphRAG приложил дополнительные усилия, предоставив более полный ответ».

«Термин «Новороссия», что означает «Новая Россия», относится к регионам Украины, которые исторически были аннексированы Россией в 18 веке».

На естественном и легко читаемом языке: второй вопрос требовал, чтобы машина не только находила соответствующие документы, но и устанавливала связи между их понятиями. Эта функция, называемая Microsoft «задачой суммирования, ориентированной на запросы (QFS)», выходит за рамки простого поиска текста. Это требует установления связей между индексированными данными.

Вопрос, заданный о системах RAG и GraphRAG:

Это ответ RAG:

«В тексте не содержится конкретной информации о том, что сделала Новороссия».

В ответ на вопрос «Какие действия можно отнести к Новороссии?» GraphRAG предоставил подробный отчет в двух связанных абзацах, в котором изложены последствия и влияние политического движения Новороссии.

Политическое движение, известное в Украине как «Новороссия», было замешано в ряде разрушительных действий, направленных в первую очередь против украинских институтов. Среди примечательных целей — компания «Розен», Одесский консервный завод, вещательные мощности Одесского областного центра радиотелевизионной передачи и Национальная телекомпания Украины. Сообщается, что это движение связано с планами сноса собственности этих организаций.

Генеральная прокуратура Украины в своем отчете признала появление движения «Новороссия», предположив, что у властей могут быть опасения по поводу его действий.

«Ниже представлена ​​часть ответа, полученного на основе набора данных за один месяц. Он демонстрирует способность GraphRAG устанавливать связи между документами во всей их полноте».

GraphRAG теперь общедоступен

Microsoft объявила, что GraphRAG общедоступен для использования кем угодно.

Как опытный веб-мастер, я рад поделиться с вами сегодня интересными новостями. Я с гордостью сообщаю, что GraphRAG теперь общедоступен на GitHub! Эта усовершенствованная система поиска информации и генерации ответов превосходит ограничения простых методов RAG, предлагая более организованный сбор данных и обширную генерацию ответов.

Microsoft представила GraphRAG с целью повысить общественную доступность связанных решений и стимулировать участие сообщества в потенциальных улучшениях.

GraphRAG: новый инструмент для обнаружения сложных данных теперь на GitHub

Смотрите также

2024-07-04 16:50

Robots.txt исполняется 30 лет: Google подчеркивает скрытые сильные стороны через @sejournal, @MattGSouthern

Как опытный эксперт по SEO, я нахожу недавнюю публикацию Гэри Иллиеса в LinkedIn о менее известных аспектах файла robots.txt весьма интригующей. Поработав с различными веб-сайтами и их SEO-реализацией, я могу оценить значение этого, казалось бы, простого, но важного компонента.


Как опытный веб-мастер, я недавно наткнулся на поучительный пост в LinkedIn от Гэри Иллиеса, известного аналитика Google. В этом посте Гэри проливает свет на менее известные аспекты файла robots.txt, который в этом году отмечает свое 30-летие.

С момента своего появления файл robots.txt, который играет решающую роль в процессах сканирования и индексирования веб-страниц, стал фундаментальным аспектом стратегии SEO.

Вот одна из причин, почему это остается полезным.

Надежная обработка ошибок

Иллиес подчеркнул устойчивость файла к ошибкам.

«В файле robots.txt практически нет ошибок», заявил Иллиес.

В своем посте он отметил, что парсеры robots.txt способны игнорировать многие ошибки, сохраняя при этом правильное функционирование.

Как эксперт по цифровому маркетингу, я бы объяснил эту функцию так: «Эта функция гарантирует бесперебойную работу моей системы, даже когда я случайно добавляю нерелевантный контент или неправильно печатаю инструкции».

Как специалист по цифровому маркетингу, я бы объяснил это так: когда дело доходит до анализа правил в SEO, мы сосредотачиваемся на распознавании и обработке таких важных инструкций, как пользовательский агент, разрешение и запрет. К сожалению, во время этого процесса мы часто упускаем из виду нераспознанный контент.

Неожиданная функция: линейные команды

Иллиес отметил интригующую особенность файлов robots.txt: они содержат комментарии к строкам, что казалось необычным, учитывая их снисходительный подход к ошибкам.

Он предложил сообществу SEO порассуждать о причинах этого включения.

https://www.linkedin.com/watch?v=feed/update/urn:li:share:7213298917273149440

Ответы на сообщение Ильеса

В мире SEO сообщение Иллиеса вызвало оживленную дискуссию о реальных последствиях гибкости robots.txt с точки зрения устойчивости к ошибкам и использования строковых комментариев.

Как основатель Optimisey, я обнаружил ценность использования строковых комментариев для эффективной внутренней коммуникации внутри нашей команды цифрового маркетинга. Эта функция позволяет нам предоставлять конкретную обратную связь и более эффективно сотрудничать в текущих проектах. Благодаря этому наши разговоры становятся целенаправленными и легко доступными, обеспечивая более плавный рабочий процесс.

При разработке веб-сайтов комментарий к строке можно рассматривать как объяснение разработчиком цели директивы disallow в этой конкретной строке файла.

Нима Джафари, консультант по SEO, подчеркнула ценность комментариев при крупномасштабных внедрениях.

Обширные файлы robots.txt могут принести пользу как разработчикам, так и команде SEO благодаря добавлению комментариев. Эти замечания дают ценную информацию о других направлениях.

Как эксперт по SEO, я хотел бы поделиться своим взглядом на сравнение robots.txt и спецификаций HTML, используя исторический контекст. Проще говоря, robots.txt — это файл, который владельцы веб-сайтов используют, чтобы указывать веб-сканерам или ботам, к каким страницам им разрешен доступ на сайте. С другой стороны, спецификации HTML определяют структуру и представление контента на веб-странице для чтения и отображения браузерами. Оба играют решающую роль во взаимодействии поисковых систем с веб-сайтами.

Он предположил, что устойчивость файла к ошибкам, вероятно, была преднамеренным выбором дизайна, заявив:

«Чтобы обеспечить доступность контента, даже если правила robots.txt не реализованы идеально, роботы поисковых систем стали более снисходительными.»

Почему SEJ заботится

Понимание нюансов файла robots.txt поможет вам лучше оптимизировать сайты.

Способность файла быть устойчивым к ошибкам обычно является преимуществом, но если не контролировать его должным образом, это может привести к тому, что важные проблемы останутся незамеченными.

Читайте также: 8 распространенных проблем с файлом Robots.txt и способы их устранения

Что делать с этой информацией

  1. Проверьте файл robots.txt. Убедитесь, что он содержит только необходимые директивы и не содержит потенциальных ошибок или неправильных конфигураций.
  2. Будьте осторожны с правописанием. Хотя анализаторы могут игнорировать орфографические ошибки, это может привести к непреднамеренному поведению при сканировании.
  3. Используйте комментарии к строкам. Комментарии можно использовать для документирования файла robots.txt для дальнейшего использования.

Смотрите также

2024-07-04 16:50

Обновления тенденций 2024 года: что действительно работает в SEO и контент-маркетинге через @sejournal, @lorenbaker

Как опытный веб-мастер с более чем десятилетним опытом работы в отрасли, я могу с уверенностью сказать, что будущее SEO смещается в сторону более человекоориентированного и ориентированного на пользователя подхода. Эта тенденция обусловлена ​​достижениями в области искусственного интеллекта и сотрудничества.


Абсолютно. Будущее поисковой оптимизации (SEO) смещается в сторону стратегии, более ориентированной на людей и пользователей, с использованием возможностей искусственного интеллекта (ИИ) и партнерских отношений. Готовы адаптироваться?

На этом вебинаре по запросу вы узнаете о ключевых тенденциях SEO, на которых следует сосредоточиться для достижения долгосрочного успеха и стабильных результатов. Мы углубились в практические стратегии, чтобы скорректировать ваш подход в свете значительных изменений в отрасли, таких как обновления алгоритма поиска Google. Кроме того, мы устранили основные препятствия, с которыми сталкиваются специалисты по SEO, и предоставили эффективные методы, позволяющие подчеркнуть превосходное качество и завоевать доверие.

Вы услышите:

  • Основные тенденции SEO, которые следует расставить по приоритетам в 2024 году для достижения долгосрочного успеха.
  • Прогнозы воздействия SGE и способы адаптации.
  • Что на самом деле означает E-E-A-T и как его реализовать целостно (подсказка: это никогда не было более важным).

Вместе с Заком Кадишем и Алексом Карчиеттой мы выделили тенденции SEO, которыми можно пренебречь и которые заслуживают внимания, а также предложили стратегии для эффективной борьбы с внезапными, серьезными и преобразующими модификациями алгоритмов Google.

Как эксперт по SEO, я понимаю, как сложно идти в ногу с постоянно меняющейся ситуацией в области поисковой оптимизации и тенденциями в контенте. Если вы хотите выделиться из толпы и добиться значимых результатов, я настоятельно рекомендую посетить этот вебинар при первой же возможности. Поступив так, вы получите ценную информацию, которая поможет избавиться от шума и добиться успеха вашего бизнеса. И лучшая часть? Вы можете получить к нему доступ по требованию прямо сейчас, что делает его невероятно удобным для вашего расписания.

Просмотрите слайды ниже или посмотрите полную версию вебинара, чтобы узнать все подробности.

https://www.slideshare.net/slideshow/embed_code/key/GZb6nW8LGDUgU9

Смотрите также

2024-07-04 16:51