Бдительный эксперт по поисковому маркетингу обнаружил причину появления спамных веб-страниц в обзорах искусственного интеллекта Google. Важная деталь в последнем решении по антимонопольному делу против Google намекает на то, почему это произошло, и предполагает, что это может указывать на отход Google от ссылок как значимого фактора ранжирования.
Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.
Купить на падении (нет)Райан Джонс, создатель SERPrecon (как указано в LinkedIn), выделил отрывок из последнего решения суда, который демонстрирует основу, на которой Google разрабатывала свои модели Gemini.
Обоснование ответов, генерируемых искусственным интеллектом
В этой части обсуждения мы сосредоточены на закреплении ответов данными из веб-поиска. Обычно можно предположить, что ссылки важны для определения порядка, в котором веб-страницы отображаются, когда ИИ-модель получает их из поисковой системы в ответ на запрос пользователя. Следовательно, когда вы задаете вопрос обзорам ИИ от Google, система выполняет поиск с помощью Google Search, а затем генерирует сводку на основе найденных результатов поиска.
В отличие от этого, похоже, Google работает по-другому. Google использует отличную систему, которая загружает меньшее количество веб-страниц быстрее, чем обычно.
Отрывок гласит:
Модели Gemini от Google полагаются на уникальную технологию под названием FastSearch для привязки к реальности. Эта разработанная внутри компании технология работает, используя сигналы RankEmbed — группу показателей ранжирования поиска — для предоставления сжатых, отсортированных веб-находок. Эти сжатые результаты служат ориентиром для модели, чтобы сгенерировать ответ, основанный на фактах. В отличие от Поиска, FastSearch предоставляет ответы быстрее, поскольку извлекает меньше документов, но качество результатов может не соответствовать полностью ранжированным веб-находкам Поиска.
Райан Джонс поделился этими наблюдениями:
Эта информация интригует и подтверждает как наши предположения, так и первоначальные результаты. Так что же это означает? По сути, это говорит о том, что Google использует поисковый алгоритм, отличный от других. Основной причиной этого изменения, по-видимому, является необходимость более высокой скорости обработки. Однако, с этим новым подходом, они, похоже, отдают приоритет меньшему количеству сигналов по сравнению с традиционными алгоритмами. Они в основном ищут текстовые доказательства, подтверждающие их утверждения.
Вероятно, существует также множество спам-сообщений и индикаторов качества, которые не обрабатываются во время быстрых поисков. Это может быть причиной того, что некоторые спам-сайты и сайты, находящиеся под санкциями, иногда появлялись в сводках, созданных искусственным интеллектом.
Он далее выражает свою точку зрения, предполагая, что ссылки в данном случае не имеют значения, поскольку связь основана на семантической релевантности.
Что такое FastSearch?
В другом месте в меморандуме говорится, что FastSearch выдает ограниченное количество результатов поиска.
FastSearch – это технология, разработанная для быстрого получения подборки релевантных результатов поиска для конкретных приложений, например, для привязки больших языковых моделей (LLM). В основном она базируется на модели RankEmbed.
Итак, вопрос в том, что такое модель RankEmbed?
В меморандуме указано, что RankEmbed представляет собой сложный подход машинного обучения. По сути, этот тип модели обнаруживает повторяющиеся закономерности в обширных наборах данных. Например, он может различать семантические значения и связи. Однако он не обладает пониманием в человеческом смысле; вместо этого он определяет тенденции и взаимосвязи.
С другой стороны, вы найдете продвинутые модели глубокого обучения. Это тип моделей машинного обучения, предназначенных для распознавания сложных закономерностей в обширных наборах данных (перефразировано мной).
Google использует несколько ключевых показателей, часто называемых ‘главными’ сигналами, которые вносят вклад в окончательную оценку веб-страницы. Одной из таких групп главных сигналов являются те, которые оценивают качество и популярность веб-страницы, как указано в RDXD-20.018 и подробно описано в RDX0041.
Модели глубокого обучения, такие как RankEmbed, являются одними из значимых показателей, которые Google использует для обработки данных.
Данные на стороне пользователя
RankEmbed использует ‘данные со стороны пользователя’. В сегменте, посвященном типу данных, которыми Google должна делиться с конкурентами, Меморандум объясняет RankEmbed (основу FastSearch) следующим образом.
Данные, полученные от пользователей, используемые для обучения, создания или функционирования модели(ей) RankEmbed;
PXR0171 на -086 утверждает, что поиск на основе внедрений эффективен при семантическом сопоставлении документов и запросов.)
…Модель RankEmbed, несмотря на обучение только на одной сотой от объема данных, ранее использовавшегося для обучения других моделей ранжирования, обеспечивает превосходные результаты поиска.
…RankEmbed особенно помог Google улучшить ответы на длинные запросы.
В обучающих данных содержится информация о поисковом запросе, в частности, ключевые термины, выделенные Google, а также соответствующие веб-страницы, которые появляются в результате этого запроса.
…Основа данных моделей RankEmbed включает как клики пользователей по запросам, так и оценки людьми релевантности веб-страниц.
…RankEmbedBERT необходимо переобучать для учета свежих данных…»
Новый взгляд на поиск с помощью искусственного интеллекта
Можно ли утверждать, что ссылки не играют важной роли в определении веб-страниц для ИИ-резюме с использованием FastSearch от Google? Google высоко ценит скорость, и, по словам Райана Джонса, это может подразумевать использование нескольких баз данных, одна из которых посвящена FastSearch и содержит часто посещаемые сайты. Это может представлять собой аспект RankEmbed в FastSearch, сочетание данных ‘клики-запроса’ и данных, полученных от экспертов-оценщиков, которые, как утверждается, являются ключевыми факторами в ранжировании страниц.
Как специалист по цифровому маркетингу, я хотел бы пролить свет на наш подход к данным, полученным от оценщиков-людей, в управлении огромными индексами, содержащими миллиарды или даже триллионы веб-страниц. Из-за огромного объема контента, просто нереально, чтобы оценщики-люди оценивали более чем незначительную часть.
Это понимание заставляет нас использовать ограниченные данные, полученные от оценщиков-людей, для предоставления примеров, отмеченных качеством, в целях обучения. Эти примеры, отмеченные качеством, часто называемые размеченными данными, служат основой, на которой наши модели учатся более эффективно различать высококачественные страницы от низкокачественных. Анализируя эти примеры, наши алгоритмы начинают понимать и распознавать закономерности, которые имеют решающее значение для различения контента высшего уровня и некачественного контента.
Смотрите также
- Золото прогноз
- Google о слишком большом количестве сетевых запросов и SEO
- Какой самый низкий курс доллара к исландской кроне?
- Прогноз нефти
- Акции LKOH. ЛУКОЙЛ: прогноз акций.
- Серебро прогноз
- Акции LEAS. Европлан: прогноз акций.
- Акции NMTP. НМТП: прогноз акций.
- Властная хватка Биткоина: Альткоины обречены или просто отдыхают? 🚀🤔
- Анализ динамики цен на криптовалюту LTC: прогнозы лайткоина
2025-09-04 13:44