Данные пользователей важны в Поиске Google, согласно судебному иску, поданному Лиз Рейд из Министерства юстиции США.

Я изучил последний документ, поданный в рамках иска Министерства юстиции против Google, и обнаружил, что Google оспаривает предписание суда о предоставлении конфиденциальной деловой информации своим конкурентам.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Key Takeaways:

  • Google получила предписание предоставить информацию конкурентам, чтобы не быть незаконной монополией. Google не хочет делиться своими обширными пользовательскими данными.
  • Данные Google о качестве и свежести страниц являются собственными. Они не хотят их раскрывать.
  • Страницы, которые проиндексированы, помечаются аннотациями, включая сигналы, идентифицирующие спам-страницы.
  • Если бы спамеры получили доступ к этим сигналам о спаме, было бы трудно остановить спам.
  • Данные пользователей важны для системы Glue от Google, которая хранит информацию о каждом запросе, что видел пользователь и как он взаимодействовал с результатами поиска.
  • Данные пользователей важны для обучения RankEmbed BERT – одной из систем глубокого обучения, лежащих в основе Поиска.

OK, давайте перейдем к интересным вещам!

Google имеет собственные сигналы качества и свежести страниц.

Это нисколько не удивительно. Я посчитал особенно интересным тот факт, что Google тщательно охраняет детали о том, как он измеряет свежесть контента.

Снова, вот больше информации о важности запатентованных сигналов свежести Google:

Страницы, которые сканируются, помечаются с помощью «Проприетарных аннотаций понимания страниц».

Google использует аннотации – по сути, заметки, добавленные к каждой веб-странице – чтобы лучше понимать контент, который он индексирует. Эти заметки помогают Google выявлять и фильтровать спам и дублированный контент. Как я уже объяснял ранее, Google присваивает каждой странице ‘спам-оценку’, чтобы помочь в этом процессе.

Оценки спама могли бы быть использованы для обратной разработки систем ранжирования.

Google не хочет делиться информацией со своими конкурентами по этим показателям.

Если оценки спама станут общедоступными, это может спровоцировать больше спам-активности и усложнить борьбу с ней для Google.

Google создает индекс, используя эти размеченные страницы.

Google организует страницы с аннотациями понимания страниц, основываясь на том, как часто, по их мнению, контент будет обновляться, и как быстро пользователям нужен доступ к самой новой информации.

Лишь небольшая часть страниц попадает в индекс Google.

Google считает, что предоставление конкурентам списка веб-страниц, которые он проиндексировал, позволит им избежать времени и затрат на изучение широкого интернета, и вместо этого сосредоточиться только на страницах, которые Google уже обнаружил. Google инвестирует значительные ресурсы в создание этого индекса и не хочет свободно делиться этими инвестициями с другими.

Роль Данных Пользователей в Системах Ранжирования Google

Вот что я нахожу особенно увлекательным: мы часто упускаем из виду, как Google использует данные пользователей. Я готовлю видео для своего YouTube-канала, которое раскроет, почему эти данные имеют решающее значение – и, вероятно, являются самым большим влиянием на то, как Google ранжирует веб-сайты.

Данные пользователей используются для создания моделей GLUE и RankEmbed.

Google Glue — это огромный набор данных, отслеживающий, что люди ищут в интернете. Он записывает такие детали, как поисковые запросы, язык и местоположение пользователя, а также тип используемого устройства. Он также захватывает информацию о самих результатах поиска — что появилось на странице, на что кликнул пользователь, сколько времени он потратил на просмотр результатов и другие связанные данные.

RankEmbed BERT — это мощная система глубокого обучения, которая помогает улучшить результаты Google Search. Как объясняется в показаниях, она берет начальные результаты из стандартных методов ранжирования поиска и уточняет их. Важно отметить, что RankEmbed BERT обучается на реальном пользовательском поведении — она обучается с использованием данных из реальных кликов и поисковых запросов.

Поисковые системы, такие как Google, постоянно развиваются, чтобы предоставлять лучшие результаты. Они учатся, отслеживая, на что кликают пользователи, возвращаются ли они на страницу результатов поиска и как долго они остаются на веб-сайте. Эти данные, наряду с отзывами оценщиков качества, помогают улучшить систему. Я поделюсь более подробной информацией в ближайшее время, но главный вывод таков: обеспечение удовлетворенности пользователей результатами — самая важная цель!

Документ Лиз Рейд показывает, что модели RankEmbed обучаются, разрабатываются и запускаются с использованием данных пользователей.

Мы снова обнаружили, что информация, используемая для обучения этих моделей, включает в себя то, что люди ищут, их местоположение, время поиска и то, как они реагируют на полученные результаты.

Мы обсуждаем, как активность пользователей в результатах поиска Google влияет на ранжирование. В частности, меня интересует, играют ли роль данные из браузера Chrome – например, взаимодействуют ли люди со страницами, заполняют ли формы или используют ли рецепты, найденные в поиске. Я считаю, что да, и недавний документ суда предполагает, что данные Chrome *действительно* используются в системах ранжирования Google, хотя детали ограничены.

Google утверждает, что если бы у кого-то был клей и данные пользователей RankEmbed, они могли бы обучить на этом LLM.

Эти пользовательские данные — ключ к успеху Google.

Стоит прочитать полное заявление Лиз Рейд.

Смотрите также

2026-01-23 18:09