Более двух десятилетий SEO-специалисты спорят о том, влияют ли клики на позиции в поисковой выдаче. Хотя большинство сейчас согласны с тем, что клики не являются прямым фактором ранжирования, они *являются* ценными данными. Интересно, что поисковые системы обрабатывают эти данные о кликах способом, удивительно похожим на то, как люди-оценщики оценивают результаты поиска.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Клики – это необработанный сигнал.

Мнение от сентября 2025 года из Антимонопольного отдела Министерства юстиции объясняет, что Google рассматривает клики, контент и поисковые запросы как базовые, исходные точки данных – то, что они называют «сырыми сигналами». Эти сырые сигналы являются отправной точкой для более сложных факторов ранжирования или используются для обучения моделей, таких как RankEmbed и ее обновленная версия, RankEmbedBERT.

Они считаются необработанными сигналами, потому что они:

Наблюдаемый напрямую
Но пока не интерпретировано и не использовано для обучающих данных.

Сигналы поступают в различных формах, от простых данных, таких как количество кликов и контент веб-страницы, до конкретных слов, которые кто-то использует в поиске.

Эти сигналы могут быть сгенерированы с использованием простых методов, таких как простое подсчет частоты, с которой что-то происходит – например, отслеживание количества кликов по веб-странице после того, как кто-то ищет определенный термин. (См. id. at 2859:3–2860:21 (Allan) для обсуждения сигнала Navboost).

На переднем крае находятся новые модели глубокого обучения, которые являются типом машинного обучения, способного выявлять сложные закономерности в больших объемах данных.

Продвинутые AI модели отлично справляются с обнаружением и использованием закономерностей в больших объемах данных, но они связаны со значительными расходами.

Профессор Аллан утверждает, что ‘ключевые сигналы’ определяют окончательный рейтинг веб-страницы, учитывая такие факторы, как её популярность и качество.

Необработанные сигналы — это данные, которые будут дополнительно обработаны.

В антимонопольной заявке за сентябрь 2025 года Navboost упоминается как источник данных о популярности. Однако в ней не указывается, что клики влияют на рейтинг конкретных веб-сайтов.

«…популярность, измеренная на основе намерений пользователей и систем обратной связи, включая Navboost/Glue…»

И в другом месте, в контексте объяснения того, почему некоторые данные Navboost являются конфиденциальными:

«Они ‘популярность, измеренная по намерениям пользователей и системам обратной связи, включая Navboost/Glue’…»

В рамках предлагаемого решения Google обязана предоставить эти наборы данных соответствующим конкурентам:

1. Данные пользовательской стороны, используемые для создания, разработки или функционирования статистической модели(ей) GLUE;

2. Данные пользовательской стороны, используемые для обучения, создания или функционирования модели(ей) RankEmbed; и

Данные, собранные от пользователей, которые используются для обучения моделей искусственного интеллекта, поддерживающих Search или любой другой продукт на основе искусственного интеллекта, связанный с Search.

Google использует первые два набора данных для создания факторов, влияющих на результаты поиска, а третий — для разработки и улучшения моделей искусственного интеллекта, поддерживающих AI Overviews и, возможно, приложение Gemini.

Клики, аналогично отзывам от людей-оценщиков, являются базовыми точками данных, используемыми для улучшения ИИ. Эти модели учатся на кликах, чтобы лучше понимать, какие веб-страницы наиболее релевантны поисковым запросам. Эта информация затем объединяется с другими факторами, чтобы помочь системам ранжирования предоставлять наилучшие результаты.

70 Days Of Search Logs

В документах Министерства юстиции упоминается 70 дней истории поиска, но эта деталь относительно незначительна в рамках всего документа.

«70 дней журналов поиска плюс оценки, полученные от людей-оценщиков»

Журналы поисковых запросов, которые Google использует для обучения моделей искусственного интеллекта – охватывающие последние 70 дней – не совпадают с данными о кликах, используемыми для непосредственного ранжирования результатов поиска в Google Search, AI Mode или Gemini. Вместо этого эти данные журналов обрабатываются и используются для обучения моделей искусственного интеллекта, таких как RankEmbedBERT, которые затем используют понимание естественного языка для ранжирования веб-страниц.

Документ Министерства юстиции не утверждает, что Google напрямую использует данные кликов для ранжирования результатов поиска. Вместо этого, они используются как данные от человеческих оценщиков – в качестве обучающего материала для других систем или для дальнейшего анализа.

Что такое RankEmbed от Google?

RankEmbed — это подход на основе естественного языка для выявления релевантных документов и их ранжирования.

RankEmbed — это мощная система искусственного интеллекта, которая использует глубокое обучение для хорошего понимания языка. Это помогает ей находить наиболее релевантные документы, даже если ваш поиск не включает все ключевые слова.

Как человек, который годами разрабатывает и настраивает поисковые системы, я действительно впечатлен RankEmbed. Удивительно, что он достигает лучших результатов поиска, чем старые модели, хотя был обучен на значительно меньшем количестве данных – примерно на одном проценте от того, что использовали эти другие модели! Это свидетельство эффективного обучения и настоящая революция в получении точных результатов.

Данные, используемые для обучения системы, включают информацию о каждом поиске, такую как наиболее важные слова, которые определяет Google, и веб-страницы, которые были результатом этого поиска.

Это тренировочные данные для обучения модели распознаванию того, как поисковые запросы связаны с веб-страницами.

Модели RankEmbed обучаются на двух основных источниках информации: на том, на что люди кликают при поиске, и на оценках веб-страниц, данных человеческими оценщиками.

Этот отрывок чётко объясняет, что данные о кликах и отзывы от людей-оценщиков используются для *обучения* моделей ИИ, а не для непосредственного изменения поисковых позиций.

Что насчет патента Google на ранжирование кликов?

В 2006 году Google запатентовал систему для улучшения результатов поиска с использованием данных о кликах. Патент под названием ‘Modifying search result ranking based on implicit user feedback’ описывает формулу для определения релевантности результата поиска на основе частоты, с которой на него нажимают пользователи.

Как цифровой маркетолог, я вижу в этом патенте умный способ разделения того, как мы *идентифицируем* релевантный сигнал, и того, как мы фактически *ранжируем* результаты. По сути, он генерирует «оценку релевантности», которую мои системы ранжирования могут затем использовать наряду с другими факторами для улучшения результатов поиска каждый раз, когда кто-то вводит новый запрос. Речь идет о добавлении еще одного уровня интеллекта в процесс ранжирования.

Система ранжирования результатов поиска может корректировать эти результаты на основе тонких подсказок о том, что предпочитают пользователи, в конечном итоге улучшая порядок, в котором они отображаются.

Мы можем отслеживать, по каким результатам поиска кликают пользователи, и использовать эту информацию для улучшения будущих поисков. Вычисляя «долю кликов», мы можем приоритизировать результаты, которые люди считают наиболее полезными.

«Доля кликов» показывает, насколько что-либо релевантно. Этот патент не фокусируется на простой записи кликов, а на расчете – доле кликов – который объединяет все типы кликов, включая короткие, средние, длинные и окончательный клик.

Эта метрика, известная как LCIC (Long Click divided by Clicks) Fraction, рассматривает общее количество кликов, а не отдельные. Она вычисляет соотношение на основе суммы всех кликов, чтобы понять общее поведение пользователей.

Этот показатель кликов является агрегированным, потому что:

Суммирование:
«Первое число», используемое для ранжирования, — это сумма всех этих индивидуальных взвешенных кликов для конкретной пары запрос-документ.
Нормализация:
Она берет эту сумму и делит ее на общее количество всех кликов ( «второе число» ).
Статистическое сглаживание:
Система применяет «коэффициенты сглаживания» к этому агрегированному числу, чтобы гарантировать, что единичный клик по «редкому» запросу не исказит результаты, особенно для спамеров.

«Базовая доля кликов LCC может быть определена как:

LCC_BASE=[#WC(Q,D)]/[#C(Q,D)+S0)

Здесь, iWC(Q.D) представляет собой общее количество взвешенных кликов для конкретного поискового запроса (Q) и веб-страницы (D), где каждый клик имеет свой вес. iC(Q.D) просто подсчитывает общее количество кликов для того же запроса и веб-страницы, без учета веса. Наконец, S0 — это значение, используемое для уточнения расчетов.

Эта формула вычисляет оценку для документа, объединяя данные от всех пользователей. Каждый уникальный поисковый запрос и ссылка на результат действуют как ‘корзина’, содержащая информацию о каждом пользователе, который нажал на неё. ‘Сглаживающий фактор’ помогает предотвратить спам, снижая вес одиночных кликов, особенно для редких поисковых запросов.

Уже в 2006 году клики не использовались напрямую для ранжирования веб-сайтов. Вместо этого, они были базовыми точками данных, которые проходили через несколько этапов анализа и объединялись с другими данными для создания показателя релевантности веб-сайта. Этот показатель релевантности затем помогал отдельной системе решить, как ранжировать веб-сайты.

Прежде чем данные попадут в систему, ранжирующую результаты, они обрабатываются из отдельных взаимодействий с пользователями в общую оценку, показывающую, насколько они релевантны.

Выводы

Размышления о кликах в связи с ранжированием не так просты, как утверждение, что клики влияют на позиции в поисковой выдаче.
Клики — это просто необработанные данные.
Клики используются для обучения систем искусственного интеллекта, таких как RankEmbedBert.
Клики напрямую не влияют на результаты поиска. Они всегда были необработанными данными, отправной точкой для систем, которые используют эти данные в совокупности для создания сигнала, который затем смешивается в системы принятия решений о ранжировании в Google.
Итак, да, как и данные от людей-оценщиков, необработанные данные обрабатываются для создания сигнала или для обучения систем искусственного интеллекта.

Прочитайте меморандум Министерства юстиции в формате PDF здесь.

Прочитайте о четырех исследовательских работах о CTR.

Прочтите патент Google от 2006 года «Изменение рейтинга результатов поиска на основе неявных отзывов пользователей».

Смотрите также

2026-04-23 14:42