Поиск в Google: как кластеризация работает с локализацией

Как опытный специалист по цифровому маркетингу с более чем десятилетним опытом работы за плечами, я не могу не чувствовать себя просвещенным и ошеломленным недавними открытиями Аллана Скотта о технологии кластеризации и локализации Google Search. Это все равно, что нырнуть с головой в темные глубины самого сложного айсберга SEO (каламбур) только для того, чтобы обнаружить, что верхушка айсберга — это только начало!


Что касается продолжающейся дискуссии о кластеризации и стандартизации в Google Search, Аллан Скотт из Google рассказал, как их система кластеризации взаимодействует с функциями геолокации. Однако важно отметить, что конкретная работа этой интеграции в некоторой степени зависит от контекста, поэтому давайте рассмотрим ее дальше.

Об этом говорилось в превосходном интервью Search Off The Record Аллана Скотта из команды Google Search, который специально занимается дублированием в Google Search. Мартин Сплитт и Джон Мюллер из Google взяли интервью у Аллана.

Во время интервью на 8:35 минуте Аллан объяснил, что когда дело доходит до понимания того, как кластеризация работает с локализацией, важно помнить, что мы видим лишь небольшую часть «айсберга локализации». Под поверхностью скрывается гораздо больший и более сложный аспект. Другими словами, его ответ предполагает, что способ взаимодействия кластеризации с локализацией зависит от факторов, которые не очевидны или не видимы сразу.

Проще говоря, концепции локализации и hreflang, как заявил Google, могут быть наиболее сложными аспектами поисковой оптимизации (SEO). Аллан объяснил, что если эти темы кажутся загадочными с внешней точки зрения, они в равной степени сбивают с толку и внутри. Он упомянул, что они уже довольно давно пытаются реализовать локализацию на практике, поскольку это очень сложная тема.

Как объяснил Аллан, Google делит локализацию на два основных типа. Первый тип предполагает простой шаблонный перевод, который часто можно увидеть на крупных сайтах социальных сетей, где контент остается неизменным. Второй тип — это полный перевод, при котором все содержимое страницы преобразуется в соответствии с целевым языком.

Аллан отметил, что стандартный или рутинный контент не является главным приоритетом для Google, он выразился так: «Мы не слишком сосредоточены на этом и не придаем этому большого значения». Однако другие формы контента действительно важны.

Аллан сказал:

Но страницы полного перевода не должны кластеризоваться, поскольку они имеют разные токены, которые они собираются получать для разных запросов, поэтому мы не хотим, чтобы они находились в одном кластере. Мы хотим, чтобы все эти страницы были доступны для поиска. Шаблонные переводы мы хотим поместить в один кластер. Это означает, что они будут консолидировать сигналы, но это также означает, что нам не нужно сканировать каждый вариант локализации, потому что, честно говоря, вы знаете, мы тратим впустую вашу пропускную способность и тратим при этом свое пространство. . Вот почему это зависит. Мы хотим решить эти проблемы двумя разными способами, и важно, какой из них вы делаете. А потом вы получаете действительно сложные ситуации, вроде того, что вы сказали, где они просто изменили цену. Эти становятся сложнее, потому что по сути это тот же контент, но за один токен. Но этот знак действительно имеет значение. И затем в этом случае с токенами мы все еще хотим, чтобы они были в разных кластерах. Теоретически это более сложная проблема, чем, как вы знаете, не поместить два варианта языка в один кластер. Но, знаете, именно поэтому локализация — это трудная задача.

Кроме того, помимо всей кластеризации для дублирования, здесь также используется hreflang. Аллан сказал:

На вершине всех этих разговоров о кластеризации, которая сама по себе является системой дублирования, есть hreflang, который по сути представляет собой отдельную систему, где, если вы добавите аннотации, мы попытаемся их заменить. Джон знает, что сейчас существует проект, который может быть запущен или не запущен к концу года и направлен на расширение охвата именно этого. Мы хотим предоставлять больше вариантов hreflang. Мы хотим использовать это больше, но нам необходимо внедрить механизмы, которые будут определять, насколько мы можем доверять этому сайту. По сути, мы проводим сканирование и проверку, чтобы определить, правильно ли этот сайт отображает свою карту, и если да, то мы постараемся обслуживать ее чаще, не обязательно проверяя ее так сильно, как в настоящее время мы это делаем.

Мое внимание привлекла следующая цитата: «Джону известно о текущем проекте, статус которого к концу года неясен, целью которого является, в частности, расширение его влияния. Google стремится предоставить большее количество вариантов hreflang.

В любом случае, эта тема продолжается, вот вставка, которую вы можете послушать:

Смотрите также

2024-12-06 16:44

Google мародерствует в черных дырах с помощью кластеризации и страниц ошибок

Как опытный специалист по цифровому маркетингу с более чем десятилетним опытом работы за плечами, я не могу не почувствовать смесь веселья и беспокойства, услышав о «мародирующих черных дырах» Google. Это похоже на бесконечную игру в «ударь крота», где, как только вы думаете, что устранили одну проблему, всплывает другая.


В связи с текущим обсуждением кластеризации и нормализации поиска Google Аллан Скотт из Google представил концепцию, которую он назвал «блуждающими темными дырами» в поиске Google. По сути, когда процесс кластеризации Google обнаруживает некоторые страницы с ошибками, они могут попасть в своего рода виртуальную яму в поиске Google.

В увлекательной беседе во время подкаста Search Off The Record мне выпала честь узнать мнение Аллана Скотта, члена команды Google Search, который специализируется на решении проблем дублирования в нашей поисковой системе. Интервью провели Мартин Сплитт и Джон Мюллер, также из Google.

Аллан пояснил, что некоторые «мародирующие черные дыры» возникают из-за неудачной связи между «страницами ошибок и кластеризацией». По сути, он заявил: «В некоторых случаях страницам ошибок непреднамеренно присваивается контрольная сумма, как и любой другой странице. Поскольку эти страницы затем группируются на основе своих контрольных сумм, они имеют тенденцию объединяться вместе, что может привести к слипанию страниц ошибок друг с другом. это имеет смысл на данный момент?

Мартин Сплитт из Google объяснил это так: «Он имел в виду ситуации, когда на сайте есть около 20 продуктов, которые больше не доступны, и вместо страницы с ошибкой отображается сообщение «товар недоступен». Эта страница по-прежнему возвращает HTTP 200, но на самом деле ее содержимое такое же, как и раньше, поэтому контрольная сумма остается неизменной. Это может привести к странным ситуациям.

Похоже, что Google считает эти страницы ошибок идентичными, поскольку они имеют одинаковые контрольные суммы.

Как опытный веб-мастер, я бы сказал это так: контрольная сумма — это компактный фрагмент информации, сгенерированный из большого фрагмента цифровых данных. Его основная роль — помочь выявить любые ошибки, которые могли возникнуть во время передачи или хранения данных. Хотя контрольные суммы отлично подходят для обеспечения целостности данных, они не проверяют подлинность самих данных.

Для Аллана заявление Мартина послужило иллюстрацией. Он подтвердил: «Действительно, это точное отражение моей точки зрения. На самом деле, в таком случае веб-мастер может не сильно беспокоиться, потому что, если эти продукты будут удалены навсегда, они предпочитают, чтобы они исчезли, поэтому это не является серьезной проблемой. Однако если они временно отсутствуют, это вызывает беспокойство, поскольку они, скорее всего, не появятся снова, поскольку сканеры не любят дубликаты. По сути, они думают: «Эта страница является дубликатом». .’ Вот почему он функционирует как черная дыра.

Эта информация потенциально может быть поглощена черной дырой, а это значит, что она больше не будет доступна или не замечена поисковыми алгоритмами Google в течение некоторого времени, хотя возможно, что она может появиться снова позже.

Аллан отметил, что только те элементы, которые находятся ближе всего к началу группы, вероятно, появятся снова.

Аллан, кажется, обеспокоен этой проблемой, поскольку он упомянул, что сайты с временными ошибками, такие как тот, который вы описали, для него в некотором роде похожи на намеренно созданные временные ошибки. Он объяснил, что это означает, что один раз из тысячи ваша система сообщит им об ошибке. Это может привести к появлению огромного количества мертвых страниц или к тому, что он назвал «мародерствующей черной дырой». Что еще хуже, он также обслуживает множество зависимостей JavaScript, заключил он.

Вот еще разговоры Аллана и Мартина по этому поводу:

Аллан:

Если их не удастся загрузить, это может привести к поломке вашего рендеринга, и в этом случае мы посмотрим на вашу страницу и подумаем, что она сломана. Фактическая надежность вашей страницы после прохождения этих этапов не обязательно будет очень высокой. Нам приходится сильно беспокоиться о том, чтобы такие мародерствующие скопления черных дыр не захватили территорию, потому что все просто выбрасывается.
в них, например, были сайты социальных сетей, где я просматривал, ну, вы знаете, самые известные профили, и под ними была просто куча страниц, некоторые из них сами по себе были довольно известными и просто не принадлежали к этому кластеру. .

Мартин:

Ох, боже. Хорошо. Ага. Я видел нечто подобное, когда кто-то проводил A/B-тестирование новой версии своего веб-сайта, а затем некоторые ссылки ломались с сообщениями об ошибках, потому что API изменился, и вызовы больше не работали, или что-то в этом роде. И тогда, примерно в 10% случаев, вы получите сообщение об ошибке практически для всего их контента. Да, думаю, выбраться из этого было непросто.

Джон Мюллер рассказал о случаях, когда это может быть проблемой с CDN:

Я также видел кое-что похожее на это: если перед сайтом есть какая-то CDN, CDN выполняет какое-то обнаружение ботов или обнаружение DDoS, а затем выдает что-то вроде: » О, похоже, ты бот», а Googlebot отвечает: «Да, я бот». Но тогда все эти страницы, я думаю, в конечном итоге будут сгруппированы вместе и, вероятно, на нескольких сайтах, верно?

Аллан подтвердил это и сказал, что Гэри Иллис из Google работал над этим здесь и там:

В принципе да. На самом деле Гэри кое-что разъяснил нам по этому вопросу. Знаете, мы сталкиваемся с такими случаями и стараемся привлечь поставщиков подобных услуг к сотрудничеству с нами или хотя бы к работе с Гэри. Я не знаю, что он с ними делает. Он отвечает за это. Но не все из них столь отзывчивы. Так что об этом следует знать.

Аллан сообщил, что лучший способ предотвратить попадание вашего сайта в тупиковые зоны Google, часто называемые «черными дырами», — это отправка соответствующих кодов ответа HTTP. Это означает, что если страница не найдена или доступ запрещен, используйте 404 или 403 соответственно. Для временных проблем используйте 503. Помните, что только страницы с кодом состояния 200 будут кластеризованы и потенциально могут оказаться в черной дыре.

Другой вариант, который сказал Аллан, был:

Другой вариант: если вы используете JavaScript foo, в этом случае вы не сможете отправить нам HTTP-код. Возможно, для этого уже слишком поздно. Что вы можете там сделать, так это попытаться обработать фактическое сообщение об ошибке, что-то, что очень заметно является ошибкой, например, вы знаете, вы можете буквально просто сказать, вы знаете, 503 — мы столкнулись с ошибкой сервера или 403 — вы не были авторизован для просмотра или 404 — мы не смогли найти правильный файл. Любая из этих вещей сработает. Знаете, вам даже не нужно использовать HTTP-код. Очевидно, вы могли бы просто сказать что-нибудь. Итак, у нас есть система, которая должна обнаруживать страницы с ошибками, и мы хотим улучшить ее отзыв по сравнению с тем, что она делает сейчас, чтобы попытаться решить некоторые из этих плохих рендерингов и этих ошибок, связанных с типами страниц, обслуживаемых ботами. Но в то же время, как правило, безопаснее взять все в свои руки и постараться убедиться, что Google как можно лучше понимает ваши намерения.

Они продолжают и говорят об этом, и все начинается где-то на 16:22 минуте — вот вставленное видео:

Смотрите также

2024-12-06 16:45

У Google есть 40 сигналов к канонизации

Как опытный веб-мастер, более десяти лет боровшийся с поисковыми алгоритмами Google, я могу с уверенностью сказать, что это последнее открытие о более чем 40 сигналах канонизации Google — это музыка для моих ушей (или лучше сказать, код для моих глаз?). Как будто Google наконец решил пригласить меня в свой секретный клуб — тот, где они обсуждают все замысловатые детали магии своей поисковой системы.


Знаете ли вы, что когда дело доходит до канонизации в поиске Google, Google использует около 40 различных показателей? Они варьируются от различных типов перенаправлений, атрибута rel canonical до x-default, карт сайта, внутренних ссылок, PageRank и множества других сигналов.

Google выделил несколько ключевых факторов, влияющих на канонизацию, к которым в основном относятся редиректы, атрибуты rel-canonical и, возможно, x-default. Стоит отметить, что сигнал, известный как «Перенаправление на Shorter», который использовался ранее, в последнее время был прекращен Google.

Об этом говорилось в превосходном интервью Search Off The Record Аллана Скотта из команды Google Search, который специально занимается дублированием в Google Search. Мартин Сплитт и Джон Мюллер из Google взяли интервью у Аллана.

Примерно на 3 минуте 45 секунде интервью Аллан упомянул, что не уверен в точной цифре из-за колебаний, но, по его оценкам, она может составлять около 40.

Позже Джон игриво заметил: «Хорошо, я думаю, наша аудитория будет создавать таблицы из 40 сигналов, как они это делали в те времена, когда у нас было 200 сигналов ранжирования.

Вот вставка видео, когда он говорил об этом:

В Redirect to Shorter его отключили, потому что Аллан сказал: «У него было очень плохое взаимодействие с HTTP/HTTPS, потому что если бы у вас были противоречивые сигналы, поступающие от веб-мастера, этот подтолкнул бы вас к HTTP».

Как эксперт по SEO, я часто сталкиваюсь с непростой задачей выбора между каноническими тегами и редиректами. Крайне важно понимать, что оба могут служить разным целям, но Google может также учитывать и другие факторы, такие как карты сайта и PageRank, в своем алгоритме ранжирования.

Вот что Аллан сказал о x-defaults как сигнале:

Ранее Мартин спрашивал меня о сигналах канонизации. x-default на самом деле является сигналом и немаловажным. Я не знаю, что это используется очень часто. Кажется, что он используется достаточно хорошо, когда его используют. Мне бы хотелось, чтобы люди использовали его немного больше. Чтобы представить это в перспективе. У вас здесь есть как бы два инструмента. Один из них — rel=»canonical», который говорит: «Эй, я должен быть сгруппирован с этой другой страницей, а та другая должна быть канонической». x-default — это скорее: «Эй, если вы не знаете, какую локаль делать, или я окажусь в том же кластере, что и эта другая страница, вы хотите получить именно ее» и тому подобное. В каком-то смысле это своего рода rel=»canonical», но не для кластеризации, а только для канонического выбора.

Как эксперт по SEO, я недавно углубился в общедоступную документацию Google по канонизации и нашел ее достаточно подробной, хотя и не хватает некоторых подробностей, касающихся настроек x-lang по умолчанию. Для справки: я наткнулся на авторитетный внешний список, подробно описывающий сигналы веб-мастеров, которые мы используем при каноническом отборе. Проанализировав, я могу подтвердить, что этот список остается в значительной степени актуальным. Тем не менее, похоже, что в растущей важности значения x-lang по умолчанию может быть недостающая часть, в то время как все другие элементы, такие как карты сайта, 301 редиректы и теги rel=»canonical», учитываются.

Смотрите также

2024-12-06 16:45

Разница в поиске Google между кластеризацией и канонизацией

Как опытный специалист по цифровому маркетингу с многолетним опытом за плечами, я не могу не оценить глубину знаний, которыми поделились Джон Мюллер из Google, Аллан Скотт и Мартин Сплитт в этом интервью Search Off The Record. Всегда полезно получать информацию непосредственно из источника, и их обсуждение кластеризации и канонизации в Google Search не стало исключением.


Джон Мюллер из Google объяснил разницу между кластеризацией и канонизацией в поиске Google. Он сказал: «Кластеризация — это, по сути, отбор страниц, которые, по нашему мнению, одинаковы. А затем канонизация этих страниц — какая из них является лучшей». Джон сказал это на 3:03 минуте интервью.

В примечательном разговоре в интервью Search Off The Record принял участие Аллан Скотт, член команды Google Search, специализирующийся на дублированном контенте в Google Search. Дискуссию вели Мартин Сплитт и Джон Мюллер из Google.

В начале видео Аллан пояснил, что когда люди думают о канонизации, они часто представляют ее как одну загадочную коробку, творящую всю свою магию. Однако объяснить, почему что-то может быть неправильным, может быть непросто. Вместо этого он призывает зрителей рассматривать канонизацию как всего лишь один шаг в этом процессе. Представьте себе, что у вас есть несколько URL-адресов и вы хотите знать, какой из них предпочтительнее; однако есть и другие важные шаги, которые могут быть даже более важными. Первым из них является кластеризация.

Проще говоря, Аллан объяснил, что когда люди обращаются к ним с опасениями по поводу канонизации, его команда обычно отвечает: «Похоже, это проблема кластеризации, поскольку эти две страницы не должны принадлежать к одной и той же группе. для меня проблема канонизации, это означает, что эти две страницы действительно сгруппированы вместе, но этого не должно быть. Это может привести к тому, что мы выберем неправильную страницу в качестве канонической. Худший сценарий — это когда произойдет захват — мы имеем дело. с этими быстро, потому что они могут вызвать серьезные проблемы.

Джон Мюллер объяснил это так: «По сути, кластеризация предполагает группировку веб-страниц, которые кажутся нам идентичными. С другой стороны, канонизация определяет, какая из этих сгруппированных страниц является лучшей или наиболее подходящей». Аллан согласился, сказав: «Абсолютно, ты попал в точку!

«Алан привел иллюстрацию, заявив, что rel=»canonical» служит своего рода объединяющим элементом, пересекающим эти границы. По сути, rel=»canonical» изначально пытается сгруппировать две страницы в один кластер. Удастся ли это или нет, неизвестно. , но если две веб-страницы находятся в одном кластере и между ними есть ссылка rel=»canonical», это также служит сигналом для выбора канонической версии.’

Это началось примерно в начале этого видео, если вы хотите его послушать:

Смотрите также

2024-12-06 15:44

Новая политика и сертификация Google Рекламы в сфере знакомств и общения

Как опытный веб-мастер с более чем десятилетним стажем работы в постоянно меняющемся цифровом мире, я видел свою долю обновлений и корректировок политики от таких технологических гигантов, как Google. Последний набор правил Google Рекламы для служб знакомств и дружеских отношений, вступающий в силу 4 марта 2025 года, не является исключением.


С 4 марта 2025 года Google вводит обновленные правила в отношении рекламы, касающейся знакомств и дружеских отношений. Чтобы показывать такую ​​рекламу через Google Ads, рекламодателям сначала необходимо пройти процедуру сертификации в Google.

Вы можете найти новую политику знакомств и общения здесь, она очень подробная. Короче говоря, некоторые виды рекламы знакомств и дружеских отношений (в том числе объявления о сватовстве, супружеских отношениях и содействии свиданиям) разрешены, если они соответствуют приведенным ниже правилам, не допускают пользователей младше 18 лет и рекламодатель получил соответствующую сертификацию Google Реклама. Реклама знакомств и дружеских отношений может быть ограничена в зависимости от категории объявления, возраста пользователя, местных законов, настроек безопасного поиска пользователя и поисковых запросов пользователя с сексуальным контентом.

Google запрещает рекламу знакомств и/или дружеских отношений, которая:

  • Пропагандируйте знакомства несовершеннолетних.
  • На целевых страницах размещаются изображения или текст, не отражающие пользователей, которым продается услуга.
  • Пропагандируйте оплачиваемые дружеские отношения, свидания или сексуальные действия.
  • Пропагандируйте эксплуататорские знакомства.
  • Продвигайте супругов, заказывающих по почте.
  • Пропаганда мошеннических служб знакомств

Google планирует ограничить рекламу, связанную с конкретными услугами знакомств или дружеских отношений, рекламу, содержащую откровенный контент, и веб-сайты, которые отображают откровенный материал при первом доступе (не ограничиваясь следующими примерами):

  • Сайты знакомств, интрижек и свингеров.
  • Услуги по знакомству или измене
  • Сексуальные фетиш-знакомства
  • Приложения для прямых трансляций или чатов, в которых присутствует нагота, частичная нагота или контент сексуального характера.
  • Эротический контент в объявлениях или на целевых страницах, например изображения человека в нижнем белье или нижнем белье, а также человека топлесс или без груди в приватной обстановке.

Кроме того, важно отметить, что рекламу знакомств и дружеских отношений запрещено показывать в таких странах, как Алжир, Бахрейн, Бангладеш, Шри-Ланка, Палестина, Ирак, Иордания, Кувейт, Ливан, Ливия, Марокко, Оман, Непал, Пакистан. , Катар, Саудовская Аравия, ОАЭ, Тунис, Египет или Йемен.

Пройти процедуру сертификации можно здесь. Чтобы рекламировать продукты, услуги или контент для знакомств и общения, вы должны пройти сертификацию Google. Право на получение сертификации зависит от вашего соответствия требованиям Google и от углубленной проверки, которая может включать проверку существующих объявлений, целевой страницы и контента после входа в систему.

Здесь можно найти гораздо больше подробностей об этой новой политике.

Смотрите также

2024-12-05 16:43