Google мародерствует в черных дырах с помощью кластеризации и страниц ошибок

Как опытный специалист по цифровому маркетингу с более чем десятилетним опытом работы за плечами, я не могу не почувствовать смесь веселья и беспокойства, услышав о «мародирующих черных дырах» Google. Это похоже на бесконечную игру в «ударь крота», где, как только вы думаете, что устранили одну проблему, всплывает другая.


В связи с текущим обсуждением кластеризации и нормализации поиска Google Аллан Скотт из Google представил концепцию, которую он назвал «блуждающими темными дырами» в поиске Google. По сути, когда процесс кластеризации Google обнаруживает некоторые страницы с ошибками, они могут попасть в своего рода виртуальную яму в поиске Google.

В увлекательной беседе во время подкаста Search Off The Record мне выпала честь узнать мнение Аллана Скотта, члена команды Google Search, который специализируется на решении проблем дублирования в нашей поисковой системе. Интервью провели Мартин Сплитт и Джон Мюллер, также из Google.

Аллан пояснил, что некоторые «мародирующие черные дыры» возникают из-за неудачной связи между «страницами ошибок и кластеризацией». По сути, он заявил: «В некоторых случаях страницам ошибок непреднамеренно присваивается контрольная сумма, как и любой другой странице. Поскольку эти страницы затем группируются на основе своих контрольных сумм, они имеют тенденцию объединяться вместе, что может привести к слипанию страниц ошибок друг с другом. это имеет смысл на данный момент?

Мартин Сплитт из Google объяснил это так: «Он имел в виду ситуации, когда на сайте есть около 20 продуктов, которые больше не доступны, и вместо страницы с ошибкой отображается сообщение «товар недоступен». Эта страница по-прежнему возвращает HTTP 200, но на самом деле ее содержимое такое же, как и раньше, поэтому контрольная сумма остается неизменной. Это может привести к странным ситуациям.

Похоже, что Google считает эти страницы ошибок идентичными, поскольку они имеют одинаковые контрольные суммы.

Как опытный веб-мастер, я бы сказал это так: контрольная сумма — это компактный фрагмент информации, сгенерированный из большого фрагмента цифровых данных. Его основная роль — помочь выявить любые ошибки, которые могли возникнуть во время передачи или хранения данных. Хотя контрольные суммы отлично подходят для обеспечения целостности данных, они не проверяют подлинность самих данных.

Для Аллана заявление Мартина послужило иллюстрацией. Он подтвердил: «Действительно, это точное отражение моей точки зрения. На самом деле, в таком случае веб-мастер может не сильно беспокоиться, потому что, если эти продукты будут удалены навсегда, они предпочитают, чтобы они исчезли, поэтому это не является серьезной проблемой. Однако если они временно отсутствуют, это вызывает беспокойство, поскольку они, скорее всего, не появятся снова, поскольку сканеры не любят дубликаты. По сути, они думают: «Эта страница является дубликатом». .’ Вот почему он функционирует как черная дыра.

Эта информация потенциально может быть поглощена черной дырой, а это значит, что она больше не будет доступна или не замечена поисковыми алгоритмами Google в течение некоторого времени, хотя возможно, что она может появиться снова позже.

Аллан отметил, что только те элементы, которые находятся ближе всего к началу группы, вероятно, появятся снова.

Аллан, кажется, обеспокоен этой проблемой, поскольку он упомянул, что сайты с временными ошибками, такие как тот, который вы описали, для него в некотором роде похожи на намеренно созданные временные ошибки. Он объяснил, что это означает, что один раз из тысячи ваша система сообщит им об ошибке. Это может привести к появлению огромного количества мертвых страниц или к тому, что он назвал «мародерствующей черной дырой». Что еще хуже, он также обслуживает множество зависимостей JavaScript, заключил он.

Вот еще разговоры Аллана и Мартина по этому поводу:

Аллан:

Если их не удастся загрузить, это может привести к поломке вашего рендеринга, и в этом случае мы посмотрим на вашу страницу и подумаем, что она сломана. Фактическая надежность вашей страницы после прохождения этих этапов не обязательно будет очень высокой. Нам приходится сильно беспокоиться о том, чтобы такие мародерствующие скопления черных дыр не захватили территорию, потому что все просто выбрасывается.
в них, например, были сайты социальных сетей, где я просматривал, ну, вы знаете, самые известные профили, и под ними была просто куча страниц, некоторые из них сами по себе были довольно известными и просто не принадлежали к этому кластеру. .

Мартин:

Ох, боже. Хорошо. Ага. Я видел нечто подобное, когда кто-то проводил A/B-тестирование новой версии своего веб-сайта, а затем некоторые ссылки ломались с сообщениями об ошибках, потому что API изменился, и вызовы больше не работали, или что-то в этом роде. И тогда, примерно в 10% случаев, вы получите сообщение об ошибке практически для всего их контента. Да, думаю, выбраться из этого было непросто.

Джон Мюллер рассказал о случаях, когда это может быть проблемой с CDN:

Я также видел кое-что похожее на это: если перед сайтом есть какая-то CDN, CDN выполняет какое-то обнаружение ботов или обнаружение DDoS, а затем выдает что-то вроде: » О, похоже, ты бот», а Googlebot отвечает: «Да, я бот». Но тогда все эти страницы, я думаю, в конечном итоге будут сгруппированы вместе и, вероятно, на нескольких сайтах, верно?

Аллан подтвердил это и сказал, что Гэри Иллис из Google работал над этим здесь и там:

В принципе да. На самом деле Гэри кое-что разъяснил нам по этому вопросу. Знаете, мы сталкиваемся с такими случаями и стараемся привлечь поставщиков подобных услуг к сотрудничеству с нами или хотя бы к работе с Гэри. Я не знаю, что он с ними делает. Он отвечает за это. Но не все из них столь отзывчивы. Так что об этом следует знать.

Аллан сообщил, что лучший способ предотвратить попадание вашего сайта в тупиковые зоны Google, часто называемые «черными дырами», — это отправка соответствующих кодов ответа HTTP. Это означает, что если страница не найдена или доступ запрещен, используйте 404 или 403 соответственно. Для временных проблем используйте 503. Помните, что только страницы с кодом состояния 200 будут кластеризованы и потенциально могут оказаться в черной дыре.

Другой вариант, который сказал Аллан, был:

Другой вариант: если вы используете JavaScript foo, в этом случае вы не сможете отправить нам HTTP-код. Возможно, для этого уже слишком поздно. Что вы можете там сделать, так это попытаться обработать фактическое сообщение об ошибке, что-то, что очень заметно является ошибкой, например, вы знаете, вы можете буквально просто сказать, вы знаете, 503 — мы столкнулись с ошибкой сервера или 403 — вы не были авторизован для просмотра или 404 — мы не смогли найти правильный файл. Любая из этих вещей сработает. Знаете, вам даже не нужно использовать HTTP-код. Очевидно, вы могли бы просто сказать что-нибудь. Итак, у нас есть система, которая должна обнаруживать страницы с ошибками, и мы хотим улучшить ее отзыв по сравнению с тем, что она делает сейчас, чтобы попытаться решить некоторые из этих плохих рендерингов и этих ошибок, связанных с типами страниц, обслуживаемых ботами. Но в то же время, как правило, безопаснее взять все в свои руки и постараться убедиться, что Google как можно лучше понимает ваши намерения.

Они продолжают и говорят об этом, и все начинается где-то на 16:22 минуте — вот вставленное видео:

Смотрите также

2024-12-06 16:45