Главные задачи обхода Google в 2025 году.

В недавнем подкасте Гэри Ильи и Мартин Сплитт из Google обсудили распространенные проблемы, с которыми они сталкиваются при сканировании веб-сайтов. Они выделили такие проблемы, как сложные варианты фильтрации (граненая навигация), ненужные веб-адреса с дополнительными деталями (action и нерелевантные параметры) и проблемы с фильтрами на основе дат (параметры календаря) – по сути, все, что затрудняет Google эффективное исследование и индексацию веб-сайтов.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Вот внедрение подкаста:

https://www.youtube.com/watch?v=UC67EY4U744

Проблемы с тем, как поисковые боты исследуют веб-сайт, могут замедлить его работу. Если бот застревает в цикле, он может перегрузить сервер запросами. Как объяснил Гари Ильес, поисковым системам необходимо просканировать значительную часть веб-сайта, прежде чем они смогут определить, ценен он или нет.

Вот как Гэри Ильес представил сложности в процентах:

Faceted Navigation was 50%: Это происходит на веб-сайтах (часто электронной коммерции), которые позволяют пользователям фильтровать и сортировать элементы по различным измерениям, таким как цена, категория или производитель. Эти комбинации создают огромное количество уникальных URL-шаблонов. Googlebot может попытаться просканировать их все, чтобы определить их ценность, что потенциально может привести к сбою сервера или сделать сайт бесполезным для пользователей из-за высокой нагрузки.
Action Paramters was 25%: Это URL-параметры, которые запускают определенное действие, а не существенно меняют содержимое страницы. Распространенные примеры включают параметры, такие как ?add_to_cart=true или ?add_to_wishlist=true. Добавление этих параметров удваивает или утраивает URL-пространство (например, URL страницы продукта по сравнению с тем же URL с параметром ‘add to cart’), заставляя краулер тратить ресурсы на идентичный контент. Они часто внедряются плагинами CMS, такими как те, что для WordPress.
Irrelevant Parameters was 10%: Как UTM-параметры отслеживания или параметры, которые Googlebot обычно игнорирует или считает не относящимися к состоянию контента, такие как идентификаторы сеансов и UTM-параметры. Googlebot испытывает трудности с определением того, меняют ли эти случайные строки содержимое страницы. Он может агрессивно сканировать, чтобы проверить, являются ли параметры значимыми, особенно если используются стандартные соглашения об именах.
WordPress Plugins or Widgets was 5%: Где, возможно, эти виджеты добавляют своего рода отслеживание событий или другие вещи. Это было большой проблемой для Google из-за открытого исходного кода.
Other ‘Weird Stuff’ was 2%: Эта обобщающая категория включает редкие технические ошибки, такие как случайное двойное кодирование URL-адресов (например, процентное кодирование URL-адреса, который уже был закодирован). Краулер декодирует URL-адрес один раз, но остается со все еще закодированной строкой, что часто приводит к ошибкам или сломанным страницам, которые краулер пытается обработать в любом случае.

Это был интересный подкаст — вот расшифровка, если она вам нужна.

Источник изображения: Lizzi Sassman

Смотрите также

2026-02-03 17:16