Главные задачи обхода Google в 2025 году.

В недавнем подкасте Гэри Ильи и Мартин Сплитт из Google обсудили распространенные проблемы, с которыми они сталкиваются при сканировании веб-сайтов. Они выделили такие проблемы, как сложные варианты фильтрации (граненая навигация), ненужные веб-адреса с дополнительными деталями (action и нерелевантные параметры) и проблемы с фильтрами на основе дат (параметры календаря) – по сути, все, что затрудняет Google эффективное исследование и индексацию веб-сайтов.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Вот внедрение подкаста:

https://www.youtube.com/watch?v=UC67EY4U744

Проблемы с тем, как поисковые боты исследуют веб-сайт, могут замедлить его работу. Если бот застревает в цикле, он может перегрузить сервер запросами. Как объяснил Гари Ильес, поисковым системам необходимо просканировать значительную часть веб-сайта, прежде чем они смогут определить, ценен он или нет.

Вот как Гэри Ильес представил сложности в процентах:

  • Faceted Navigation was 50%: Это происходит на веб-сайтах (часто электронной коммерции), которые позволяют пользователям фильтровать и сортировать элементы по различным измерениям, таким как цена, категория или производитель. Эти комбинации создают огромное количество уникальных URL-шаблонов. Googlebot может попытаться просканировать их все, чтобы определить их ценность, что потенциально может привести к сбою сервера или сделать сайт бесполезным для пользователей из-за высокой нагрузки.
  • Action Paramters was 25%: Это URL-параметры, которые запускают определенное действие, а не существенно меняют содержимое страницы. Распространенные примеры включают параметры, такие как ?add_to_cart=true или ?add_to_wishlist=true. Добавление этих параметров удваивает или утраивает URL-пространство (например, URL страницы продукта по сравнению с тем же URL с параметром ‘add to cart’), заставляя краулер тратить ресурсы на идентичный контент. Они часто внедряются плагинами CMS, такими как те, что для WordPress.
  • Irrelevant Parameters was 10%: Как UTM-параметры отслеживания или параметры, которые Googlebot обычно игнорирует или считает не относящимися к состоянию контента, такие как идентификаторы сеансов и UTM-параметры. Googlebot испытывает трудности с определением того, меняют ли эти случайные строки содержимое страницы. Он может агрессивно сканировать, чтобы проверить, являются ли параметры значимыми, особенно если используются стандартные соглашения об именах.
  • WordPress Plugins or Widgets was 5%: Где, возможно, эти виджеты добавляют своего рода отслеживание событий или другие вещи. Это было большой проблемой для Google из-за открытого исходного кода.
  • Other ‘Weird Stuff’ was 2%: Эта обобщающая категория включает редкие технические ошибки, такие как случайное двойное кодирование URL-адресов (например, процентное кодирование URL-адреса, который уже был закодирован). Краулер декодирует URL-адрес один раз, но остается со все еще закодированной строкой, что часто приводит к ошибкам или сломанным страницам, которые краулер пытается обработать в любом случае.

Это был интересный подкаст — вот расшифровка, если она вам нужна.

Источник изображения: Lizzi Sassman

Смотрите также

2026-02-03 17:16