
В недавнем подкасте Гэри Ильи и Мартин Сплитт из Google обсудили распространенные проблемы, с которыми они сталкиваются при сканировании веб-сайтов. Они выделили такие проблемы, как сложные варианты фильтрации (граненая навигация), ненужные веб-адреса с дополнительными деталями (action и нерелевантные параметры) и проблемы с фильтрами на основе дат (параметры календаря) – по сути, все, что затрудняет Google эффективное исследование и индексацию веб-сайтов.
Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.
Купить на падении (нет)Вот внедрение подкаста:
https://www.youtube.com/watch?v=UC67EY4U744
Проблемы с тем, как поисковые боты исследуют веб-сайт, могут замедлить его работу. Если бот застревает в цикле, он может перегрузить сервер запросами. Как объяснил Гари Ильес, поисковым системам необходимо просканировать значительную часть веб-сайта, прежде чем они смогут определить, ценен он или нет.
Вот как Гэри Ильес представил сложности в процентах:
- Faceted Navigation was 50%: Это происходит на веб-сайтах (часто электронной коммерции), которые позволяют пользователям фильтровать и сортировать элементы по различным измерениям, таким как цена, категория или производитель. Эти комбинации создают огромное количество уникальных URL-шаблонов. Googlebot может попытаться просканировать их все, чтобы определить их ценность, что потенциально может привести к сбою сервера или сделать сайт бесполезным для пользователей из-за высокой нагрузки.
- Action Paramters was 25%: Это URL-параметры, которые запускают определенное действие, а не существенно меняют содержимое страницы. Распространенные примеры включают параметры, такие как ?add_to_cart=true или ?add_to_wishlist=true. Добавление этих параметров удваивает или утраивает URL-пространство (например, URL страницы продукта по сравнению с тем же URL с параметром ‘add to cart’), заставляя краулер тратить ресурсы на идентичный контент. Они часто внедряются плагинами CMS, такими как те, что для WordPress.
- Irrelevant Parameters was 10%: Как UTM-параметры отслеживания или параметры, которые Googlebot обычно игнорирует или считает не относящимися к состоянию контента, такие как идентификаторы сеансов и UTM-параметры. Googlebot испытывает трудности с определением того, меняют ли эти случайные строки содержимое страницы. Он может агрессивно сканировать, чтобы проверить, являются ли параметры значимыми, особенно если используются стандартные соглашения об именах.
- WordPress Plugins or Widgets was 5%: Где, возможно, эти виджеты добавляют своего рода отслеживание событий или другие вещи. Это было большой проблемой для Google из-за открытого исходного кода.
- Other ‘Weird Stuff’ was 2%: Эта обобщающая категория включает редкие технические ошибки, такие как случайное двойное кодирование URL-адресов (например, процентное кодирование URL-адреса, который уже был закодирован). Краулер декодирует URL-адрес один раз, но остается со все еще закодированной строкой, что часто приводит к ошибкам или сломанным страницам, которые краулер пытается обработать в любом случае.
Это был интересный подкаст — вот расшифровка, если она вам нужна.
Источник изображения: Lizzi Sassman
Смотрите также
- Google: заманчиво оптимизировать показатели инструментов; Нет ярлыков для SEO
- e-pick: Ваши заветные карты ждут! 🎉
- TIA/USD
- Bing Поддерживает data-nosnippet для поисковых сниппетов и ответов ИИ.
- ДжейПи Морган против Близнецы: Сказка о гигантах банковского дела и двойных нарушителях спокойствия 💸
- 11 лучших книг по SEO, которые вам стоит прочитать
- Резкое падение Bitcoin: утонет ли он в супе за $60k? 🍲💰
- Волатильность поиска Google все еще высока после завершения августовского развертывания основного обновления
- Google заявляет, что временные аномалии влияют на сканирование Googlebot
- WordPress объявляет об AI Agent Skill для ускорения разработки
2026-02-03 17:16