
В недавнем подкасте Гэри Ильи и Мартин Сплитт из Google обсудили распространенные проблемы, с которыми они сталкиваются при сканировании веб-сайтов. Они выделили такие проблемы, как сложные варианты фильтрации (граненая навигация), ненужные веб-адреса с дополнительными деталями (action и нерелевантные параметры) и проблемы с фильтрами на основе дат (параметры календаря) – по сути, все, что затрудняет Google эффективное исследование и индексацию веб-сайтов.
Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.
Купить на падении (нет)Вот внедрение подкаста:
https://www.youtube.com/watch?v=UC67EY4U744
Проблемы с тем, как поисковые боты исследуют веб-сайт, могут замедлить его работу. Если бот застревает в цикле, он может перегрузить сервер запросами. Как объяснил Гари Ильес, поисковым системам необходимо просканировать значительную часть веб-сайта, прежде чем они смогут определить, ценен он или нет.
Вот как Гэри Ильес представил сложности в процентах:
- Faceted Navigation was 50%: Это происходит на веб-сайтах (часто электронной коммерции), которые позволяют пользователям фильтровать и сортировать элементы по различным измерениям, таким как цена, категория или производитель. Эти комбинации создают огромное количество уникальных URL-шаблонов. Googlebot может попытаться просканировать их все, чтобы определить их ценность, что потенциально может привести к сбою сервера или сделать сайт бесполезным для пользователей из-за высокой нагрузки.
- Action Paramters was 25%: Это URL-параметры, которые запускают определенное действие, а не существенно меняют содержимое страницы. Распространенные примеры включают параметры, такие как ?add_to_cart=true или ?add_to_wishlist=true. Добавление этих параметров удваивает или утраивает URL-пространство (например, URL страницы продукта по сравнению с тем же URL с параметром ‘add to cart’), заставляя краулер тратить ресурсы на идентичный контент. Они часто внедряются плагинами CMS, такими как те, что для WordPress.
- Irrelevant Parameters was 10%: Как UTM-параметры отслеживания или параметры, которые Googlebot обычно игнорирует или считает не относящимися к состоянию контента, такие как идентификаторы сеансов и UTM-параметры. Googlebot испытывает трудности с определением того, меняют ли эти случайные строки содержимое страницы. Он может агрессивно сканировать, чтобы проверить, являются ли параметры значимыми, особенно если используются стандартные соглашения об именах.
- WordPress Plugins or Widgets was 5%: Где, возможно, эти виджеты добавляют своего рода отслеживание событий или другие вещи. Это было большой проблемой для Google из-за открытого исходного кода.
- Other ‘Weird Stuff’ was 2%: Эта обобщающая категория включает редкие технические ошибки, такие как случайное двойное кодирование URL-адресов (например, процентное кодирование URL-адреса, который уже был закодирован). Краулер декодирует URL-адрес один раз, но остается со все еще закодированной строкой, что часто приводит к ошибкам или сломанным страницам, которые краулер пытается обработать в любом случае.
Это был интересный подкаст — вот расшифровка, если она вам нужна.
Источник изображения: Lizzi Sassman
Смотрите также
- Акции ROLO. Русолово: прогноз акций.
- Акции BSPB. Банк Санкт-Петербург: прогноз акций.
- Чек-лист WordPress SEO: Подготовьтесь к (запуску) сайта
- Акции взлетают на фоне крипто-соглашения: История дикого рынка предсказаний.
- 70% биткоина, 30% шока: формула кошелька миллиардера разоблачает финансовый парк юрского периода
- 4,10 миллиарда токенов SHIB уничтожено: Великая сага о сжигании криптовалюты!
- Какой самый низкий курс юаня к йене?
- Анализ динамики цен на криптовалюту NEXO: прогнозы NEXO
- Агентный ИИ в SEO: ИИ-агенты и будущее контент-стратегии (Часть 3)
- 5 ключевых тенденций корпоративного SEO и искусственного интеллекта на 2025 год
2026-02-03 17:16