Google делится дополнительной информацией об ограничениях сканирования Googlebot.

Как человек, который годами занимается управлением веб-сайтами, я всегда обращаю внимание, когда Гэри Ильес и Мартин Сплитт из Google обсуждают профессиональные вопросы. Недавно они углубились в то, как Googlebot, их веб-краулер, обрабатывает обход сайта. Они объяснили *почему* существуют ограничения на то, какую часть сайта будет обходить Googlebot, и – это действительно интересная часть – они поделились тем, что эти ограничения не являются фиксированными. Google может фактически увеличивать или уменьшать скорость обхода в зависимости от потребностей сайта и того, чего он пытается достичь. Хорошо знать, что они гибки в этом вопросе, и это дает нам больше понимания того, как оптимизировать наши сайты для обхода.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Детали об ограничениях Googlebot

Гэри Ильес объяснил, как Google управляет процессом обхода веб-страниц, начиная с того факта, что Googlebot ограничен загрузкой страниц размером до 15 мегабайт.

По его словам, веб-краулеры Google обычно ограничены 15 мегабайтами данных. Однако он уточнил, что этот лимит не фиксирован и может быть скорректирован. Он объяснил, что разные команды Google часто меняют эту настройку, приводя в пример Google Search – он фактически использует более низкий лимит, всего два мегабайта.

Как SEO-эксперт, я часто сталкиваюсь с техническими ограничениями, которые влияют на то, что мы можем сделать. Классический пример – это ограничение по умолчанию в 15 мегабайт – это мера безопасности, встроенная в систему для защиты как пользователей, так и самой инфраструктуры. Это распространенное препятствие, но понимание того, почему оно существует, является ключом к обходу его.

Большинство веб-краулеров будут ограничивать объем загружаемых данных с сервера до 15 мегабайт, если они не изменят эту настройку по умолчанию. Они начинают получать данные, и внутренний счетчик отслеживает, сколько они получили. Как только этот счетчик достигает 15 мегабайт, краулер перестает загружать какие-либо дополнительные данные.

Я не уверен, заканчивает ли это фактически соединение. Похоже, что он просто говорит серверу: «Окей, я закончил, вы можете прекратить отправку данных сейчас».

Однако отдельные команды имеют возможность изменить это ограничение по умолчанию, и они часто это делают. Например, ограничение для Google Search специально установлено выше, на два мегабайта.

Ограничения для Googlebot предназначены для защиты инфраструктуры.

Затем Ильес объяснил, как Google иногда делает исключения из своего лимита в 15 МБ, особенно для файлов, таких как PDF, чтобы разрешить более тщательное сканирование. Он уточнил, что эти лимиты введены для предотвращения перегрузки систем Google чрезмерным объемом данных.

Он обрабатывает большинство типов файлов. Для PDF-файлов конкретно лимит составляет около 64 мегабайт, но если вы экспортируете PDF, он может быть до 96 мегабайт.

Попытка получить все эти данные сразу и преобразовать их в веб-страницу была бы слишком большой нагрузкой для наших систем. Это просто подавляющее количество информации.

Тот же принцип применим и к HTML. Мы не загружаем весь стандарт HTML сразу – один файл может быть довольно большим, около 14 мегабайт. Вместо этого мы получаем отдельные страницы, которые охватывают конкретные функции HTML. К счастью, стандарт организован таким образом, что позволяет нам эффективно получать информацию, а не пытаться разобраться в одном огромном документе размером 14 мегабайт.

Другие Google Crawlers имеют различные лимиты.

Illyes объяснил, что Google использует несколько сканеров, и у каждого из них разные лимиты сканирования. Лимиты, которые публикует Google, — это не строгие правила, применимые к каждому используемому им сканеру.

Я не работал над другими веб-краулерами, но уверен, что у всех они имеют разные конфигурации. Даже в рамках одного проекта настройки могут отличаться для одних и тех же функций.

Если нам нужно очень быстро индексировать информацию, мы можем ограничить размер каждого элемента примерно до одного мегабайта. Я не уверен, так ли это сейчас, но это имеет смысл – меньшие объемы данных легче и быстрее обрабатываются через систему индексирования.

Инфраструктура обхода Google не является монолитной.

В конце недавнего эпизода Search Off The Record Мартин Сплитт объяснил, что система Google для изучения веб-страниц гораздо более адаптируема и разнообразна, чем то, что Google публично документирует. Он уточнил, что это не единая, неизменная система – то, что часто называют ‘монолитной’. Термин ‘монолитный’ подразумевает что-то жесткое и последовательное, поэтому, заявив, что краулеры Google не являются монолитными, Сплитт подчеркнул их способность корректировать такие вещи, как частота запроса информации с веб-сайтов и другие настройки.

Он также сосредоточился на описании поисковой инфраструктуры Google как программного обеспечения как услуги.

Вы правы. Важно понимать, что сканирование – это не единый процесс. Это скорее сервис, похожий на работу поисковых систем в интернете – поисковые системы являются лишь одним из многих пользователей этого сервиса, а не единой, унифицированной системой.

Как вы отметили, эти настройки могут варьироваться. Даже внутри Googlebot они могут меняться в зависимости от того, что ищут. Например, мы, вероятно, разрешаем изображения быть больше 2 мегабайт, просто потому, что большинство изображений такого размера или больше. Мы разрешаем до 64 мегабайт для PDF. Мы предоставим ссылки на официальную документацию для конкретики, но всё это кажется логичным.

Если рассматривать это как сервис, который мы используем с определенными настройками, становится яснее, что эти настройки могут варьироваться для каждого запроса, а не быть фиксированными для чего-то вроде Googlebot.

Послушайте эпизод Search Off The Record с 20-й минуты:

https://www.youtube.com/watch?v=JpweMBnpS4Q

Смотрите также

2026-03-16 13:16