Google объясняет лимиты байтов Googlebot и архитектуру сканирования.

Гэри Иллис из Google недавно написал в блоге статью, подробно описывающую, как Googlebot сканирует веб. Он объясняет такие вещи, как объем данных, которые Googlebot запрашивает за один раз, как он обрабатывает неполную загрузку страниц и общую структуру системы сканирования Google.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Этот пост продолжает разговор, который Ильес и Мартин Сплитт вели в подкасте Search Off the Record (эпизод 105), при этом Ильес теперь предоставляет дальнейшие объяснения о том, как Google сканирует веб-сайты и как обрабатывает данные на детальном, техническом уровне.

Что нового

Googlebot является одним из клиентов общей платформы.

По словам Ильёса, Googlebot по сути является пользователем, взаимодействующим с центральной системой обхода веб-страниц.

Google Shopping, AdSense и аналогичные сервисы используют общую систему для доступа к веб-сайтам, но делают это под разными именами. Каждый сервис может настраивать способ доступа к сайтам, включая идентификационную информацию и ограничения на объем запрашиваемых данных.

Если вы видите ‘Googlebot’ в логах вашего сервера, это означает, что Google Поиск посещает ваш сайт. Другие поисковые роботы будут отображаться под разными именами, и Google поддерживает список этих роботов на своем веб-сайте.

Как работает ограничение в 2 МБ на практике

Когда Googlebot исследует веб-страницу, он может загрузить до 2 МБ данных, за исключением PDF-файлов, для которых установлен более высокий предел в 64 МБ. Если веб-краулер не указывает, какой объем данных он может обработать, используется предел по умолчанию в 15 МБ.

Illyes добавляет несколько деталей о том, что происходит на уровне байтов.

По его словам, лимит в 2 МБ включает размер HTTP-заголовков запроса. Если веб-страница превышает 2 МБ, Googlebot её не блокирует. Вместо этого он прекращает загрузку контента на отметке в 2 МБ и отправляет только ту часть, которую *получил*, в системы Google для индексации и в Web Rendering Service.

Эти системы обрабатывают неполные файлы так, как если бы они были полностью целыми. Они не получают доступ, не отображают и не включают никакие данные за пределы лимита в 2 МБ.

Отображение после получения

WRS анализирует веб-страницы, выполняя их JavaScript-код, что помогает ему понять, о чём страница и как она организована. Он загружает такие вещи, как JavaScript-файлы, CSS-стили и запросы данных, но не загружает изображения или видео.

Illyes отмечает, что Web Rendering Service не хранит никакой информации локально, что означает, что он очищает данные хранилища и сеансов с каждым новым запросом. Документация Google по устранению неполадок JavaScript объясняет, как это влияет на веб-сайты, которые полагаются на JavaScript.

Лучшие практики для соблюдения лимита

Google предлагает помещать большие CSS и JavaScript файлы в отдельные файлы, поскольку у них есть свои ограничения по размеру. Важные элементы, такие как мета-теги, заголовки страниц, ссылки и структурированные данные, должны располагаться в верхней части вашего HTML-кода. На более длинных страницах контент, расположенный ниже, может загружаться не полностью.

Гэри Ильес отмечает, что такие вещи, как встроенные изображения (использующие base64), большие объемы CSS или JavaScript кода непосредственно внутри страницы, и чрезмерно сложные меню могут способствовать превышению лимита размера страницы в 2 МБ.

Ограничение в 2 МБ не является фиксированным и может быть скорректировано в будущем, поскольку веб-сайты и веб-страницы становятся больше.

Почему это важно

Google впервые упомянул эти ограничения по размеру – 2 МБ для страниц и 64 МБ для PDF-файлов – в феврале, уточнив, что они применяются к тому, как Googlebot сканирует веб. Данные показывают, что большинство веб-страниц уже намного меньше этих лимитов. В этой статье объясняются технические причины, лежащие в основе этих цифр.

Документация разъясняет, почему вы видите различных веб-сканеров Google в ваших серверных журналах, и почему стандартный лимит размера в 15 МБ отличается от лимита в 2 МБ, используемого Googlebot. Это отдельные настройки, применяемые к различным веб-сканерам.

Для страниц, которые уже близки к пределу размера, детали в HTTP-заголовках важны. Google заявляет, что заголовки учитываются в пределах 2 МБ, как и сам HTML-код. Хотя большинство веб-сайтов не столкнутся с проблемой, страницы с чрезмерно большими заголовками или неаккуратным кодом могут быстрее достичь предела.

Заглядывая в будущее

Как SEO-эксперт, я внимательно следил за недавними сообщениями Google об ограничениях сканирования. За последние два месяца они действительно уделили этому особое внимание – выпустили документацию, подкаст и даже специальный пост в блоге, посвященные тому, как Googlebot сканирует веб-сайты. Важно отметить, как указали John Mueller и Martin Splitt, что эти ограничения не являются застывшими. Google может корректировать их в будущем, поэтому крайне важно быть в курсе и не воспринимать эти цифры как постоянные правила.

Как SEO-эксперт, я часто говорю клиентам, что лимит в 2 МБ для веб-страниц обычно не является проблемой для стандартных HTML-сайтов. Однако, если ваши страницы заполнены такими вещами, как множество изображений, видео или сложный код *внутри* самой страницы – или если у вас действительно большое меню – крайне важно убедиться, что наиболее важный контент загружается в пределах первых 2 МБ. Это гарантирует, что поисковые системы смогут быстро найти и проиндексировать вашу ключевую информацию.

Смотрите также

2026-03-31 18:40