
Гэри Иллис из Google недавно написал в блоге статью, подробно описывающую, как Googlebot сканирует веб. Он объясняет такие вещи, как объем данных, которые Googlebot запрашивает за один раз, как он обрабатывает неполную загрузку страниц и общую структуру системы сканирования Google.
Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.
Купить на падении (нет)Этот пост продолжает разговор, который Ильес и Мартин Сплитт вели в подкасте Search Off the Record (эпизод 105), при этом Ильес теперь предоставляет дальнейшие объяснения о том, как Google сканирует веб-сайты и как обрабатывает данные на детальном, техническом уровне.
Что нового
Googlebot является одним из клиентов общей платформы.
По словам Ильёса, Googlebot по сути является пользователем, взаимодействующим с центральной системой обхода веб-страниц.
Google Shopping, AdSense и аналогичные сервисы используют общую систему для доступа к веб-сайтам, но делают это под разными именами. Каждый сервис может настраивать способ доступа к сайтам, включая идентификационную информацию и ограничения на объем запрашиваемых данных.
Если вы видите ‘Googlebot’ в логах вашего сервера, это означает, что Google Поиск посещает ваш сайт. Другие поисковые роботы будут отображаться под разными именами, и Google поддерживает список этих роботов на своем веб-сайте.
Как работает ограничение в 2 МБ на практике
Когда Googlebot исследует веб-страницу, он может загрузить до 2 МБ данных, за исключением PDF-файлов, для которых установлен более высокий предел в 64 МБ. Если веб-краулер не указывает, какой объем данных он может обработать, используется предел по умолчанию в 15 МБ.
Illyes добавляет несколько деталей о том, что происходит на уровне байтов.
По его словам, лимит в 2 МБ включает размер HTTP-заголовков запроса. Если веб-страница превышает 2 МБ, Googlebot её не блокирует. Вместо этого он прекращает загрузку контента на отметке в 2 МБ и отправляет только ту часть, которую *получил*, в системы Google для индексации и в Web Rendering Service.
Эти системы обрабатывают неполные файлы так, как если бы они были полностью целыми. Они не получают доступ, не отображают и не включают никакие данные за пределы лимита в 2 МБ.
Отображение после получения
WRS анализирует веб-страницы, выполняя их JavaScript-код, что помогает ему понять, о чём страница и как она организована. Он загружает такие вещи, как JavaScript-файлы, CSS-стили и запросы данных, но не загружает изображения или видео.
Illyes отмечает, что Web Rendering Service не хранит никакой информации локально, что означает, что он очищает данные хранилища и сеансов с каждым новым запросом. Документация Google по устранению неполадок JavaScript объясняет, как это влияет на веб-сайты, которые полагаются на JavaScript.
Лучшие практики для соблюдения лимита
Google предлагает помещать большие CSS и JavaScript файлы в отдельные файлы, поскольку у них есть свои ограничения по размеру. Важные элементы, такие как мета-теги, заголовки страниц, ссылки и структурированные данные, должны располагаться в верхней части вашего HTML-кода. На более длинных страницах контент, расположенный ниже, может загружаться не полностью.
Гэри Ильес отмечает, что такие вещи, как встроенные изображения (использующие base64), большие объемы CSS или JavaScript кода непосредственно внутри страницы, и чрезмерно сложные меню могут способствовать превышению лимита размера страницы в 2 МБ.
Ограничение в 2 МБ не является фиксированным и может быть скорректировано в будущем, поскольку веб-сайты и веб-страницы становятся больше.
Почему это важно
Google впервые упомянул эти ограничения по размеру – 2 МБ для страниц и 64 МБ для PDF-файлов – в феврале, уточнив, что они применяются к тому, как Googlebot сканирует веб. Данные показывают, что большинство веб-страниц уже намного меньше этих лимитов. В этой статье объясняются технические причины, лежащие в основе этих цифр.
Документация разъясняет, почему вы видите различных веб-сканеров Google в ваших серверных журналах, и почему стандартный лимит размера в 15 МБ отличается от лимита в 2 МБ, используемого Googlebot. Это отдельные настройки, применяемые к различным веб-сканерам.
Для страниц, которые уже близки к пределу размера, детали в HTTP-заголовках важны. Google заявляет, что заголовки учитываются в пределах 2 МБ, как и сам HTML-код. Хотя большинство веб-сайтов не столкнутся с проблемой, страницы с чрезмерно большими заголовками или неаккуратным кодом могут быстрее достичь предела.
Заглядывая в будущее
Как SEO-эксперт, я внимательно следил за недавними сообщениями Google об ограничениях сканирования. За последние два месяца они действительно уделили этому особое внимание – выпустили документацию, подкаст и даже специальный пост в блоге, посвященные тому, как Googlebot сканирует веб-сайты. Важно отметить, как указали John Mueller и Martin Splitt, что эти ограничения не являются застывшими. Google может корректировать их в будущем, поэтому крайне важно быть в курсе и не воспринимать эти цифры как постоянные правила.
Как SEO-эксперт, я часто говорю клиентам, что лимит в 2 МБ для веб-страниц обычно не является проблемой для стандартных HTML-сайтов. Однако, если ваши страницы заполнены такими вещами, как множество изображений, видео или сложный код *внутри* самой страницы – или если у вас действительно большое меню – крайне важно убедиться, что наиболее важный контент загружается в пределах первых 2 МБ. Это гарантирует, что поисковые системы смогут быстро найти и проиндексировать вашу ключевую информацию.
Смотрите также
- Часть 1. Как шаг за шагом запустить, управлять и развивать партнерскую программу
- Google запускает генерацию видео в Product Studio
- Акции привилегированные SBERP. Сбербанк: прогноз акций привилегированных.
- Акции ELMT. Элемент: прогноз акций.
- Часть 2. Как шаг за шагом запустить, управлять и развивать партнерскую программу
- Акции TGKN. ТГК-14: прогноз акций.
- Акции SGZH. Сегежа: прогноз акций.
- Контролируя Вашу Розничную Позицию Онлайн С помощью SEO
- Акции VTBR. Банк ВТБ: прогноз акций.
- Почему поиск в Google не работает? Видео получает миллионы просмотров
2026-03-31 18:40