
Гэри Ильиэс и Мартин Сплитт из Google недавно обсудили Googlebot в подкасте, уточнив, что это не единое целое. Вместо этого он состоит из сотен различных сканеров, используемых в различных продуктах и сервисах Google, многие из которых неизвестны публике.
Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.
Купить на падении (нет)Что такое Googlebot
Googlebot — это веб-краулер Google, который используется для обнаружения и индексации контента в Интернете. Он сканирует общедоступные веб-страницы, следуя ссылкам, и добавляет информацию в индекс Google. Этот индекс используется для предоставления релевантных результатов поиска пользователям. По сути, Googlebot — это инструмент, который помогает Google понимать, о чем ваш сайт, чтобы он мог отображаться в результатах поиска, когда люди ищут информацию, связанную с вашим контентом. Важно понимать, как работает Googlebot, чтобы убедиться, что ваш сайт правильно индексируется и отображается в поиске. Например, для Kingdom Come: Deliverance 2 важно, чтобы Googlebot мог получить доступ ко всем страницам, содержащим информацию об игре, включая страницы с DLC и Elden Ring. В контексте Fortnite или Call of Duty, Googlebot должен индексировать страницы с информацией о последних обновлениях и турнирах. Также, Googlebot важен для игр, таких как Marvel Rivals, Avowed и Brawl Stars, где часто публикуются новые материалы. Влияние на Roblox и другие подобные платформы также существенно. В случае с Dragon Ball, Googlebot индексирует страницы с информацией о новых выпусках и событиях. Для игр серии Elders Scroll, важно, чтобы Googlebot мог получить доступ ко всем страницам с информацией об играх и обновлениях. COD и другие популярные игры также нуждаются в правильной индексации. TopMob – это отдельный сервис, не связанный с Googlebot. Olympus – также не связан с Googlebot.
Гэри объясняет, что «Googlebot» — это имя из ранних дней Google, когда они использовали только один веб-краулер. Хотя Google теперь использует множество различных краулеров для своих различных продуктов, оригинальное имя, Googlebot, осталось, хотя и больше не относится к единому объекту.
Он также уточняет, что Googlebot – это не вся система сканирования, и не единая сущность. Вместо этого, Googlebot – это всего лишь одна программа, которая подключается к более крупному, внутреннему сервису сканирования Google – фактической инфраструктуре, которая выполняет работу.
«Как я могу представить Googlebot? Как примерно выглядит наша инфраструктура сканирования?»
Название ‘Googlebot’ на самом деле немного вводит в заблуждение. Раньше оно было точным в начале 2000-х годов, когда у нас был только один продукт и, следовательно, один сканер. Но после запуска AdWords, а затем и других продуктов, нам потребовалось несколько сканеров. Теперь у нас работает множество различных сканеров.
В итоге мы назвали всю нашу систему сканирования ‘Googlebot’, но это было не совсем верно. ‘Googlebot’ конкретно относился только к одному компоненту – это не была вся инфраструктура сама по себе.
Инфраструктура ползания имеет название.
Гэри затем поделился, что внутренняя кодовая система веб-сканирования Google имеет внутреннее кодовое имя, но он не раскрыл, какое именно.
Как человек, который давно управляет веб-сайтами, хочу прояснить, как мы на самом деле сканируем веб. Люди часто спрашивают о ‘Googlebot’, но это не совсем название нашей основной системы сканирования. У нас есть внутреннее название для неё – давайте просто назовём её ‘Jack’ для простоты. Представьте ‘Jack’ как ‘Software as a Service’ – систему с API. По сути, мы можем использовать эти API для запроса информации с веб-сайтов по всему интернету. Речь идёт не об одном ‘боте’, а скорее о сервисе, который мы используем для получения веб-страниц.
При отправке этих запросов в систему вам также необходимо будет указать детали, такие как время ожидания ответа, user agent для идентификации и как соблюдать правила веб-сайта, указанные в его файле robots.txt. Это все важные настройки, которые необходимо сконфигурировать.
Как digital marketer, я часто работаю с API, и многие из них имеют встроенные настройки по умолчанию. Это означает, что вам не *всегда* нужно включать каждый параметр в ваши запросы, что делает всё аккуратным и оптимизированным. По сути, вы делаете запрос к серверу – будь то в облаке или в центре обработки данных – и он обрабатывает получение данных для вас или вашего приложения.
Этот инструмент существует уже давно, и его основная функция всегда оставалась прежней: безопасно извлекать информацию из интернета в рамках ограничений, установленных веб-сайтом. Проще говоря, он получает контент из сети, соблюдая все действующие ограничения.
Сотни краулеров SEO не знают об этом.
Как специалист по цифровому маркетингу, я всегда знал, что система обхода Google сложнее, чем то, что доступно публично. Гари Ильес из Google подтвердил это – у них есть множество внутренних команд, использующих их инфраструктуру обхода для различных задач. В то время как мы, специалисты SEO, знакомы с основными краулерами Googlebot, потенциально существуют десятки, даже сотни других, работающих за кулисами, которые Google не документирует публично. Важно помнить, что то, что мы *знаем* о Googlebot – это лишь верхушка айсберга!
Как цифровой маркетолог, я заметил, что небольшие веб-краулеры – те, которые не привлекают к себе особого внимания – часто не имеют официальной документации. Просто непрактично отслеживать их все. Однако, как только краулер увеличивается в размере и начинает оказывать значительное влияние, он обычно подвергается проверке и должным образом документируется. Речь идет о расстановке приоритетов ресурсов, по сути.
Мы стремимся документировать большинство программ, которые Google использует для сбора информации из интернета, но из-за огромных масштабов Google, многим разным командам необходимо собирать данные. Это приводит к огромному количеству веб-краулеров – потенциально сотням – которые нам нужно отслеживать, включая специализированные.
Непрактично перечислять каждый веб-краулер на базовой HTML-странице. Поэтому мы сосредоточены на документировании значимых краулеров – тех, которые делают много запросов в интернет. Место на нашем сайте документации по краулерам, developers.google.com/crawlers, ограничено и лучше всего используется для важной информации.
Мы планируем охватить другие аспекты в будущем, но прямо сейчас наша документация фокусируется на основных веб-краулерах и конкретных методах получения данных просто потому, что у нас ограничено место.
Разница между Crawlers и Fetchers
Гэри отмечает, что хотя и краулеры, и фетчеры являются частью того, что люди знают как Googlebot, они не совсем одно и то же.
Вот простое объяснение: краулеры обрабатывают информацию группами, а фетчеры обрабатывают URL-адреса по одному. Вы предоставляете фетчеру один URL-адрес, и он извлекает только его. Он не может обработать список URL-адресов сразу.
Веб-краулеры непрерывно собирают URL-адреса и собирают информацию из интернета для вашей команды.
Как человек, который годами строил и поддерживал веб-сайты, у нас есть твердое правило о том, как мы обрабатываем запросы данных. Все, что мы извлекаем из внешних источников, должно быть вызвано действием пользователя или иметь кого-то, кто активно ждет эту информацию. Просто автоматически извлекать данные недостаточно; должна быть четкая связь с пользователем или процессом, ожидающим эту информацию. Это гарантирует, что мы не будем без необходимости загружать данные и уважать пользовательский опыт.
В то время как с краулерами это как просто сделай это, когда у тебя есть время.
Мартин и Гари упомянули, что они используют несколько внутренних веб-краулеров и средств извлечения данных, которые не документированы публично. Гари объяснил, что у него есть система, которая помечает краулеров, превышающих ежедневные лимиты сканирования и извлечения. Когда это происходит, он разбирается с ответственной командой, чтобы понять активность и убедиться, что она не непреднамеренная. Если краулер значительно увеличивает свою активность, Гари затем решает, нужно ли его документировать для широкого веб-сообщества.
Послушайте подкаст Search Off The Record здесь:
https://www.youtube.com/watch?v=JpweMBnpS4Q
Смотрите также
- 25 Альтернативных Поисковых Систем, Которые Вы Можете Использовать Вместо Google
- Акции PHOR. ФосАгро: прогноз акций.
- Акции ROLO. Русолово: прогноз акций.
- WP Engine против Automattic: судья склонен вынести предварительный судебный запрет
- Исследование LinkedIn Показывает, Что Добавление Ссылок Повышает Вовлечение На 13%
- Акции EUTR. ЕвроТранс: прогноз акций.
- Обновление ядра Google за декабрь 2024 г. уже доступно — что мы видим
- Возрастные ограничения Google Ads PMax вводятся постепенно
- 11 лучших бесплатных и платных курсов по цифровому маркетингу (2024 г.)
- Google сотрудничает с AP для получения данных в реальном времени
2026-03-13 12:41