Гари Иллес из Google предупреждает о создании веб-заторов агентами ИИ.

Инженер из Google предупредил, что системы ИИ и автоматические программы вскоре могут генерировать огромное количество онлайн-активности, потенциально перегружая интернет.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

В недавнем подкасте Гэри Иллес из команды поисковых отношений Google шутливо заявил, что даже моя бабушка могла бы запустить краулер.

Предупреждение исходит из последней серии подкаста Google под названием ‘Search Off the Record’.

Агенты ИИ будут нагружать сайты

Иллюс сказал:

Интернет становится всё более загруженным… Важно отметить, что это не выходит за рамки его возможностей… Фактически интернет создан для управления такими высокими объёмами трафика даже без участия человека.

Этот всплеск происходит когда компании начинают использовать искусственный интеллект для таких задач как создание контента, исследование конкурентов, анализ рынков и сбор данных. Каждому инструменту необходимо сканировать веб-сайты для эффективной работы, поэтому ожидается что рост веб-трафика значительно увеличится по мере того как всё больше компаний принимают AI.

Как работает система индексации Google

В подкасте проводится подробное обсуждение структуры, которую использует Google для сканирования веб-страниц. Вместо того чтобы задействовать отдельных сканеров для каждого продукта, Google разработала единую интегрированную систему для этой цели.

Ассортимент услуг, таких как Google Поиск, AdSense, Gmail и других, имеет одинаковую базовую систему поискового робота. Каждая служба выделяется за счет использования своего уникального заголовка User Agent, при этом все они соблюдают одинаковые правила, описанные в файлах robots.txt, и поддерживают схожие стандарты здоровья сервера.

Иллюес объяснил:

Вы можете скачивать данные из интернета, но вам нужно указать свою строку агента пользователя.

Принятие этого единого метода означает, что все роботы Google следуют тем же рекомендациям и уменьшают свою активность, когда сайты сталкиваются с проблемами.

Настоящий пожиратель ресурсов? Это не лазание.

Иллиес заявила:

Он даже пошутил, что его будут «кричать в интернете» за это высказывание.

От тысяч до триллионов: рост интернета

Команда Google предложила исторический взгляд. Ещё в 1994 году поисковая система WebWoRM каталогизировала примерно 110 тысяч веб-страниц, а WebCrwaler проиндексировал около 2 миллионов. Сегодняшние сайты часто содержат значительно больше информации – миллионы страниц каждый.

Из-за такого быстрого темпа развития технологии пришлось адаптироваться и прогрессировать. Простые веб-краулеры перешли от использования оригинальных методов HTTP 1.1 к более эффективным протоколам HTTP/2 для ускорения передачи данных, также планируется поддержка перспективного протокола HTTP/3.

Битва за эффективность от Google

В прошлом году Google предприняла усилия по снижению влияния веб-скрейпинга на сайты, осознавая нагрузку, которую он создает для менеджеров сайтов. Тем не менее, новые препятствия остаются в этом процессе.

Иллиес объяснил дилемму:

За каждый запрос вы экономите в общей сложности семь байт. Данный предстоящий продукт вернет дополнительно восемь байт.

Каждое улучшение эффективности, достигнутое благодаря ИИ, компенсируется необходимостью дополнительных данных при разработке новых продуктов ИИ, создавая замкнутый цикл без замедления.

Что должны делать владельцы веб-сайтов

Предстоящий всплеск трафика требует действий в нескольких направлениях.

Инфраструктура: Текущий хостинг может не выдержать ожидаемой нагрузки. Оцените возможности сервера, опции CDN и время отклика перед наступлением притока.
Контроль доступа: ознакомьтесь с правилами robots.txt, чтобы управлять доступом к вашему сайту для различных роботов-пауков ИИ. Блокируйте ненужных ботов и разрешайте работу легальных.
Производительность базы данных: Иллиес особо отметил «дорогостоящие запросы к базе данных» как проблему. Оптимизируйте запросы и внедрите кэширование для снижения нагрузки на сервер.
Мониторинг: Отличайте легитимных поисковых ботов и агентов искусственного интеллекта от вредоносных ботов путем тщательного анализа журналов и отслеживания производительности.

Путь вперед

Иллиес предложил использовать модель Common Crawl как возможный шаблон, при которой данные собираются один раз и становятся доступными открыто, снижая тем самым повторяющийся веб-трафик. По мере эволюции интернета могут возникать подобные кооперативные подходы.

Иллиес заверил в способности интернета справляться с растущим трафиком; однако очевидно, что агенты ИИ стремительно увеличиваются в огромных количествах.

Сайты, которые укрепляют свои основы сегодня, будут более устойчивыми перед предстоящими вызовами. В то же время те, кто отложат это дело, могут столкнуться с серьёзными трудностями, когда воздействие ситуации станет интенсивным.

Прослушайте полный эпизод подкаста ниже:

https://www.youtube.com/watch?v=iGguggoNZ1E

Смотрите также

2025-05-29 20:39