Большинство крупных новостных издателей блокируют ботов для обучения и извлечения данных ИИ.

Многие ведущие новостные организации используют файл с именем robots.txt, чтобы предотвратить использование их контента искусственным интеллектом для обучения. Однако, этот же файл также блокирует AI-ботов, которые находят и обобщают информацию с веб-сайтов, что означает, что эти сайты не будут отображаться в результатах поиска или ответах на основе искусственного интеллекта.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

BuzzStream проанализировал файлы robots.txt со 100 ведущих новостных веб-сайтов в США и Великобритании. Они обнаружили, что 79% этих сайтов блокируют по крайней мере одного бота, используемого для обучения ИИ. Еще более значимо, что 71% блокируют ботов, которые приводят в действие поисковые системы и предоставляют результаты поиска в режиме реального времени.

Что показывают данные

BuzzStream проанализировал 50 самых популярных новостных веб-сайтов на каждом рынке, используя данные из SimilarWeb, и удалил все дубликаты. Их исследование классифицировало ботов на три типа: те, которые используются для обучения, те, которые используются для поиска в реальном времени, и те, которые используются для индексации контента.

Блоки обучения бота

Когда дело касается ботов, используемых для обучения моделей ИИ, CCBot, от Common Crawl, был заблокирован наиболее часто, в 75% случаев попыток блокировки. За ним последовали Anthropic-ai (72%), ClaudeBot (69%) и GPTBot (62%).

Как SEO-эксперт, я отслеживаю, как различные AI-боты получают доступ к опубликованному контенту и используют его. То, что я обнаружил, заключается в том, что Google-Extended, система, лежащая в основе Gemini, сталкивается с наименьшим количеством ограничений – он был заблокирован только на 46% сайтов в целом. Интересно, что американские издатели гораздо охотнее его блокируют – около 58% делают это – почти вдвое больше, чем 29% показатель блокировки, который мы видим у издателей из Великобритании. Эта разница в доступе может иметь значительные последствия для того, как Gemini учится и работает в разных регионах.

Гарри Кларксон-Беннетт, директор по SEO в The Telegraph, рассказал BuzzStream:

Издатели предотвращают доступ AI-ботов к своему контенту с помощью файла robots.txt, потому что не видят в этом никакой пользы. Большие языковые модели не предназначены для привлечения трафика на веб-сайты, и издатели по-прежнему полагаются на этот трафик, чтобы оставаться на плаву.

Блоки Retrieval Bot

Исследование показало, что 71% сайтов блокируют как минимум одного бота для извлечения данных или живого поиска.

Больше веб-сайтов блокируют Claude-Web (66%), чем поискового бота OpenAI для ChatGPT (49%). Пользователи ChatGPT заблокированы на 40% сайтов.

Perplexity-User, который обрабатывает запросы на извлечение, инициированные пользователем, был заблокирован в наименьшей степени – 17%.

Индексация блоков

Большинство веб-сайтов – 67% из них – заблокировали PerplexityBot, инструмент, который Perplexity использует для сбора информации для своих результатов поиска.

Только 14% сайтов заблокировали всех AI ботов, отслеженных в исследовании, в то время как 18% не заблокировали ни одного.

Пробел в обеспечении соблюдения

Исследование признает, что robots.txt — это директива, а не барьер, и боты могут ее игнорировать.

Мы ранее обсуждали, как Гэри Ильес из Google объяснил, что файл robots.txt на самом деле не *блокирует* доступ к вашему сайту – он просто *запрашивает*, чтобы поисковые системы не индексировали определенные страницы. Рассматривайте это как предложение, а не меру безопасности.

Кларксон-Беннет поднял тот же вопрос в отчете BuzzStream’s:

Файл robots.txt — это запрос, вроде знака «не входить» для веб-роботов. Однако, это не надёжный барьер — некоторые роботы будут игнорировать его, либо по ошибке, либо намеренно.

Cloudflare сообщила, что Perplexity тайно получал доступ к веб-сайтам, несмотря на правила, предназначенные для предотвращения этого. Они делали это, постоянно меняя интернет-адреса, которые использовали, маскируя свою сетевую идентичность и притворяясь обычным веб-браузером.

Cloudflare удалил Perplexity из своего списка проверенных ботов и теперь блокирует к нему доступ. Perplexity не согласен с обоснованием Cloudflare и опубликовал публичное заявление.

Если издатели действительно хотят предотвратить сбор их контента ИИ, им, возможно, потребуется выйти за рамки простого использования файла robots.txt и рассмотреть такие методы, как блокировка на уровне сети доставки контента (CDN) или использование отпечатков ботов.

Почему это важно

OpenAI использует различные веб-краулеры для конкретных задач. GPTBot собирает информацию для улучшения своих моделей, а OAI-SearchBot предоставляет результаты для функции поиска ChatGPT. Блокировка одного краулера не повлияет на другой. Perplexity работает аналогично: PerplexityBot используется для индексации веб-страниц, а Perplexity-User – для предоставления результатов поиска.

Шаблон расширенной блокировки Google – это то, за чем стоит следить. Американские издатели блокируют его почти в два раза чаще, чем издатели в Великобритании. Неясно, связано ли это различие с разными оценками скорости роста Gemini или просто с разными деловыми отношениями с Google.

Взгляд в будущее

Хотя файл robots.txt может использоваться для управления веб-сканерами, у него есть ограничения. Для веб-сайтов, стремящихся надёжно блокировать AI-ботов, использование ограничений на уровне сети доставки контента (CDN) часто является лучшим решением, чем полагаться только на robots.txt.

Недавний анализ Cloudflare веб-трафика показал, что GPTBot, ClaudeBot и CCBot блокировались чаще всего на популярных веб-сайтах. В отчёте также показано, что в то время как многие издатели ограничивают доступ для Googlebot и Bingbot, они редко блокируют их полностью, вероятно, потому что краулер Google используется как для результатов поиска, так и для обучения AI моделей.

Если вам интересно, как ИИ находит и использует информацию, обратите внимание на ботов поиска. В то время как обучающие данные формируют то, чему ИИ *учится* в будущем, боты поиска определяют, какой контент ИИ извлекает *прямо сейчас* при ответе на вопросы.

Смотрите также

2026-01-08 04:10