
Многие ведущие новостные организации используют файл с именем robots.txt, чтобы предотвратить использование их контента искусственным интеллектом для обучения. Однако, этот же файл также блокирует AI-ботов, которые находят и обобщают информацию с веб-сайтов, что означает, что эти сайты не будут отображаться в результатах поиска или ответах на основе искусственного интеллекта.
Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.
Купить на падении (нет)BuzzStream проанализировал файлы robots.txt со 100 ведущих новостных веб-сайтов в США и Великобритании. Они обнаружили, что 79% этих сайтов блокируют по крайней мере одного бота, используемого для обучения ИИ. Еще более значимо, что 71% блокируют ботов, которые приводят в действие поисковые системы и предоставляют результаты поиска в режиме реального времени.
Что показывают данные
BuzzStream проанализировал 50 самых популярных новостных веб-сайтов на каждом рынке, используя данные из SimilarWeb, и удалил все дубликаты. Их исследование классифицировало ботов на три типа: те, которые используются для обучения, те, которые используются для поиска в реальном времени, и те, которые используются для индексации контента.
Блоки обучения бота
Когда дело касается ботов, используемых для обучения моделей ИИ, CCBot, от Common Crawl, был заблокирован наиболее часто, в 75% случаев попыток блокировки. За ним последовали Anthropic-ai (72%), ClaudeBot (69%) и GPTBot (62%).
Как SEO-эксперт, я отслеживаю, как различные AI-боты получают доступ к опубликованному контенту и используют его. То, что я обнаружил, заключается в том, что Google-Extended, система, лежащая в основе Gemini, сталкивается с наименьшим количеством ограничений – он был заблокирован только на 46% сайтов в целом. Интересно, что американские издатели гораздо охотнее его блокируют – около 58% делают это – почти вдвое больше, чем 29% показатель блокировки, который мы видим у издателей из Великобритании. Эта разница в доступе может иметь значительные последствия для того, как Gemini учится и работает в разных регионах.
Гарри Кларксон-Беннетт, директор по SEO в The Telegraph, рассказал BuzzStream:
Издатели предотвращают доступ AI-ботов к своему контенту с помощью файла robots.txt, потому что не видят в этом никакой пользы. Большие языковые модели не предназначены для привлечения трафика на веб-сайты, и издатели по-прежнему полагаются на этот трафик, чтобы оставаться на плаву.
Блоки Retrieval Bot
Исследование показало, что 71% сайтов блокируют как минимум одного бота для извлечения данных или живого поиска.
Больше веб-сайтов блокируют Claude-Web (66%), чем поискового бота OpenAI для ChatGPT (49%). Пользователи ChatGPT заблокированы на 40% сайтов.
Perplexity-User, который обрабатывает запросы на извлечение, инициированные пользователем, был заблокирован в наименьшей степени – 17%.
Индексация блоков
Большинство веб-сайтов – 67% из них – заблокировали PerplexityBot, инструмент, который Perplexity использует для сбора информации для своих результатов поиска.
Только 14% сайтов заблокировали всех AI ботов, отслеженных в исследовании, в то время как 18% не заблокировали ни одного.
Пробел в обеспечении соблюдения
Исследование признает, что robots.txt — это директива, а не барьер, и боты могут ее игнорировать.
Мы ранее обсуждали, как Гэри Ильес из Google объяснил, что файл robots.txt на самом деле не *блокирует* доступ к вашему сайту – он просто *запрашивает*, чтобы поисковые системы не индексировали определенные страницы. Рассматривайте это как предложение, а не меру безопасности.
Кларксон-Беннет поднял тот же вопрос в отчете BuzzStream’s:
Файл robots.txt — это запрос, вроде знака «не входить» для веб-роботов. Однако, это не надёжный барьер — некоторые роботы будут игнорировать его, либо по ошибке, либо намеренно.
Cloudflare сообщила, что Perplexity тайно получал доступ к веб-сайтам, несмотря на правила, предназначенные для предотвращения этого. Они делали это, постоянно меняя интернет-адреса, которые использовали, маскируя свою сетевую идентичность и притворяясь обычным веб-браузером.
Cloudflare удалил Perplexity из своего списка проверенных ботов и теперь блокирует к нему доступ. Perplexity не согласен с обоснованием Cloudflare и опубликовал публичное заявление.
Если издатели действительно хотят предотвратить сбор их контента ИИ, им, возможно, потребуется выйти за рамки простого использования файла robots.txt и рассмотреть такие методы, как блокировка на уровне сети доставки контента (CDN) или использование отпечатков ботов.
Почему это важно
OpenAI использует различные веб-краулеры для конкретных задач. GPTBot собирает информацию для улучшения своих моделей, а OAI-SearchBot предоставляет результаты для функции поиска ChatGPT. Блокировка одного краулера не повлияет на другой. Perplexity работает аналогично: PerplexityBot используется для индексации веб-страниц, а Perplexity-User – для предоставления результатов поиска.
Шаблон расширенной блокировки Google – это то, за чем стоит следить. Американские издатели блокируют его почти в два раза чаще, чем издатели в Великобритании. Неясно, связано ли это различие с разными оценками скорости роста Gemini или просто с разными деловыми отношениями с Google.
Взгляд в будущее
Хотя файл robots.txt может использоваться для управления веб-сканерами, у него есть ограничения. Для веб-сайтов, стремящихся надёжно блокировать AI-ботов, использование ограничений на уровне сети доставки контента (CDN) часто является лучшим решением, чем полагаться только на robots.txt.
Недавний анализ Cloudflare веб-трафика показал, что GPTBot, ClaudeBot и CCBot блокировались чаще всего на популярных веб-сайтах. В отчёте также показано, что в то время как многие издатели ограничивают доступ для Googlebot и Bingbot, они редко блокируют их полностью, вероятно, потому что краулер Google используется как для результатов поиска, так и для обучения AI моделей.
Если вам интересно, как ИИ находит и использует информацию, обратите внимание на ботов поиска. В то время как обучающие данные формируют то, чему ИИ *учится* в будущем, боты поиска определяют, какой контент ИИ извлекает *прямо сейчас* при ответе на вопросы.
Смотрите также
- Интерфейс интерактивной карты панели местных знаний Google
- Акции ETLN. Etalon Group PLC: прогноз акций.
- Акции SVAV. СОЛЛЕРС: прогноз акций.
- Акции LSNG. Ленэнерго: прогноз акций.
- Anthropic анонсирует бесплатный чат-бот Claude AI для Android
- Ошибка фильтра внешнего вида в отчете о производительности Google Search Console (будет исправлена)
- Понимание и оптимизация совокупного смещения макета (CLS)
- Факторы нецифрового маркетинга, которые снижают рентабельность инвестиций в цифровой маркетинг
- 5 SEO-инсайтов об исходящих ссылках
- Документы Google: не указывайте URL-адрес фрагмента как канонический
2026-01-08 04:10