Боты Claude от Anthropic позволяют принимать более гранулярные решения по файлу robots.txt.

Веб-сайт теперь идентифицирует трех различных ботов, связанных с Claude: один для сбора данных для обучения, другой для получения информации, когда пользователи задают вопросы, и третий для подготовки контента для поиска. Каждый бот идентифицируется уникальным кодом в инструкциях веб-сайта для веб-краулеров.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Каждый бот включает описание того, что произойдет, если вы его отключите. Для Claude-SearchBot, Anthropic объясняет, что блокировка бота прекратит использование контента вашего веб-сайта их системой для улучшения результатов поиска, что потенциально может снизить видимость и точность вашего сайта при поиске.

Для пользователей Claude блокировка доступа оказывает аналогичный эффект. Это прекращает показ вашего контента нашей системой, когда кто-то ищет информацию в сети, что может снизить видимость вашего веб-сайта в результатах поиска.

Это обновление отражает растущую тенденцию в работе инструментов поиска на базе ИИ. OpenAI, например, использует три разных ‘бота’: один для исследования веб-сайтов (GPTBot), один для создания индекса контента (OAI-SearchBot) и один для пользователей, взаимодействующих с ChatGPT. Perplexity использует аналогичный двухэтапный подход, с одним ‘ботом’ для индексирования (PerplexityBot) и другим для ответа на поисковые запросы пользователей (Perplexity-User).

Боты Anthropic, включая Claude-User, соблюдают правила веб-сайтов, изложенные в файлах robots.txt. OpenAI и Perplexity менее последовательны; они заявляют, что ChatGPT-User и Perplexity-User могут игнорировать эти правила. Важно отметить, что для Anthropic и OpenAI предотвращение доступа их обучающих ботов к сайту автоматически не блокирует их поисковых ботов или когда пользователь конкретно запрашивает информацию.

Что изменилось по сравнению со старой страницей.

Предыдущая страница обхода Anthropic упоминала только ClaudeBot и в общих чертах описывала, как собирались данные для улучшения наших моделей. До ClaudeBot мы использовали названия ‘Claude-Web’ и ‘Anthropic-AI’ для идентификации наших сканеров, но эти названия больше не используются.

Переход с одного веб-краулера на три аналогичен изменению, которое OpenAI внесла в конце 2024 года. Они разделили свою активность веб-краулинга на три отдельных бота: GPTBot, OAI-SearchBot и ChatGPT-User. OpenAI позже уточнила в декабре, что GPTBot и OAI-SearchBot работают вместе, обмениваясь информацией, чтобы не посещать одни и те же веб-сайты без необходимости, когда обоим разрешено выполнять краулинг.

OpenAI упомянул в обновлении за декабрь, что когда ChatGPT просматривает веб по запросу пользователя, он может не всегда соблюдать правила, установленные веб-сайтами в их файлах robots.txt, в отличие от его обычного веб-сканирования. Документация Anthropic для Claude не делает такого же различия – она не указывает разное поведение для просмотра по запросу пользователя.

Почему это важно

Метод, который многие веб-сайты использовали в 2024 году для блокировки AI от доступа к их контенту – простая блокировка одного AI ‘бота’ – больше неэффективен. В то время как блокировка одного бота, такого как ClaudeBot, может остановить его от сбора обучающих данных, другие боты, такие как Claude-SearchBot и Claude-User, все равно смогут получить доступ к сайту. Эта же проблема применима и к ботам OpenAI.

Январское исследование BuzzStream показало, что почти 80% ведущих новостных веб-сайтов блокируют хотя бы одного бота, используемого для обучения искусственного интеллекта. Интересно, что 71% также блокируют ботов, которые помогают ИИ находить и использовать информацию, что может означать, что эти сайты исключены из цитирования в результатах поиска на основе ИИ.

Это становится всё более важным. Hostinger недавно проанализировал 66,7 миллиарда запросов от ботов и обнаружил, что поисковый краулер OpenAI теперь получает доступ к более чем 55% веб-сайтов, что является значительным увеличением по сравнению с 4,7% годом ранее. Интересно, что доступ для ботов, используемых для *обучения* AI моделей, резко снизился, упав с 84% до всего лишь 12%. Это означает, что веб-сайты активно разрешают поисковым ботам изучать их контент, в то время как всё чаще блокируют ботов, предназначенных для обучения AI, и эта разница становится всё более выраженной.

Разные компании, разрабатывающие ИИ, дают разные предупреждения о блокировке их поисковых ботов. Anthropic заявляет, что блокировка Claude-SearchBot может снизить видимость вашего сайта. OpenAI более четко говорит: веб-сайты, которые блокируют его бота, не будут отображаться в результатах поиска ChatGPT, хотя ссылки на ваш сайт все еще могут появляться. Обе компании представляют эти поисковые боты как аналогичные Googlebot и Bingbot – инструменты для поиска, а не для обучения их ИИ-моделей.

Что это значит

Если вы работаете с файлами robots.txt, пришло время проверить и обновить ваши заблокированные списки. Search Engine Journal (SEJ) предоставляет исчерпывающий, проверенный список строк user-agent от всех основных AI-краулеров, чтобы помочь вам в этом.

Современные файлы robots.txt должны содержать отдельные инструкции для ботов, используемых для обучения моделей искусственного интеллекта, и тех, которые используются поисковыми системами. Также важно помнить, что способ, которым обычные пользователи запрашивают информацию, может отличаться от того, как ведут себя эти боты.

Заглядывая в будущее

Этот новый подход делит издателей на три группы, отражая стратегию, которую Google ранее использовала с Google-Extended. Эта функция позволяла веб-сайтам предотвращать использование их данных для обучения ИИ Google, оставаясь при этом в результатах поиска. Теперь и Anthropic, и OpenAI предлагают аналогичные варианты для своих ИИ-платформ, позволяя издателям контролировать, используется ли их контент для обучения.

По мере того как поиск на основе искусственного интеллекта становится все более популярным, блокировка его веб-краулеров становится все дороже. Наши данные за прошлый декабрь показали, что эти AI-краулеры уже составляют значительную часть веб-трафика, но они не отправляют столько же реферального трафика, как традиционные поисковые системы. То, как владельцы веб-сайтов будут балансировать между предоставлением доступа AI и защитой своих ресурсов, определит, сколько контента AI-поисковые системы смогут фактически найти и отобразить.

Смотрите также

2026-02-25 23:40