Больше новостных сайтов по умолчанию переходят к блокировке AI-краулеров.

Как сообщает Digiday, и Reuters, и журнал Time теперь автоматически блокируют AI-ботов, разрешая доступ только тем, которые были специально одобрены и добавлены в белый список.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Оба издателя объявили о своих решениях в мае, последовав за аналогичными шагами People Inc. и The Atlantic за последний год.

Согласно Reuters, внедрение этого изменения не привело к снижению трафика веб-сайта, но позволило снизить затраты, связанные с обслуживанием автоматических ботов. Руководители компании считают, что это дополнительное препятствие побуждает компании, работающие с ИИ, изучать варианты лицензионных соглашений.

Почему Черных Списков Не Достаточно

Файл robots.txt не всегда соблюдается веб-сканирующими ботами. Недавнее исследование, проведенное Tollbit и опубликованное Digiday, показало, что около 30% AI ботов игнорируют инструкции в этих файлах, что означает доступ к контенту, к которому им не следовало бы.

Даже с некоторыми блокировками, система по-прежнему эффективно сдерживает нежелательную активность, по словам руководителей компании. Те, кто пытаются обойти эти блокировки, в конечном итоге платят за средства для этого, и эта стоимость является преднамеренным последствием.

Блокировки только останавливают ботов, которых веб-сайт конкретно идентифицирует. People Inc. обнаружила, что использование разрешающего списка (allowlist) на самом деле *увеличило* количество блокируемых user-agent – с примерно 2100 до более чем 30000. Линдсей Ван Кирк, старший вице-президент по инновациям в People Inc., представила эти результаты на мероприятии IAB Tech Lab в конце мая.

Эти выводы согласуются с данными из файлов robots.txt, наблюдаемыми за последние месяцы. Еще в январе BuzzStream сообщил, что 79% ведущих новостных сайтов блокируют хотя бы одного бота, используемого для обучения ИИ. Anthropic теперь советует издателям, что блокировка его поискового бота может негативно повлиять на их видимость. И в Великобритании Google теперь обязан разрешить веб-сайтам выбирать, использовать или не использовать их контент для поиска на базе ИИ.

Как издатели решают, каких ботов разрешать.

Вместо блокировки конкретных ботов, настройка ‘default-deny’ фокусируется на *разрешении* только тех ботов, которые вы явно одобряете. Это изменение подхода к контролю доступа.

Reuters одобрит бота, если он предоставит что-то ценное взамен, согласно Джошу Лондону, главе Reuters Professional, в интервью Digiday. Эта ценность может принимать различные формы: оплата за контент посредством лицензирования, привлечение трафика на сайт, помощь в поддержании работы сайта или содействие в генерации дохода.

Вы можете увидеть результат, отраженный в текущем файле robots.txt на веб-сайте Reuters. Он показывает, каким веб-краулерам – включая тех, что от Amazon, Google, Bing, Yahoo и OpenAI – разрешен доступ к сайту, блокируя при этом все остальные из большинства областей.

Почему это важно

Сканирование веб-сайтов работает по одному и тому же принципу с момента появления robots.txt: боты допускаются к доступу, если веб-сайт специально не идентифицирует и не блокирует их.

Reuters и Time сейчас меняют свой подход, а данные от People Inc. объясняют причину. Невозможно остановить бота, если вы не знаете о его существовании.

Блокировка веб-краулеров не обходится без недостатков. Когда вы блокируете одного, вы также упускаете любую пользу, которую он мог бы предоставить, например, улучшение позиций в поисковой выдаче с помощью ИИ или трафик со ссылок, которыми он делится. Именно поэтому многие владельцы веб-сайтов тщательно рассматривают, что предлагает каждый бот, прежде чем предоставлять ему доступ. Хорошая идея — подумать об этом в отношении настроек вашего собственного веб-сайта.

Заглядывая в будущее

Издатели полагают, что объединенный фронт будет более эффективным. ИИ-ботам легко обходить блокировку на одном веб-сайте, но SPUR Coalition разрабатывает общие правила для использования и лицензирования контента. В этом месяце коалиция расширилась, включив 36 организаций, добавив 30 новых членов. Большая группа из 36 издателей, работающих вместе для блокировки ботов, гораздо сложнее игнорировать, чем одного издателя, действующего в одиночку.

Не совсем очевидно, кто выигрывает от этой ситуации. У Reuters уже были налаженные новостные службы и соглашения, что давало им преимущество. Мелким издателям приходится сложнее – они могут попытаться помешать компаниям, использующим искусственный интеллект, использовать их контент, но это может навредить их онлайн-видимости и не гарантирует, что кто-то вообще свяжется для обсуждения сделки.

Недавний анализ, который я провёл, показал, что доход от платёжных пулов всё ещё довольно мал по сравнению с традиционной поисковой рекламой. Если в этих сделках будут участвовать только крупные бренды, практика блокировки всех, кроме одобренных издателей, может остаться стратегией, в основном используемой крупными компаниями.

Смотрите также

2026-06-10 03:09