Американские издатели требуют, чтобы Common Crawl прекратил сбор их контента.

Digital Content Next, организация, представляющая цифровых издателей в США, потребовала от Common Crawl Foundation прекратить свою деятельность, направив официальное письмо о прекращении и воздержании.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Письмо просит Common Crawl прекратить сбор контента от издателей и удалить все существующие материалы издателей из своих коллекций данных.

Джейсон Кинт, генеральный директор DCN, опубликовал уведомление в блоге, а Press Gazette опубликовал дополнительные детали из этого уведомления на этой неделе.

С 2007 года Common Crawl регулярно сканирует миллиарды веб-страниц и делает эту информацию свободно доступной в качестве общедоступного архива. Этот архив стал ключевым ресурсом для обучения многих современных систем искусственного интеллекта, включая GPT-3 от OpenAI, которая использовала отфильтрованную версию Common Crawl для 60% своих обучающих данных.

Это несогласие важно для любого веб-сайта, который предотвращает доступ программ искусственного интеллекта к своему контенту. В то время как блокировка CCBot, краулера, используемого Common Crawl, предотвращает сбор новой информации, она не удаляет контент, уже хранящийся в их архиве – который остается общедоступным для скачивания.

Что требует DCN

Письмо просит Common Crawl немедленно прекратить сбор, хранение и распространение материалов, защищенных авторским правом, принадлежащих компаниям-членам DCN, и удалить любой контент, который они уже собрали.

DCN утверждает, что Common Crawl грубо нарушил авторские права, создавая свои коллекции данных и предоставляя их компаниям, занимающимся искусственным интеллектом.

Письмо объясняет, что закон об авторском праве не позволяет веб-сайтам автоматически включаться – издатели должны активно давать разрешение на использование своего контента. По сути, Common Crawl должен запрашивать разрешение, а не требовать от издателей просить исключить их контент.

Kint написал, что уведомление:

Это утверждение ставит под сомнение все более распространенную идею о том, что ценный контент можно легко собирать, сохранять, повторно использовать и монетизировать только потому, что существуют технологии для этого.

Почему DCN сомневается в процессе удаления?

Письмо от организации Digital Content Next (DCN) вызывает обеспокоенность относительно того, уважает ли Common Crawl запросы на удаление контента и следует ли инструкциям веб-сайтов, которые не хотят быть включенными в свою базу данных. Согласно Press Gazette, юридическая команда DCN расследует, была ли Common Crawl правдива в своих сообщениях издателям о том, как она обрабатывает такие запросы.

Common Crawl поддерживает общедоступный список веб-сайтов, которые запросили исключить их из веб-скрейпинга. Этот список включает известные организации, такие как Associated Press и BBC, а также большую группу доменов, представленных News/Media Alliance. Согласно Press Gazette, многие другие крупные издатели также находятся в этом списке.

Опасения по поводу процесса удаления возникали и раньше. В ноябре The Atlantic отметил, что контент из таких источников, как The New York Times и датские издатели, все еще появлялся в сети, даже после того, как Common Crawl заявил об его удалении.

Ответ Common Crawl’s.

Рич Скрента, глава Common Crawl, не ответил на запрос Press Gazette о комментарии по поводу письма.

Он ранее опровергал подобные обвинения. В ноябре, в публикации в блоге, посвященной статье из The Atlantic, Скрента заявил, что организация не вводит издателей в заблуждение и не получает несанкционированный доступ к контенту за платными стенами.

Он объяснил, что после публикации файлы архива нельзя изменить без повреждения их общей структуры. Поэтому Common Crawl решает проблемы, просто удаляя или блокируя проблемные веб-адреса из будущих сканирований и предотвращая доступ к ним через свои общедоступные инструменты поиска.

Когда издатель запрашивает удаление контента, который мы уже проиндексировали, мы действуем быстро и начинаем процесс удаления, основанный на структуре наших данных.

Он добавил:

Команда Common Crawl всегда признавала, что их работа не завершена и не выполняется быстро; они открыто говорили о том, насколько она сложна и постоянно развивается.

На этой неделе Скрента объявил на форуме, что Common Crawl помогает разрабатывать открытые стандарты для веб-сайтов, чтобы указать, как они предпочитают быть обработанными (scraped) ИИ.

Почему это важно

Письмо DCN фокусируется на существующем заархивированном контенте, а не только на будущем веб-сканировании, и утверждает, что несправедливо требовать от издателей активно запрашивать удаление своего контента.

Недавнее исследование BuzzStream показало, что большинство новостных веб-сайтов (79% проверенных) уже блокируют AI-ботов от доступа к своему контенту. Данные Cloudflare также показывают, что многие ведущие веб-сайты активно блокируют определенных ботов, включая одного под названием CCBot. Однако ключевой вопрос остается: если многолетнее ранее опубликованное содержание все еще доступно в сети, какое реальное влияние оказывают эти блокировки на AI-обучение?

Заглядывая в будущее

Неясно, усугубится ли проблема DCN, поскольку это зависит от того, как отреагирует Common Crawl, и они не сообщили, что собираются делать. Обе стороны не согласны с тем, кто должен сделать первый шаг.

Скрента поддерживает разработку стандартов, позволяющих веб-сайтам чётко указывать, как они предпочитают, чтобы их извлекали данные, при этом по умолчанию разрешая это. Этот подход аналогичен тому, что сделал конкурентный регулятор Великобритании, потребовав от Google предоставить издателям возможность исключить свой контент из результатов поиска на основе искусственного интеллекта.

DCN считает, что веб-сайты должны иметь право одобрять сбор данных до того, как он произойдет. Если другие отраслевые группы согласятся, фокус сместится с блокировки отдельных скрейперов с помощью файлов robots.txt на решение проблемы на уровне веб-архивов.

Смотрите также

2026-06-10 04:10