Новые интернет-правила будут блокировать обучающих ботов ИИ

Новые интернет-правила будут блокировать обучающих ботов ИИ

Как опытный веб-мастер, имеющий за плечами десятилетия навигации в постоянно меняющемся цифровом пространстве, я должен сказать, что это последнее предложение Кришны Мадхавана и Фабриса Канеля — глоток свежего воздуха. Идея расширить протокол исключения роботов, чтобы заблокировать роботам-ИИ-сканерам использование общедоступного контента в учебных целях, меняет правила игры.


Разрабатывается новый план по расширению протокола исключения роботов и тегов Meta Robots, что позволит им запретить всем веб-парсерам с искусственным интеллектом использовать общедоступный интернет-контент в учебных целях. Это предложение, разработанное Кришной Мадхаваном, главным менеджером по продуктам Microsoft AI, и Фабрисом Канелем, главным менеджером по продуктам в Microsoft Bing, упрощает процесс блокировки популярных поисковых роботов для обучения ИИ с помощью одного простого правила.

Почти все заслуживающие доверия веб-сканеры следуют рекомендациям, установленным тегами Robots.txt и Meta Robots, что облегчает издателям, которые хотят предотвратить использование их контента для обучения искусственному интеллекту (ИИ). В этом отношении данное предложение является долгожданной мечтой.

Целевая группа по интернет-инжинирингу (IETF)

Инженерная группа Интернета (IETF) — это глобальная организация, созданная в 1986 году и отвечающая за создание и поддержание стандартов Интернета на добровольной основе. Например, протокол исключения роботов был разработан независимо в 1994 году, а в 2019 году Google предложил IETF принять его в качестве официального стандарта с четко определенными условиями. В 2022 году IETF официально опубликовал протокол исключения роботов, предоставив определение протокола и расширив его первоначальные спецификации.

Три способа заблокировать обучающих ботов ИИ

Проект предложения по блокировке обучающих ботов ИИ предлагает три способа заблокировать ботов:

  1. Протоколы robots.txt
  2. Мета-роботы HTML-элементы
  3. Заголовок ответа прикладного уровня

Robots.Txt для блокировки роботов AI

Проект предложения направлен на создание дополнительных правил, которые распространят Протокол исключения роботов (Robots.txt) на обучающих роботов ИИ. Это наведет некоторый порядок и даст издателям возможность выбирать, каким роботам разрешено сканировать их сайты.

Соблюдение протокола Robots.txt является добровольным, но все законные сканеры, как правило, подчиняются ему.

В проекте объясняется цель новых правил Robots.txt:

Хотя протокол исключения роботов позволяет владельцам веб-сайтов решать, могут ли автоматизированные программы, известные как сканеры, получать доступ к URL-адресам на их сайтах и ​​каким образом (как описано в RFC8288), он не обеспечивает контроль над тем, как данные извлекаются из этих служб. может использоваться при обучении фундаментальным моделям создания ИИ.

Разработчикам приложений предлагается соблюдать эти теги. Однако теги не являются формой авторизации доступа».

Ключевой аспект обновленных рекомендаций robots.txt и HTML-тегов мета-роботов заключается в том, что они не требуют идентификации конкретных сканеров. Вместо этого единое правило охватывает всех ботов, собирающих данные для целей обучения ИИ, при условии, что они захотят соблюдать эти правила — практика, которой следуют все авторитетные боты. Это упрощает процесс блокировки ботов для издателей контента.

<ул>

  • DisallowAITraining — указывает синтаксическому анализатору не использовать данные для языковой модели обучения ИИ.
  • AllowAITraining — указывает синтаксическому анализатору, что данные можно использовать для языковой модели обучения ИИ.
  • <ул>

  • Обеспечивает больший контроль

    Компании, занимающиеся искусственным интеллектом, столкнулись с судебными исками по обвинению в неправомерном использовании общедоступных данных, найденных в Интернете, но они утверждают, что использование таких данных подпадает под принцип «добросовестного использования», аналогично тому, как поисковые системы получают доступ к информации в Интернете и индексируют ее в течение многих лет.

    Эти недавно реализованные рекомендации позволяют поставщикам веб-контента управлять сканерами, которые используются для сбора учебных материалов. Синхронизируя эти сканеры, потребляющие данные, с поисковыми роботами, они могут работать слаженно.

    Прочитайте предложение на IETF:

    Расширение протокола исключения роботов для управления использованием контента ИИ

    Смотрите также

    2024-11-11 21:38