Новый Markdown от Cloudflare для AI ботов: что вам нужно знать

Cloudflare теперь автоматически преобразует веб-страницы в более простой текстовый формат (markdown), когда искусственный интеллект запрашивает их. Это позволяет веб-сайтам, использующим Cloudflare, отправлять меньше данных ботам, не нуждаясь в создании специальных версий своих страниц.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Как вебмастер, я тестировал новую интересную функцию, которую мы называем Markdown для Агентов. По сути, она использует хитрый трюк с тем, как браузеры запрашивают контент. ИИ ‘краулер’ запрашивает страницу, но вместо запроса стандартного HTML он конкретно запрашивает ‘text/markdown’ в заголовке своего запроса. Наша система Cloudflare видит это, получает исходный HTML с наших серверов, автоматически преобразует его в формат markdown, а затем отправляет этот markdown обратно краулеру. Это действительно оптимизированный способ доставки контента в формате, который ИИ-агенты могут легко обрабатывать.

Этот релиз последовал за комментариями Джона Мюллера из Google, который недавно раскритиковал предоставление markdown AI-ботам, предполагая, что это ненужно и сомневаясь в их способности правильно обрабатывать ссылки в этом формате.

Что нового

Cloudflare объясняет, что их новая функция позволяет обращаться с программами искусственного интеллекта так же, как с обычными посетителями веб-сайтов. В качестве примера они сравнили количество токенов, используемых веб-страницей в формате HTML и markdown. Версия в HTML потребовала 16 180 токенов, в то время как версия в markdown использовала всего 3 150.

Предоставление ИИ необработанного HTML-кода неэффективно, как концентрация на упаковке вместо самого сообщения, которое она содержит.

Cloudflare обрабатывает преобразование напрямую в своей глобальной сети, что означает, что ваш исходный сервер не затронут. Вы можете включить эту функцию для своего веб-сайта через панель управления Cloudflare. В настоящее время она доступна в качестве бесплатной бета-версии для клиентов с планами Pro, Business и Enterprise, а также для тех, кто использует SSL для SaaS.

Cloudflare заметила, что некоторые AI-помощники по кодированию, включая Claude Code и OpenCode, начинают использовать заголовок `Accept: text/markdown` в своих запросах.

Каждый ответ, который мы предоставляем, включает заголовок ‘x-markdown-tokens’, который сообщает вам приблизительное количество токенов в версии markdown. Это полезно для разработчиков, которым необходимо контролировать, сколько текста обрабатывается за один раз, или понять, как разбить более крупные фрагменты контента.

Настройки по умолчанию Content-Signal

Ответы теперь маркируются специальным заголовком под названием `Content-Signal`, который автоматически указывает, что контент одобрен для использования в обучении ИИ, поисковых системах и в качестве входных данных для ИИ-систем (включая те, которые действуют самостоятельно). Однако каждый бот или сервис может выбирать, уважать эти сигналы или нет. Cloudflare планирует предоставить более настраиваемый контроль над этими сигналами в будущем.

Как цифровой маркетолог, я был очень рад узнать о Content Signals от Cloudflare, которые они представили во время своей Birthday Week. Это меняет правила игры, потому что, наконец, это дает нам контроль над тем, как наш контент используется в сети. И небольшое предупреждение: включение преобразования markdown меняет не только формат; оно автоматически сигнализирует о том, как вы *хотите*, чтобы этот контент использовался, поэтому важно понимать эту встроенную функциональность.

Чем это отличается от того, что критиковал Мюллер?

Мюллер указывал на проблемную технику, которую используют некоторые владельцы веб-сайтов. Они создают отдельные страницы, написанные в markdown, а затем показывают их конкретно AI-ботам, используя специальное программное обеспечение. Мюллера беспокоило, что это может быть расценено как ‘cloaking’ – обман поисковых систем – а также то, что ссылки на этих страницах могут работать некорректно. Он также задался вопросом, смогут ли боты вообще правильно читать markdown-файлы.

Cloudflare использует другой подход. Вместо того, чтобы идентифицировать браузер пользователя и затем отображать конкретную версию веб-страницы, он использует технику, называемую согласованием контента (content negotiation). Это означает, что один и тот же веб-адрес может доставлять разный контент в зависимости от того, что запрашивает браузер пользователя.

Джон Мюллер уточнил, что он обсуждал предоставление различного контента на основе браузера пользователя (user-agent), а не согласование контента. Он повторил эту мысль в обсуждении на Reddit о функции Cloudflare, задаваясь вопросом, почему разработчики создавали бы отдельную, сложную версию сайта только для ботов, когда они могли бы просто улучшить сайт для всех пользователей.

Google объясняет, что клоакинг включает в себя отображение различного контента пользователям и поисковым системам для повышения рейтинга и обмана людей. Однако, ситуация здесь немного иная. Вместо того, чтобы показывать совершенно другой контент, сервер определяет браузер пользователя (user-agent sniffing) или отвечает на конкретный запрос определенного формата (content negotiation). Это просто означает, что информация представлена по-разному – например, текст против мобильной версии – но это по-прежнему основной контент для всех.

С точки зрения поисковой системы, результат остаётся в значительной степени прежним. Если Googlebot запрашивает типичную веб-страницу, он получает полную HTML-версию. Однако, если AI-программа запрашивает контент в более простом markdown-формате, она получает текстовую версию той же информации.

New Radar Tracking

Как человек, который внимательно следит за трафиком веб-сайтов, я действительно впечатлён новыми данными, которые Cloudflare Radar показывает об AI ботах. Они начали отслеживать, *какие* типы контента запрашивают эти боты – например, изображения, текст или видео – и разбивать это по техническому типу файла (MIME type). Это даёт гораздо более чёткое представление о том, что AI краулеры на самом деле ищут в интернете.

Вы можете проверить, какие типы контента получает каждый бот. Например, Cloudflare продемонстрировала, как увидеть количество markdown ответов, отправленных поисковому краулеру OpenAI.

Данные доступны через публичные API и Data Explorer от Cloudflare.

Почему это важно

Если ваш веб-сайт уже использует Cloudflare, вы можете легко включить преобразование markdown одним переключателем, вместо создания отдельных страниц для markdown-контента.

Включение Markdown для Агентов автоматически добавляет специальные инструкции к контенту, сигнализируя о том, что его можно использовать для обучения ИИ, поиска и в качестве входных данных для моделей ИИ. Если вы ранее контролировали, как ИИ получает доступ к вашему контенту, вам следует проверить эти новые настройки перед включением этой функции.

Заглядывая вперёд

Cloudflare объявила, что в конечном итоге позволит пользователям настраивать обработку контента в Markdown для Agents с помощью пользовательских опций политики.

Опасения Роберта Мюллера касались того, как веб-сайты используют отдельные markdown-страницы, а не типичного способа доставки контента на основе предпочтений пользователей. Google не уточнил, будет ли использование content negotiation для предоставления markdown-контента считаться нарушением их правил против cloaking.

Как цифровой маркетолог, хочу сообщить вам, что эту функцию необходимо активно включить, и она доступна только при наличии платного плана Cloudflare. Прежде чем её включить, настоятельно рекомендую ознакомиться с настройками по умолчанию для Content-Signal – просто чтобы убедиться, что всё настроено так, как вы хотите.

Смотрите также

2026-02-13 16:40