Google утверждает, что LLMs похожи на мета-тег keywords

Проще говоря, Джон Мюллер из Google недавно обсуждал предложенный стандарт под названием LLms.txt, который предназначен для показа содержимого веб-сайта агентам и поисковым роботам искусственного интеллекта. Он выразил мнение, что его полезность может быть незначительной, сравнивая с устаревшей практикой использования метатега keywords, сравнение, которое отражает опыт других, кто пытался им воспользоваться.

🌊 Не упусти волну!
CryptoWave подсказывает, когда рынок готов к росту – будь в тренде!

Присоединиться в Telegram

LLMS.txt

Текстовый файл LLMS.txt был сравнен с файлом Robot.txt для больших языковых моделей, но это сравнение совершенно неправомерно. В то время как файл Robot.txt управляет навигацией ботов по веб-сайту, предложение использовать LLMs.txt не предполагает контроля за ботами. Это излишне, поскольку robots.txt уже эффективно справляется со стандартами такого рода. Проще говоря, LLMS.txt и Robot.txt служат различным целям: один для поисковых роботов (веб-краулеров), а другой для больших языковых моделей.

Идея за LLMS заключается в предоставлении языковым моделям машинного обучения текстового файла Markdown, который содержит основной контент веб-страницы без рекламы и навигационных ссылок. Такой формат удобен для чтения как человеком, так и машиной. Например, заголовки обозначаются символом фунта (#), а списки — минусами (-). Помимо этой ключевой функции, файлы LLMS также включают некоторые дополнительные возможности, но это в основном их назначение.

Что такое файл LLMS?

  • LLMs не способ контролировать ботов ИИ.
  • Файл LLMs.txt является способом отображения основного контента для ботов ИИ.
  • LLM.txt — это лишь предложение, а не широко используемый и принятый стандарт.

Эта последняя часть важна, потому что она касается того, что сказал Джон Мюллер из Google.

LLM-файлы сравнимы с метатегами ключевых слов

На Реддите кто-то начал разговор, чтобы узнать, сталкивались ли другие с подобными ситуациями, когда боты ИИ игнорировали их документы в формате .LLM.

В начале этого месяца я опубликовал файл LLM.txt в основном разделе своего блога, но пока не заметил никаких изменений в логах сканирования. Есть ли у кого-нибудь система для отслеживания таких обновлений, или вы наблюдали какие-либо эффекты после внедрения? Если вы еще не внедрили это, мне интересно узнать ваше мнение об этом.

В том разговоре кто-то рассказал, что управляет более чем 20,000 вебсайтами, и это исключительно люди или специализированные боты (такие как от BuiltWith), которые обращаются к файлам LLMs.txt, без участия AI агентов или общих ботов в этом процессе.

В настоящее время мы управляем примерно 20 000 доменами. Следует отметить, что за исключением нескольких специализированных пользовательских агентов нет активных автоматизированных инструментов для сканирования этих доменов.

Насколько мне известно, ни один из AI сервисов не признал использования файлов LLMS.TXT. Если вы посмотрите логи сервера, то заметите, что они также не проверяют наличие этого файла. Для меня это похоже на использование мета-ключевых слов на сайте – эти термины владелец сайта утверждает, что сайт сосредоточен вокруг них. Однако независимо от того, действительно ли сайт отражает эти ключевые слова, их можно проверить напрямую, перейдя на сам сайт. По сути, почему бы просто не проверить сайт вместо доверия подобным тегам?

Как профессионал в области цифрового маркетинга, я заметил, что ни Anthropic, ни OpenAI, ни Google пока не объявили публично о поддержке стандарта LLMS.txt. Отсюда возникает вопрос: если эти крупные сервисы искусственного интеллекта еще не приняли его, какова же цель этого стандарта?

Мюллер делает наблюдение, что файл LLms.txt может оказаться ненужным, так как основной контент и структурированные данные уже получены. Если бот полагается на LLms.txt, ему все равно нужно будет проверять другой контент на предмет отсутствия спама, что ставит под вопрос его полезность.

Если упростить, возможно ли ситуация, когда издатель или SEO манипулируют информацией в файлах LLMS.txt, предоставляя различное содержание для спам-агентов ИИ и реальных пользователей/поисковых систем? Такой метод кажется простым способом создания спама, скрывая обманные практики под видом использования моделей искусственного интеллекта.

Проще говоря, подобно мета-тегу ключевых слов, на который больше не полагаются поисковые системы из-за его ненадёжности в определении тематической направленности сайта исключительно по указанным ключевым словам, современные поисковые системы развились и стали гораздо искуснее анализировать содержание для определения настоящей темы сайта.

Прочитайте обсуждение на LinkedIn здесь:

Где мы сейчас?

Смотрите также

2025-04-17 21:09