Мюллер из Google заявляет, что файл llms.txt не может помочь LLM различать сайты.

По словам Джона Мюллера из Google, большие языковые модели (LLMs) не полагаются на файлы, такие как ‘llms.txt‘, чтобы определить, какие веб-сайты появляются в результатах поиска.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Он поделился этими мыслями во время недавнего эпизода Search Off the Record, подкаста, созданного поисковой командой Google.

Его аргумент предполагает, что существует более широкая проблема с тем, как собираются данные, и дело не просто в том, что люди пытаются манипулировать результатами. Даже тщательно созданный список источников не является полностью надежным, поскольку он поступает с веб-сайта, надеющегося быть выбранным.

Для обнаружения, Мюллер указал на обычные HTML-страницы и внутренние ссылки.

Что сказал Мюллер

Обсуждение началось с вопроса о том, должны ли владельцы веб-сайтов переходить на Markdown специально для больших языковых моделей. Однако Джон Мюллер и Мартин Сплитт из Google оба подтвердили, что HTML остается основным форматом, который Google использует для сканирования и поиска контента на веб-сайтах.

Разговор стал более предметным, когда Мюллер упомянул файл llms.txt. Он объяснил, что изучение его в качестве потенциального решения ни к чему не привело.

https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text

По сути, вы показываете этим системам веб-сайт и говорите им: «Это лучший сайт, и вот все, что людям нужно увидеть и купить». Однако большие языковые модели разработаны таким образом, чтобы не доверять этой информации автоматически, поскольку им необходимо уметь различать разные веб-сайты.

По сути, его аргумент заключается в различении веб-сайтов. Если сайты используют файл llms.txt для рекламы, то сами эти файлы также могут делать аналогичные заявления. Даже если ИИ выбирает лучший веб-сайт для ответа на вопрос, ему все равно нужен способ отличать эти сайты друг от друга.

Что может означать фраза «By Design»?

«By design» могло означать две разные вещи, и Мюллер не уточнил, какие именно.

Ещё один способ взглянуть на это заключается в том, что полагаться на то, что люди *говорят*, не помогает, когда все говорят одно и то же. Это похоже на то, что произошло с meta keywords – они стали бесполезными, потому что каждый веб-сайт использовал их, что сделало невозможным для поисковых систем выявление действительно важной информации.

Оба текста согласны с тем, как работает обнаружение, но они расходятся во мнениях относительно того, могут ли какие-либо связанные с этим ограничения развиваться или быть сняты позже.

Где Мюллер видит роль

Мюллер не отверг все варианты использования llms.txt. Он выделил один случай, когда это может помочь:

«Если кто-то уже находится на вашем веб-сайте, возможно, какая-то автоматизированная система будет полезна.»

Он проиллюстрировал это сценарием, в котором AI-помощник пытается купить фотографию онлайн. AI перейдёт на веб-сайт и найдёт инструкции по совершению покупки.

Как цифровой маркетолог, я вижу ключевое различие здесь: LLMs отлично справляются с *пониманием* контента, когда пользователь уже находится на сайте, но они не могут изначально *направлять* трафик. Представьте себе это так: файл, такой как ‘llms.txt’, не скажет ИИ, какой веб-сайт посетить в первую очередь. Однако, как только ИИ *попадёт* на сайт, он может быть невероятно полезен – почти как внутримагазинный справочник, направляющий того, кто уже вошёл в двери.

За пределами игровых споров

По словам Мюллера, создание Markdown-страниц специально для ботов неэффективно. Он также провёл параллель между файлом llms.txt и устаревшей практикой использования meta-ключевых слов.

Роджер Монтти из Search Engine Journal отмечает, что файл llms.txt ненадежен, поскольку владельцы веб-сайтов могут легко манипулировать его содержимым для саморекламы. Исследование SE Ranking, проанализировавшее 300 000 веб-сайтов, показало, что использование файла llms.txt на самом деле не увеличивает частоту упоминания веб-сайта при генерации ответов моделями ИИ.

Предыдущие обсуждения были сосредоточены на том, как пользователи могут манипулировать данными. Однако Роберт Мюллер недавно отметил, что сами данные не содержат каких-либо функций, которые могли бы помочь ИИ выбрать один веб-сайт как более заслуживающий доверия, чем другой.

Почему это важно

Опасения по поводу LLM в играх всегда встречались с идеей о том, что платформы могут адаптироваться для предотвращения нечестной игры, подобно тому, как поисковые системы борются со спамом, распознавая и наказывая искусственные шаблоны данных.

Хорошо, значит просто блокировка манипулятивных тактик не решает основную проблему. Даже если мы можем наказывать тех, кто пытается обойти систему, это не объясняет *как* предоставление списка предпочтительных источников фактически влияет на LLM, заставляя его отдавать предпочтение одному веб-сайту над другим. Честно говоря, даже самый тщательно подобранный файл ‘llms.txt’ не может напрямую *сказать* LLM приоритизировать мой сайт над сайтом конкурента – это просто не работает так.

Заглядывая вперёд

Джон Мюллер из Google отметил, что пока не существует стандартного способа для поисковых ботов обходить веб-сайты. Он упомянул формат WebMCP как один из нескольких рассматриваемых вариантов.

Пока что ни один формат не выделился как лидер. Он считает, что этим новым ‘агентным’ системам потребуется от шести месяцев до года и более, чтобы прийти к стандартному способу совместной работы. Это не включает в себя существующие веб-страницы и их ссылки, которые уже хорошо функционируют.

Смотрите также

2026-06-15 19:46