97% Файлов .txt Для LLM Не Получили Запросов, Показывают Данные Ahrefs.

Как цифровой маркетолог, я недавно увидел интересные данные от Ahrefs. Они изучили серверные логи более чем 137 000 веб-сайтов и обнаружили, что подавляющее большинство – 97% – файлов с именем ‘llms.txt‘ не посещались никем, ни ботами, ни реальными пользователями. Это довольно поразительная статистика и заставляет задуматься о том, зачем эти файлы вообще были созданы!

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Как цифровой маркетолог, я недавно изучил, сколько веб-сайтов внедряют файл ‘llms.txt’ – это способ для сайтов сообщить AI ботам о том, как они хотят быть просканированы. Используя данные из Ahrefs, мы обнаружили, что около 28% из 137 000 проанализированных доменов опубликовали его. Однако, поскольку Ahrefs в основном используется более технически подкованными пользователями, я подозреваю, что общая доля внедрения во всем интернете, вероятно, ниже.

Из примерно 38 000 доменов с действительными файлами трафик получили только около 1 100.

Почти все запросы на файлы – 96% – поступали от автоматизированных программ, но большинство из них не работали на основе искусственного интеллекта. Только 1% запросов поступали от поисковых ботов на базе ИИ, таких как ChatGPT и Perplexity.

Кто получает файлы llms.txt?

Как цифровой маркетолог, я изучал данные о трафике нашего веб-сайта. Особенно заметно, что около 21% запросов поступило от людей, использующих инструменты SEO-аудита. Мы также наблюдаем значительную активность – 14% – от ботов, которые мы пока не идентифицировали. Googlebot и другие веб-краулеры составляют около 13%, а инструменты, такие как BuiltWith, которые анализируют технологии веб-сайта, составляют еще 11%. Важно понимать эти различные типы посетителей, чтобы эффективно оптимизировать наш сайт.

Запросы к ИИ-ботам составили 19% от общего числа, распределенные по четырем различным типам. Хотя ИИ представляет собой самую большую часть запросов, конкретная разбивка не совсем соответствует тому, что ожидали многие энтузиасты ИИ.

https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text

Кодирующие агенты обработали 10% всех запросов, в то время как обучение краулеров составило 5%, а помощники – 2%. Claude-Code и GPTBot были самыми активными ботами.

Slackbot самостоятельно загружал файлы llms.txt чаще, чем PerplexityBot.

Индустрия, изучающая саму себя.

Отчёт показал, что 12% запросов поступали от инструментов, которые просматривали или анализировали файл llms.txt вместо его фактического использования.

Инструменты, предназначенные для GEO и AEO, обработали 5% всех запросов, в то время как специализированные сканеры и инструменты проверки составили ещё 3%. Это больше, чем суммарный трафик от поисковых ботов и помощников на основе ИИ. Исследовательские боты составили 2% запросов, причём значительная часть была идентифицирована как часть исследования по внедрению запросов (prompt injection study).

Прежде чем многие люди начнут использовать новый тип файла, обычно вырастает система оценки и организации этого файла.

Ни один AI-бот не ищет файлы, которых не существует.

Когда пользователи пытались перейти по неработающим ссылкам (/llms.txt) и получали сообщения об ошибках, это не вызывало никакой активности со стороны AI ботов. Вместо этого эти ошибки, вероятно, были вызваны людьми, вручную вводящими веб-адрес в свои браузеры, возможно, чтобы посмотреть, чем занимаются наши конкуренты.

Недавний аудит Chrome Lighthouse файла ‘llms.txt’ – тема, вызвавшая обсуждение еще в мае – показал, что около 22 из каждых 1 000 запросов во всем наборе данных были связаны с ним.

Почему это важно

Недавние данные подтверждают то, что Джон Мюллер из Google говорит уже более года относительно файла llms.txt. Лили Рей спросила Мюллера о разнице между тем, что Google Search не использует этот файл, а аудит Lighthouse в Chrome его распознаёт. Он объяснил, что llms.txt не предназначен для использования с Google Search и описал его как краткосрочное решение, возможно, чтобы снизить затраты для инструментов кодирования AI.

Данные указывают на то, что этот файл используется людьми, которые пишут код и системы, обучающиеся на данных, а не инструментами, предназначенными для поиска и цитирования информации.

Как SEO-эксперт, я внимательно слежу за изменениями в Google. Еще в мае мы заметили, что Google отделил документацию Search и Lighthouse. Мы также изучали влияние файла llms.txt. Наша команда из SE Ranking проанализировала 300 000 веб-сайтов и не обнаружила связи между наличием этого файла и частотой цитирования источников ИИ. Данные Ahrefs проливают свет на причину: похоже, что боты, *использующие* данные ИИ в режиме реального времени, даже не запрашивали эти файлы llms.txt в мае.

Заглядывая в будущее

Важно знать о потенциальной проблеме безопасности под названием prompt injection. Ahrefs обнаружили веб-краулер, исследующий файлы ‘llms.txt’, которые могут быть использованы для эксплуатации, поскольку системы искусственного интеллекта часто доверяют информации, которую они находят в интернете. Веб-сайты, автоматически создающие эти файлы с помощью систем управления контентом, должны проверять генерируемый контент, чтобы убедиться в его безопасности.

Все числа, представленные в этом отчете, представляют собой максимальные потенциальные значения. Ahrefs отслеживал, как часто запрашивались страницы, но не проверял, использовали ли поисковые роботы полученную ими информацию.

Смотрите также

2026-06-16 07:10