Google может расширить список не поддерживаемых правил Robots.txt.

Google может добавить в свой список правил robots.txt, которые он не поддерживает, используя данные с реальных веб-сайтов, собранных HTTP Archive, чтобы определить, какие правила вызывают проблемы.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

В последнем эпизоде Search Off the Record, Gary Illyes и Martin Splitt обсудили проект, который начался, когда кто-то предложил добавить два новых тега в файл robots.txt от Google. Это предложение поступило в виде вклада в репозиторий кода Google.

Illyes объяснил, почему команда расширила область применения за пределы двух тегов в PR:

«Мы старались не делать вещи произвольно, а скорее собирать данные.»

Вместо того, чтобы просто добавить два предложенных тега, команда решила изучить 10-15 наиболее часто используемых правил, которые еще не поддерживались. По словам Ильиса, это обеспечило бы хорошую первоначальную основу для документирования наиболее распространенных неподдерживаемых тегов, которые они видели.

Как проводилось исследование

Команда проанализировала файлы robots.txt с веб-сайтов, используя данные из HTTP Archive. HTTP Archive регулярно сканирует миллионы веб-страниц с помощью WebPageTest и сохраняет результаты в Google BigQuery.

Первоначальные усилия не принесли ожидаемых результатов. Команда поняла, что файлы robots.txt обычно не запрашиваются во время стандартных обходов веб-сайтов, поэтому они обычно не включаются в данные HTTP Archive.

После обсуждений с Барри Полардом и сообществом HTTP Archive наша команда создала специальный JavaScript-инструмент для чтения файлов robots.txt построчно. Этот новый инструмент был добавлен в нашу систему перед сбором данных в феврале, и полученная информация теперь доступна в наборе данных custom_metrics в BigQuery.

Что показывают данные

Парсер идентифицировал все строки, следующие формату ‘поле: значение’. Ильес затем объяснил, как эти строки были распределены.

«После разрешений и запретов, а также учёта пользовательского агента, падение происходит чрезвычайно резко.»

Как SEO-специалист, я обнаружил, что после обработки основных правил вы часто сталкиваетесь с огромным разнообразием менее используемых директив. И честно говоря, большая часть того, что поступает, — это просто плохие данные — поврежденные файлы, отправляющие HTML, когда мне нужен обычный текст, что всё нарушает. Это длинный хвост из беспорядка, выходящий за рамки основ.

Файл robots.txt от Google в настоящее время распознает четыре команды: user-agent, allow, disallow и sitemap. В то время как официальная документация утверждает, что другие команды не поддерживаются, она не указывает, какие из них люди обычно пытаются использовать, но они не работают.

Google подтвердил, что просто игнорирует любые поля данных, которые он не поддерживает. Этот проект основывается на этом, выясняя точные правила, которые Google официально опубликует в отношении этих полей.

Google планирует добавить от 10 до 15 наиболее часто используемых правил – сверх уже поддерживаемых четырёх – в свой список правил, которые он не поддерживает. Джон Мюллер (Ильез) из Google не уточнил, какие правила будут добавлены.

Повышение толерантности к опечаткам может расшириться.

Illyes сказал, что анализ также выявил распространенные ошибки в написании правила disallow:

«Я, вероятно, собираюсь расширить список опечаток, которые мы принимаем.»

То, как он говорил, позволяет предположить, что поисковая система уже может обрабатывать некоторые орфографические ошибки. Однако, Illyes не сказал, когда это произойдет, или привел примеры, какие опечатки это будет охватывать.

Почему это важно

Пока Search Console отмечает некоторые недействительные команды в файлах robots.txt. Если Google начнет официально документировать больше этих неподдерживаемых команд, его справочные статьи лучше будут соответствовать тому, что пользователи фактически видят в Search Console.

Заглядывая в будущее

Google обновляет свою публичную документацию и способ обработки ошибок в файлах robots.txt. Если вы управляете файлом robots.txt с правилами сложнее, чем базовые user-agent, allow, disallow и sitemap инструкции, вам следует проверить наличие каких-либо директив, которые Google не распознает.

Как человек, работавший с веб-производительностью в течение многих лет, могу сказать вам, что фантастические данные, собранные HTTP Archive, находятся в открытом доступе для всех желающих, чтобы изучить их напрямую через Google BigQuery. Это действительно мощный способ изучить, как устроен веб и как он работает.

Смотрите также

2026-04-23 20:10