Вам не нужен файл robots.txt в корневом домене, говорит Google через @sejournal, @MattGSouthern

Как опытный эксперт по SEO с более чем десятилетним опытом работы, я своими глазами видел эволюцию веб-стандартов и лучших практик. Недавнее открытие аналитика Google Гэри Иллиеса о гибкости размещения файлов robots.txt является интригующим событием, которое бросает вызов давним убеждениям.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

В недавнем сообщении на LinkedIn аналитик Google Гэри Иллес оспорил общепринятое мнение о местонахождении файлов robots.txt.

Уже давно считается, что файл robots.txt веб-сайта должен располагаться в корневом каталоге, например example.com/robots.txt.

Иллиес объяснил, что строгое соблюдение протокола исключения роботов (REP) не всегда необходимо. Он также поделился менее известной подробностью о REP.

Гибкость файла robots.txt

Файл robots.txt не обязательно должен находиться в корневом домене (example.com/robots.txt).

Иллиес предполагает, что допустимо иметь два отдельных файла robots.txt, расположенные в разных доменах: один на главном веб-сайте, а другой в сети доставки контента (CDN).

Иллиес предполагает, что веб-сайты могут централизованно управлять своими файлами robots.txt в сети доставки контента (CDN), сохраняя при этом контроль над сканированием своего основного сайта.

Как специалист по цифровому маркетингу, я часто сталкиваюсь с ситуациями, когда на веб-сайте имеется несколько файлов robots.txt. Например, в вашем примере есть два таких файла: один расположен по адресу , а другой по адресу . Чтобы уточнить, эти файлы содержат инструкции для веб-сканеров о том, к каким частям веб-сайта им разрешен доступ и индексирование. Наличие нескольких файлов robots.txt может привести к противоречивым инструкциям по сканированию для поисковых систем, что потенциально может повлиять на эффективность SEO вашего сайта. Обычно во избежание путаницы рекомендуется иметь один окончательный файл robots.txt в корневом каталоге вашего веб-сайта.

С помощью этого метода вы можете управлять унифицированным и всеобъемлющим файлом robots.txt в своей CDN (сети доставки контента) и вместо этого автоматически перенаправлять запросы роботов с вашего основного домена в этот основной файл.

https://www.linkedin.com/watch?v=feed/update/urn:li:share:7214278388029534209

Как эксперт по SEO, я бы перефразировал заметку Иллиеса следующим образом: при сканировании веб-сайта я гарантирую, что роботы поисковых систем соблюдают рекомендации, изложенные в RFC 9309. Эти боты будут следовать любым перенаправлениям и рассматривать целевой файл как robotxxt. файл для исходного домена.

Оглядываясь назад на 30 лет существования Robots.txt

В этом году исполняется 30 лет со дня принятия Протокола исключения роботов. Это событие подчеркивает продолжающуюся эволюцию веб-стандартов, о чем свидетельствует недавнее заявление Иллиеса.

Он поднимает вопрос, следует ли называть файл «robots.txt», подразумевая потенциальные изменения в подходе к выдаче инструкций по сканированию.

Как это может вам помочь

Следование указаниям Иллиеса может помочь вам в следующем:

Централизованное управление. Объединив правила файла robots.txt в одном месте, вы можете поддерживать и обновлять директивы сканирования по всему своему веб-сайту.
Улучшенная согласованность: единый источник достоверных данных для правил robots.txt снижает риск конфликта директив между вашим основным сайтом и CDN.
Гибкость. Этот подход позволяет создавать более адаптируемые конфигурации, особенно для сайтов со сложной архитектурой или тех, которые используют несколько поддоменов и CDN.

Эффективное управление файлами robots.txt посредством упрощенного процесса может значительно улучшить администрирование веб-сайтов и инициативы по поисковой оптимизации (SEO).

Смотрите также

2024-07-04 16:44