Роботы WordPress .txt: Что нужно включить?

На многих сайтах WordPress работает незамеченный файл robots.txt, но его стандартные настройки довольно ограничены и не позволяют создавать специфические инструкции под конкретные нужды.

🔥 Общайся с лучшими!
Криптоклуб – сообщество для истинных криптоэнтузиастов!

Присоединиться в Telegram

Не нужно больше вступления — давайте сразу посмотрим, что еще можно включить для улучшения текста.

Где находится файл robots.txt в WordPress?

По соглашению, WordPress автоматически создает текстовый файл под названием «robots.txt». Вы можете получить доступ к этому файлу, перейдя по пути «/robots.txt» в вашей установке WordPress, например: [ваш-сайт.com]/robots.txt.

https://yoursite.com/robots.txt

Этот файл по умолчанию существует только в памяти и не представлен файлом на вашем сервере.

Как специалист по SEO, объясню вам простой способ использования кастомного файла robots.txt: Чтобы применить кастомный файл robots.txt для вашего сайта, просто загрузите его непосредственно в основную или корневую папку, где установлен ваш сайт. Это поможет вам контролировать доступ и индексацию страниц вашего сайта поисковыми системами.

У вас есть два способа добиться этого: 1. Использовать программное обеспечение FTP для непосредственного редактирования файла robots.txt. 2. Воспользоваться плагином вроде Yoast SEO, который предлагает инструменты, такие как File Editor, позволяющие управлять файлом robots.txt в административной панели WordPress.

По умолчанию в WordPress файлы robots.txt (И почему этого недостаточно)

Если вы не создаете файл robots.txt вручную, вывод WordPress по умолчанию выглядит следующим образом:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Пока это безопасно, но не оптимально. Давайте продвинемся дальше.

Всегда включайте свои карты сайта XML

Обязательно четко опишите все ваши карты сайта в формате XML, поскольку это помогает поисковым системам находить все соответствующие веб-страницы.

Sitemap: https://example.com/sitemap_index.xml
Sitemap: https://example.com/sitemap2.xml

Некоторые вещи, которые не стоит блокировать

Как эксперт по SEO, я бы посоветовал не пренебрегать важными каталогами в основе WordPress, такими как wp-includes, wp-content/plugins или wp-content/uploads. Пусть эти основные компоненты вашего сайта WordPress функционируют оптимально для поддержания производительности и безопасности.

Вот почему вам не стоит их блокировать:

  1. Google достаточно умный, чтобы игнорировать нерелевантные файлы. Блокировка CSS и JavaScript может негативно сказаться на читабельности страницы и вызвать проблемы с индексацией.
  2. Вы можете случайно заблокировать ценные изображения/видео и другие медиафайлы, особенно те, которые загружены из /wp-content/uploads/, где находятся все загруженные медиафайлы, которые вы безусловно хотите просканировать.

Вместо этого пусть поисковые боты извлекают CSS, JavaScript и изображения, необходимые им для правильного отображения.

Управление сценическими площадками

Для достижения наилучших результатов важно убедиться в том, что тестируемые или промежуточные сайты не индексируются поисковыми системами как по причинам SEO (поисковой оптимизации), так и для повышения общей безопасности сайта.

Я всегда советую запретить весь сайт.

Рекомендуется продолжать использовать мета-тег «noindex», а также для дополнительной уверенности рекомендовано предпринять дополнительную предосторожность, выполнив оба действия.

Чтобы предотвратить индексацию вашего сайта поисковыми системами, перейдите в раздел «Настройки > Чтение». Затем отметьте флажок, который называется «Запретить поисковым системам индексировать этот сайт». Это действие либо модифицирует файл robots.txt автоматически, либо даст возможность внести это изменение вручную самостоятельно.

User-agent: *
Disallow: /

Google может продолжать включать страницы в свои поисковые результаты, если находит ссылки на них из других мест (часто из-за обращений с рабочего сайта к промежуточной зоне во время неполной миграции веб-сайта).

Примечание: перед переходом на производство убедитесь, что еще раз проверили конфигурацию, чтобы отменить любые настройки, блокирующие индексирование или препятствующие его выполнению.

Удалите некоторые несущественные основные пути WordPress

Не все следует блокировать, но многие пути по умолчанию не добавляют ценности SEO, например:

Disallow: /trackback/
Disallow: /comments/feed/
Disallow: */feed/
Disallow: */embed/
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-json/

Запрет определенных параметров запроса

Иногда может быть полезно предотвратить доступ поисковых систем к URL-адресам, содержащим параметры запроса без особого значения, такие как идентификаторы отслеживания, ответы на комментарии или печатные варианты.

Вот пример:

User-agent: *
Disallow: /*?replytocom=
Disallow: /*?print=

Используя инструмент параметров URL в Google Search Console, вы можете отслеживать, как различные параметры влияют на индексацию сайта и определять необходимость добавления дополнительных исключений.

Запрет низкоценных таксономий и поисковых результатов

Если ваши страницы архива тегов или внутренних результатов поиска на вашем сайте WordPress не приносят никакой дополнительной пользы, вы также можете запретить их отображение.

User-agent: *
Disallow: /tag/
Disallow: /page/
Disallow: /?s=

Как обычно, взвесьте это против своей специфической стратегии контента.

Если вы включаете страницы таксономии тегов в ваш контент предназначенный для индексации и обхода веб-страниц поисковыми ботами, игнорируйте этот совет, но обычно они не предоставляют дополнительных преимуществ.

Кроме того, убедитесь, что структура внутренних ссылок поддерживает ваше решение и сводит к минимуму внутренние ссылки на разделы сайта, которые не предназначены для индексации или сканирования поисковыми системами.

Статистика ползания по монитору

Как только ваш файл robots.txt будет размещен, отслеживайте статистику сканирования через консоль поиска Google.

  • Используйте инструмент проверки URL, чтобы подтвердить, индексируется ли заблокированный URL или нет.
  • Проверьте карты сайта (sitemaps) и убедитесь, что они ссылаются только на те страницы, которые вы хотите индексировать поисковыми системами.

Кроме того, некоторые инструменты управления серверами, такие как Pleak, cPanel и Cloudflare, предлагают невероятно всесторонний анализ веб-трафика, превосходящий возможности, предоставляемые Google.

В завершение используйте переопределения конфигурации Screaming Frog чтобы имитировать изменения и повторно проверить параметры оптимизации сканирования Yoast SEO. Некоторые из этих настроек решают проблемы, упомянутые ранее.

Итоговое мнение

Несмотря на то что WordPress является отличным системой управления контентом, он не поставляется с предварительно настроенным оптимально структурированным файлом robots.txt или оптимизированным для поисковых роботов crawling.

Написав всего лишь небольшое количество кода и затратив менее получаса времени, вы можете защитить свой веб-сайт от ненужных запросов на обход страниц, которые не представляют никакой ценности. Это позволит существенно снизить затраты, а также может помочь предотвратить возможные проблемы масштабируемости в будущем.

Смотрите также

2025-04-30 12:39