Почему индексы Google блокируют веб-страницы

Почему индексы Google блокируют веб-страницы

Как опытный веб-мастер с более чем двадцатилетним опытом работы в цифровой среде, я видел свою долю причуд и особенностей Google. Недавний разговор между веб-разработчиком и Джоном Мюллером из Google относительно проиндексированных страниц, запрещенных файлом robots.txt, был весьма поучительным.


Джон Мюллер из Google ответил на вопрос о том, почему Google индексирует страницы, сканирование которых запрещено файлом robots.txt, и почему можно безопасно игнорировать соответствующие отчеты Search Console об этих сканированиях.

Трафик ботов для запроса URL-адресов параметров

Человек, задавший вопрос, документально подтвердил, что боты создавали ссылки на несуществующие URL-адреса параметров запроса (?q=xyz) на страницы с метатегами noindex, которые также заблокированы в robots.txt. Вопрос возник потому, что Google сканирует ссылки на эти страницы, блокируется файлом robots.txt (не видя метатега robots noindex), а затем в консоли поиска Google сообщается о том, что он «проиндексирован, хотя и заблокирован файлом robots.txt».

Однако возникает ключевой вопрос: если Google не может воспринимать содержимое страниц, почему он все равно индексирует эти страницы? Какую пользу может принести это действие?

оператор поиска, поскольку большинство обычных пользователей не столкнутся с этими результатами.

Абсолютно, вы в теме! Если страницу невозможно просканировать, на ней нельзя увидеть тег noindex. Поскольку мы не можем сканировать страницы, индексировать нам особо нечего. Хотя некоторые из этих страниц могут появиться при поиске по определенному сайту, большинство пользователей не увидят их напрямую. Поэтому я бы не стал слишком беспокоиться по этому поводу. Совершенно нормально использовать noindex без блока robots.txt, поскольку это просто означает, что URL-адреса будут сканироваться, но не индексироваться, что отображается в отчете Search Console как «просканировано/не проиндексировано». Эти статусы не влияют отрицательно на остальную часть сайта. Ключевым моментом является обеспечение того, чтобы такие страницы не были одновременно доступными для сканирования и индексации.

Выводы:

Работая специалистом по цифровому маркетингу, я пришел к выводу, что ответ Мюллера подчеркивает ограничения при использовании оператора расширенного поиска Site:search для устранения неполадок. Одним из таких ограничений является его отсоединение от стандартного поискового индекса, что делает его совершенно отдельным объектом.

Джон Мюллер из Google прокомментировал работу оператора поиска по сайту в 2021 году:

» поисковый запрос не предназначен для предоставления полных результатов или выполнения диагностических функций.

Запрос по сайту – это тип поиска, при котором результаты ограничиваются определенным веб-сайтом. По сути, это так же просто, как написать «сайт:», а затем доменное имя веб-сайта.

Этот поиск выдает результаты только с определенного сайта и не предназначен для охвата каждой страницы этого сайта.

2. Использование тега noindex вместо robots.txt подходит в случаях, когда бот указывает на несуществующие страницы, которые непреднамеренно индексируются Google.

3. Страницы с тегом «noindex» в URL-адресах будут отображаться в Search Console как «просканированные, но не проиндексированные», то есть они не будут отображаться в результатах поиска, и это не повлияет на общую производительность вашего веб-сайта.

Прочитайте вопрос и ответ на LinkedIn:

Зачем Google индексировать страницы, если они даже не видят контента?

Смотрите также

2024-09-06 12:38