Спросите SEO-специалиста: Могут ли системы искусственного интеллекта и большие языковые модели (LLM) обрабатывать JavaScript для чтения «скрытого» контента?

Для этого еженедельного Ask An SEO читатель спросил:

Как поисковые системы на базе искусственного интеллекта обрабатывают контент, который появляется с помощью JavaScript или скрыт до взаимодействия пользователя со страницей, по сравнению с тем, как работала традиционная поисковая система Google? И какие технические шаги могут предпринять специалисты по SEO, чтобы убедиться, что поисковые системы все еще могут находить и понимать всю важную информацию на веб-странице?

Рад, что спросили! Хотя сейчас много говорят о создании контента, ‘удобного для LLM’, основная проблема на самом деле довольно техническая: обеспечение возможности для больших языковых моделей находить и обрабатывать ваш контент в первую очередь.

В течение некоторого времени специалисты по SEO были довольны тем, насколько хорошо Googlebot мог получать доступ и отображать страницы, построенные с использованием большого количества JavaScript. Но новые AI-powered краулеры от Google могут это изменить.

Эта статья объясняет различия между двумя типами веб-краулеров и то, как убедиться, что весь важный контент ваших веб-страниц может быть найден обоими.

Как Googlebot отображает контент JavaScript?

Googlebot понимает JavaScript посредством трех ключевых шагов: сканирование, рендеринг и индексирование. Вот простое описание того, как работает каждый из них:

Crawling

Как цифровой маркетолог, я знаю, что Googlebot находит страницы в интернете и добавляет их в очередь обхода. Но попадание *в* очередь не гарантирует обход. Googlebot сначала проверяет, *разрешен* ли ему доступ к странице. Большая часть этого — проверка файла robots.txt — если я использовал правило ‘disallow’ для блокировки страницы, Googlebot будет это уважать и не будет её обходить.

Если Googlebot обнаруживает страницу, которую не следует сканировать, он пропустит её, даже не запрашивая её. Если страницу *можно* сканировать, Googlebot загрузит и обработает её содержимое.

Рендеринг

Пока страница загружается, бот получает исходный HTML-код – это то, что вы видите до загрузки каких-либо интерактивных элементов. По сути, это структура страницы, и она готова к обработке, как только бот получает к ней доступ.

После выполнения JavaScript, Googlebot видит полную веб-страницу, так же, как её отобразил бы браузер.

Индексирование

Google будет хранить подходящие веб-страницы и их информацию в своем поисковом индексе, что позволит им отображаться в качестве результатов при поиске.

Как Googlebot обрабатывает интерактивно скрытый контент?

Иногда веб-страницы изначально скрывают контент. Вам может потребоваться нажать на вкладки или развернуть разделы, чтобы увидеть всё доступное, например, дополнительные детали или информацию.

Googlebot, веб-краулер, используемый Google, не может взаимодействовать с веб-страницей так, как это может сделать человек – он не может нажимать на элементы или открывать разделы, которые скрыты до нажатия. По этой причине, крайне важно, чтобы вся важная информация на вашей странице была легко доступна для него.

Для достижения этого, информация должна присутствовать в исходном коде страницы при её первой загрузке. Вы можете изначально скрыть контент визуально на веб-странице, но его не следует удалять из базового кода.

Представьте, что контент вашего веб-сайта находится внутри запертого ящика. HTML — это сам контент, а JavaScript — ключ для его открытия. Если веб-краулер Google (Googlebot) должен открыть ящик, чтобы увидеть контент, он может столкнуться с задержкой. Но, если ваш сервер откроет ящик *перед* тем, как Googlebot запросит страницу, контент будет легко доступен, когда Googlebot получит к нему доступ.

Как повысить вероятность того, что Googlebot сможет прочитать ваш контент

Чтобы убедиться, что Google может легко прочитать контент вашего веб-сайта, важно, чтобы он был доступен без необходимости запуска JavaScript. Одно из решений — генерировать контент на стороне сервера.

Рендеринг на стороне сервера создает веб-страницы на сервере, а не в веб-браузере пользователя. Это означает, что сервер создает HTML-файл и отправляет его непосредственно пользователю (или поисковой системе), чтобы они могли увидеть контент немедленно, не дожидаясь загрузки JavaScript. По сути, сервер доставляет полностью сформированную страницу с готовыми HTML и CSS, в то время как браузер загружает любые необходимые JavaScript-файлы отдельно.

В отличие от клиентского рендеринга, где веб-браузерам необходимо загрузить и обработать код перед отображением контента, серверный рендеринг проще для сервера. Именно поэтому разработчики часто предпочитают его. Однако это может затруднить просмотр контента страницы поисковыми ботами, если они сначала не выполнят JavaScript.

Как LLM боты обрабатывают JavaScript?

Учитывая то, что мы теперь знаем о том, как Googlebot отображает JavaScript, чем это отличается от AI ботов?

Важно помнить, что, в отличие от Googlebot, не существует единого авторитета или стандарта для всех ботов, работающих на основе больших языковых моделей (LLM bots). У каждого бота разные возможности, поэтому то, что может один, не применимо ко всем.

Боты, используемые для создания информационных источников для больших языковых моделей, отличаются от ботов, которые ищут информацию в интернете и предоставляют актуальные результаты пользователям.

И боты Claude не обладают той же способностью, что и боты OpenAI.

Как цифровой маркетолог, когда я думаю о том, чтобы убедиться, что AI боты могут получить доступ к нашему контенту, я всегда сосредотачиваюсь сначала на самых базовых ботах. Если это работает для них, это сработает для всех остальных – нам нужно учитывать самый низкий общий знаменатель, чтобы обеспечить широкую доступность.

У нас не так много информации о том, как AI-чатботы обрабатывают JavaScript, потому что они не делятся этими данными публично, как это делает Google. Но некоторые исследователи проводят тесты, чтобы выяснить, как эти чатботы обрабатывают JavaScript-код.

Как цифровой маркетолог, я нашел расследование Vercel 2024 года о том, насколько хорошо большие языковые модели (LLM) боты обрабатывают JavaScript, действительно интересным. Они протестировали основных игроков – OpenAI, Anthropic, Meta, ByteDance и Perplexity – и обнаружили, что ни один из них не мог фактически *отрендерить* JavaScript. Удивительно, но только Gemini (используя существующую веб-технологию сканирования Google), Applebot и CCbot от CommonCrawl смогли справиться с этим. Это имеет большие последствия для того, как мы думаем о SEO и видимости контента с помощью AI!

Гленн Гейб недавно подтвердил исследование Vercel, тщательно протестировав, как ChatGPT, Perplexity и Claude обрабатывают JavaScript. Он также объясняет, как вы можете протестировать свой собственный веб-сайт, чтобы увидеть, как эти AI-модели интерпретируют его контент.

Эти боты представляют собой некоторых из крупнейших игроков в области ИИ, подкрепленных значительными инвестициями. Если у них возникают проблемы с JavaScript, вероятно, что более мелкие или специализированные боты сталкиваются с аналогичными проблемами.

Как ИИ-боты обрабатывают интерактивно скрытый контент?

Честно говоря, не всегда всё идёт гладко с почтовыми клиентами и интерактивным контентом. Если элемент полагается на JavaScript для функционирования – такие вещи, как опросы, викторины или анимированные элементы – некоторые почтовые программы просто не могут с этим справиться и не отображают его правильно. Это распространённая проблема, с которой мы сталкиваемся как digital-маркетологи.

Чтобы помочь ботам получить доступ ко всему контенту на странице, убедитесь, что всё – даже контент, скрытый во вкладках или аккордеонах – полностью загружено в коде страницы без необходимости запуска какого-либо JavaScript. Таким образом, боты смогут увидеть всё, не нуждаясь во взаимодействии со страницей, как это сделал бы человеческий посетитель.

Как проверить проблемы с рендерингом JavaScript

Есть два очень простых способа проверить, может ли Googlebot отобразить весь контент на вашей странице:

Проверьте DOM через инструменты разработчика.

Когда браузер загружает веб-страницу, он считывает HTML и преобразует его в семейное дерево (DOM).

Как это проверить

Я проведу вас через это, используя Инструменты разработчика Chrome в качестве примера.

Чтобы увидеть код, из которого состоит веб-страница, можно использовать свой веб-браузер. В Chrome просто щелкните правой кнопкой мыши по странице и выберите ‘Inspect’. Затем выберите вкладку ‘Elements’, чтобы просмотреть код.

Вы можете проверить, виден ли контент вашей веб-страницы без запуска JavaScript, выполнив поиск здесь. Если контент появляется сразу при загрузке страницы – до любого взаимодействия – вероятно, он виден Google и другим ботам, таким как те, которые используются для больших языковых моделей.

Используйте Google Search Console

Чтобы проверить, виден ли контент конкретно Googlebot, вы можете использовать Google Search Console.

Чтобы протестировать страницу, сначала вставьте её URL в поле ‘Inspect any URL’. Это перенаправит вас на страницу, где вы можете выбрать ‘Test live URL’. После тестирования вы увидите другой экран с возможностью ‘View tested page’.

Как проверить, видит ли LLM-бот ваш контент

Согласно тестам, проведенным Гленном Гейбом, вы можете спросить большие языковые модели (LLMs), могут ли они получить доступ к контенту веб-страницы. Например, вы можете попросить их прочитать статью, и они сообщат вам, если не могут, часто объясняя, что это связано с JavaScript на странице.

Что это значит для вашего веб-сайта?

Googlebot, веб-краулер Google, со временем стал очень умелым в работе с JavaScript. Однако, крайне важно помнить, что новые AI-боты (LLM боты) не работают как Googlebot. Они не предназначены для обхода и отображения веб-сайтов таким же образом, и вы не должны этого от них ожидать. Неверно думать, что они менее способны – они просто созданы для разных целей и функционируют принципиально иначе.

Чтобы обеспечить высокую позицию вашего сайта в поисковой выдаче Google и облегчить его понимание для AI-ботов, убедитесь, что весь важный контент полностью загружается при первой загрузке страницы. В частности, проверьте статический HTML вашего сайта, чтобы убедиться, что контент легко доступен.

Смотрите также

2026-01-08 16:11

Почему видимость вашего малого бизнеса в Google в 2026 году зависит от AEO [Webinar]

ИИ-помощники решают, какие местные предприятия будут рекомендованы

В 2026 году локальная видимость в поисковой выдаче больше не определяется только традиционными позициями в поисковой выдаче.

Всё чаще и чаще, ИИ-помощники определяют, какие местные предприятия видят люди при поиске рекомендаций – например, к кому обратиться за услугой, записаться на приём или доверить свои потребности.

Инструменты искусственного интеллекта, такие как Google Gemini, ChatGPT и Siri, влияют на выбор и затрудняют привлечение внимания для многих малых предприятий.

Как digital-маркетолог, я наблюдаю огромный сдвиг в том, как люди совершают покупки. Все чаще решения покупателей формируются под влиянием AI-powered поиска *до того*, как они попадают на наши сайты. Это происходит прямо в результатах поиска, и это то, на что нам нужно обратить внимание!

Как SEO-эксперт, я вижу огромный сдвиг в том, как люди осуществляют поиск. Речь больше не идет о предоставлении им списка вариантов. Вместо этого они обращаются к поисковым системам, ожидая *одной* четкой рекомендации. Это означает, что оптимизация для featured snippets и прямых ответов становится важнее, чем когда-либо – нам нужно позиционировать наш контент как *единственное* решение, а не просто *одно из* решений.

Многие малые предприятия не отображаются в результатах поиска с использованием искусственного интеллекта, потому что информация в их Google Business Profile либо не содержит всех деталей, содержит противоречивую информацию, либо не отформатирована таким образом, чтобы ИИ мог её легко понять. Это приводит к меньшему количеству звонков от клиентов, потерянным встречам и, в конечном итоге, к меньшему заработку.

Присоединяйтесь к Раджу Мадхавни, соучредителю Alpha SEO Pros в Thryv, для предстоящего вебинара, где он обсудит, как AI-помощники ранжируют локальный бизнес. Он расскажет об основных факторах, влияющих на рекомендации, распространенных ошибках, которые совершают компании и наносят ущерб их рейтингу, и о шагах, которые необходимо предпринять для повышения видимости к 2026 году.

Что Вы Узнаете

  • Как реализовать AEO для повышения видимости местного бизнеса
  • Сигналы ранжирования, которые ИИ-помощники используют для выбора местных предприятий
  • Практическая дорожная карта для повышения видимости, доверия и конверсий благодаря ИИ в 2026 году.

Save Your Spot

Почему стоит посетить?

Этот вебинар поможет владельцам малого бизнеса и маркетологам понять, как добиться успеха в локальном поиске в эпоху ИИ. Вы узнаете практические шаги по улучшению вашей онлайн-видимости, укреплению доверия клиентов и увеличению шансов стать тем бизнесом, который ИИ-помощники предлагают потенциальным клиентам.

Зарегистрируйтесь сейчас, чтобы подготовить свой бизнес к локальному AI-поиску в 2026 году.

🛑 Не можете присутствовать в прямом эфире? Зарегистрируйтесь в любом случае, и мы отправим вам запись после сессии.

Save Your Spot

Смотрите также

2026-01-08 09:09

Большинство крупных новостных издателей блокируют ботов для обучения и извлечения данных ИИ.

Многие ведущие новостные организации используют файл с именем robots.txt, чтобы предотвратить использование их контента искусственным интеллектом для обучения. Однако, этот же файл также блокирует AI-ботов, которые находят и обобщают информацию с веб-сайтов, что означает, что эти сайты не будут отображаться в результатах поиска или ответах на основе искусственного интеллекта.

BuzzStream проанализировал файлы robots.txt со 100 ведущих новостных веб-сайтов в США и Великобритании. Они обнаружили, что 79% этих сайтов блокируют по крайней мере одного бота, используемого для обучения ИИ. Еще более значимо, что 71% блокируют ботов, которые приводят в действие поисковые системы и предоставляют результаты поиска в режиме реального времени.

Что показывают данные

BuzzStream проанализировал 50 самых популярных новостных веб-сайтов на каждом рынке, используя данные из SimilarWeb, и удалил все дубликаты. Их исследование классифицировало ботов на три типа: те, которые используются для обучения, те, которые используются для поиска в реальном времени, и те, которые используются для индексации контента.

Блоки обучения бота

Когда дело касается ботов, используемых для обучения моделей ИИ, CCBot, от Common Crawl, был заблокирован наиболее часто, в 75% случаев попыток блокировки. За ним последовали Anthropic-ai (72%), ClaudeBot (69%) и GPTBot (62%).

Как SEO-эксперт, я отслеживаю, как различные AI-боты получают доступ к опубликованному контенту и используют его. То, что я обнаружил, заключается в том, что Google-Extended, система, лежащая в основе Gemini, сталкивается с наименьшим количеством ограничений – он был заблокирован только на 46% сайтов в целом. Интересно, что американские издатели гораздо охотнее его блокируют – около 58% делают это – почти вдвое больше, чем 29% показатель блокировки, который мы видим у издателей из Великобритании. Эта разница в доступе может иметь значительные последствия для того, как Gemini учится и работает в разных регионах.

Гарри Кларксон-Беннетт, директор по SEO в The Telegraph, рассказал BuzzStream:

Издатели предотвращают доступ AI-ботов к своему контенту с помощью файла robots.txt, потому что не видят в этом никакой пользы. Большие языковые модели не предназначены для привлечения трафика на веб-сайты, и издатели по-прежнему полагаются на этот трафик, чтобы оставаться на плаву.

Блоки Retrieval Bot

Исследование показало, что 71% сайтов блокируют как минимум одного бота для извлечения данных или живого поиска.

Больше веб-сайтов блокируют Claude-Web (66%), чем поискового бота OpenAI для ChatGPT (49%). Пользователи ChatGPT заблокированы на 40% сайтов.

Perplexity-User, который обрабатывает запросы на извлечение, инициированные пользователем, был заблокирован в наименьшей степени – 17%.

Индексация блоков

Большинство веб-сайтов – 67% из них – заблокировали PerplexityBot, инструмент, который Perplexity использует для сбора информации для своих результатов поиска.

Только 14% сайтов заблокировали всех AI ботов, отслеженных в исследовании, в то время как 18% не заблокировали ни одного.

Пробел в обеспечении соблюдения

Исследование признает, что robots.txt — это директива, а не барьер, и боты могут ее игнорировать.

Мы ранее обсуждали, как Гэри Ильес из Google объяснил, что файл robots.txt на самом деле не *блокирует* доступ к вашему сайту – он просто *запрашивает*, чтобы поисковые системы не индексировали определенные страницы. Рассматривайте это как предложение, а не меру безопасности.

Кларксон-Беннет поднял тот же вопрос в отчете BuzzStream’s:

Файл robots.txt — это запрос, вроде знака «не входить» для веб-роботов. Однако, это не надёжный барьер — некоторые роботы будут игнорировать его, либо по ошибке, либо намеренно.

Cloudflare сообщила, что Perplexity тайно получал доступ к веб-сайтам, несмотря на правила, предназначенные для предотвращения этого. Они делали это, постоянно меняя интернет-адреса, которые использовали, маскируя свою сетевую идентичность и притворяясь обычным веб-браузером.

Cloudflare удалил Perplexity из своего списка проверенных ботов и теперь блокирует к нему доступ. Perplexity не согласен с обоснованием Cloudflare и опубликовал публичное заявление.

Если издатели действительно хотят предотвратить сбор их контента ИИ, им, возможно, потребуется выйти за рамки простого использования файла robots.txt и рассмотреть такие методы, как блокировка на уровне сети доставки контента (CDN) или использование отпечатков ботов.

Почему это важно

OpenAI использует различные веб-краулеры для конкретных задач. GPTBot собирает информацию для улучшения своих моделей, а OAI-SearchBot предоставляет результаты для функции поиска ChatGPT. Блокировка одного краулера не повлияет на другой. Perplexity работает аналогично: PerplexityBot используется для индексации веб-страниц, а Perplexity-User – для предоставления результатов поиска.

Шаблон расширенной блокировки Google – это то, за чем стоит следить. Американские издатели блокируют его почти в два раза чаще, чем издатели в Великобритании. Неясно, связано ли это различие с разными оценками скорости роста Gemini или просто с разными деловыми отношениями с Google.

Взгляд в будущее

Хотя файл robots.txt может использоваться для управления веб-сканерами, у него есть ограничения. Для веб-сайтов, стремящихся надёжно блокировать AI-ботов, использование ограничений на уровне сети доставки контента (CDN) часто является лучшим решением, чем полагаться только на robots.txt.

Недавний анализ Cloudflare веб-трафика показал, что GPTBot, ClaudeBot и CCBot блокировались чаще всего на популярных веб-сайтах. В отчёте также показано, что в то время как многие издатели ограничивают доступ для Googlebot и Bingbot, они редко блокируют их полностью, вероятно, потому что краулер Google используется как для результатов поиска, так и для обучения AI моделей.

Если вам интересно, как ИИ находит и использует информацию, обратите внимание на ботов поиска. В то время как обучающие данные формируют то, чему ИИ *учится* в будущем, боты поиска определяют, какой контент ИИ извлекает *прямо сейчас* при ответе на вопросы.

Смотрите также

2026-01-08 04:10

Джон Мюллер из Google высказался по поводу дебатов SEO против GEO.

Джон Мюллер, представитель Google по вопросам поиска, предполагает, что компаниям, получающим трафик с других веб-сайтов, следует рассмотреть, как инструменты искусственного интеллекта могут им помочь.

Рэнд Фишкин (Мюллер) ответил на вопрос в Reddit о том, достаточно ли сегодня традиционного SEO. В вопросе спрашивалось, должны ли SEO-специалисты также уделять внимание ‘GEO’ – оптимизации контента для видимости в поисковых инструментах на основе ИИ, таких как ChatGPT, Gemini и Perplexity.

По словам Мюллера, если ваш онлайн-бизнес зависит от трафика с других веб-сайтов для получения дохода, важно учитывать все факторы и сосредоточиться на самом важном.

Что сказал Мюллер

Мюллер не согласился и не отверг идею использования ГЕО-терминов. Вместо этого он обсудил это как вопрос принятия разумных бизнес-решений, а не поиска лучших способов технического улучшения.

Он объяснил, что конкретный термин не важен, но искусственный интеллект здесь навсегда. Стоит рассмотреть, какую ценность предлагает ваш веб-сайт, когда искусственный интеллект легко доступен.

Он также не согласился с идеей о том, что отслеживание действий ИИ всегда должно быть главной заботой. Вместо этого, Мюллер посоветовал людям, работающим с ИИ, начать с изучения собственных данных.

Мюллер добавил:

Также важно быть практичным и проверять реальные данные о том, как люди на самом деле используют вещи. Поймите, кто ваша аудитория – сколько людей используют AI, сколько на Facebook, и что это говорит вам о том, куда направлять свои усилия.

Почему это важно

За последний год обсуждения ‘GEO’ – оптимизации для географических сигналов – стали более распространенными, особенно с тех пор, как поисковые системы на базе искусственного интеллекта начали приводить к заметному трафику на веб-сайты. Я изучил данные о том, как цитирования, веб-трафик и рейтинги Google соотносятся с тем, как большие языковые модели (LLMs) цитируют источники. Однако мы до сих пор не получили однозначного ответа от Google: является ли GEO уникальной областью изучения или просто новой версией традиционной поисковой оптимизации (SEO)?

То, что Джон Мюллер из Google недавно объяснил, соответствует тому, что Гэри Ильес обсуждал на Search Central Live: функции на базе искусственного интеллекта и традиционный поиск фактически используют одну и ту же базовую технологию. Это означает, что вам, вероятно, не нужна совершенно новая стратегия, но *действительно* важно понимать, как меняется способ, которым люди находят информацию в сети.

Я особенно ценю его акцент на проверке собственных данных. Прямо сейчас ChatGPT отправляет около 0.19% трафика на средний веб-сайт, а все вместе AI-помощники составляют менее 1% для большинства издателей. Хотя эти цифры растут, они еще недостаточно значительны, чтобы требовать полной переработки вашего подхода.

Заглядывая в будущее

Даже если Google изменит свой подход, термин ‘GEO’, вероятно, останется с нами. В конечном счете, Джон Мюллер из Google предполагает, что каждый бизнес должен отслеживать, как ведет себя его аудитория.

Смотрите также

2026-01-07 19:39

Google’s Mueller Explains ‘Page Indexed Without Content’ Error

Джон Мюллер из Google объяснил, что ошибка «Страница проиндексирована без контента» в Search Console обычно возникает из-за того, что серверы или CDN блокируют Google, а не из-за проблем с JavaScript.

Один пользователь Reddit заметил, что главная страница его веб-сайта опустилась из топ-позиции в результатах поиска (позиция 1) на позицию 15 после возникновения ошибки.

Что происходит?

Роберт Мюллер объяснил, почему люди иногда видят ошибку «Страница проиндексирована без контента» в Google Search Console.

Мюллер написал:

Как правило, эта проблема означает, что ваш сервер или сеть доставки контента (CDN) препятствует доступу Google к контенту вашего веб-сайта. Это не проблема с кодом вашего веб-сайта, а скорее блокировка на уровне сервера, часто основанная на IP-адресе веб-краулера Google (Googlebot). По этой причине сложно протестировать эту проблему, кроме как с помощью инструментов, доступных в Google Search Console.

Пользователь Reddit уже попробовал несколько шагов по устранению неполадок. Они использовали curl, чтобы посмотреть, как Google видит страницу, проверили, не вызывает ли JavaScript проблем, и использовали Rich Results Test от Google. При проверке страницы на настольном компьютере с помощью инструментов проверки они получили сообщения об ошибках, но те же инструменты работали нормально на мобильных устройствах.

Мюллер отметил, что стандартные методы внешнего тестирования не позволят обнаружить эти блоки.

Он добавил:

Это означает, что страницы вашего сайта могут скоро исчезнуть из результатов поиска, или уже исчезли. Важно быстро решить эту проблему.

Веб-сайт построен на Webflow и использует Cloudflare для доставки контента. Пользователь сообщил, что ранее главная страница правильно индексировалась в поисковых системах и что не было никаких недавних обновлений сайта.

Почему это важно

Я видел эту проблему много раз раньше. Иногда настройки веб-сайта для сетей доставки контента (CDNs) или серверов случайно блокируют веб-краулер Google (Googlebot), не вызывая проблем для обычных посетителей или типичных тестов веб-сайта. Это часто происходит потому, что блокировки нацелены на конкретные интернет-адреса, поэтому такие инструменты, как `curl` и другие проверки веб-сайтов, не обнаружат проблему.

Я ранее объяснял, когда Google начал показывать ‘проиндексировано без контента’ в отчете об охвате индекса. Документация Google тогда утверждала, что это означает, что Google не может получить доступ к тексту страницы, и уточнил, что это не связано с файлом robots.txt, блокирующим доступ. Обычно проблема заключается в более технической проблеме на самом веб-сайте.

Я заметил кое-что интересное с Cloudflare. Ранее я освещал похожую ситуацию, когда Джон Мюллер из Google помог владельцу сайта, сайты которого одновременно перестали индексироваться на нескольких доменах. Все пострадавшие сайты использовали Cloudflare, и Мюллер подозревал проблему с их общей серверной настройкой. Эта новая ситуация, кажется, следует тому же шаблону.

Недавно я сообщал о сбое Cloudflare в ноябре, который вызвал ошибки при попытке Google просканировать веб-сайты. Это была масштабная проблема, затронувшая множество сайтов. Эта текущая проблема кажется другой – вероятно, это мера безопасности, такая как фильтр ботов или брандмауэр, которая конкретно влияет на веб-сканер Google (Googlebot) и обрабатывает его трафик по-другому.

Лучшие способы узнать, заблокирован ли доступ Google к вашему сайту, по-прежнему остаются инструментом проверки URL и тестом Live URL в Search Console. Если эти инструменты показывают ошибки, но другие тесты не показывают, вероятно, ваш сервер блокирует Google. Джон Мюллер из Google недавно отметил это, обсуждая внезапное снижение скорости, с которой Google сканирует сайт, и посоветовал владельцам веб-сайтов подтвердить, что произошло, и проверить, блокирует ли сеть доставки контента (CDN) Googlebot.

Заглядывая в будущее

Если вы получаете ошибку «Страница проиндексирована без контента», проблема может заключаться в настройке вашего CDN и сервера. Проверьте свои правила безопасности, чтобы убедиться, что они не блокируют веб-краулеры Google. Google предоставляет список IP-адресов, используемых его краулерами, чтобы вы могли проверить, не блокируете ли вы их случайно.

Инструмент проверки URL в Google Search Console – лучший способ понять, как Google видит ваши страницы при их обходе. Другие онлайн-инструменты не могут обнаружить блокировки, которые влияют только на системы Google.

Если вы являетесь пользователем Cloudflare, тщательно проверьте управление ботами, правила брандмауэра и любые ограничения, основанные на IP-адресах. Эти настройки могли быть автоматически обновлены или изменены на новые значения по умолчанию, даже если вы сами не вносили изменения.

Смотрите также

2026-01-07 19:42