Спросите SEO-специалиста: Могут ли системы искусственного интеллекта и большие языковые модели (LLM) обрабатывать JavaScript для чтения «скрытого» контента?

Для этого еженедельного Ask An SEO читатель спросил:

Как поисковые системы на базе искусственного интеллекта обрабатывают контент, который появляется с помощью JavaScript или скрыт до взаимодействия пользователя со страницей, по сравнению с тем, как работала традиционная поисковая система Google? И какие технические шаги могут предпринять специалисты по SEO, чтобы убедиться, что поисковые системы все еще могут находить и понимать всю важную информацию на веб-странице?

Рад, что спросили! Хотя сейчас много говорят о создании контента, ‘удобного для LLM’, основная проблема на самом деле довольно техническая: обеспечение возможности для больших языковых моделей находить и обрабатывать ваш контент в первую очередь.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

В течение некоторого времени специалисты по SEO были довольны тем, насколько хорошо Googlebot мог получать доступ и отображать страницы, построенные с использованием большого количества JavaScript. Но новые AI-powered краулеры от Google могут это изменить.

Эта статья объясняет различия между двумя типами веб-краулеров и то, как убедиться, что весь важный контент ваших веб-страниц может быть найден обоими.

Как Googlebot отображает контент JavaScript?

Googlebot понимает JavaScript посредством трех ключевых шагов: сканирование, рендеринг и индексирование. Вот простое описание того, как работает каждый из них:

Crawling

Как цифровой маркетолог, я знаю, что Googlebot находит страницы в интернете и добавляет их в очередь обхода. Но попадание *в* очередь не гарантирует обход. Googlebot сначала проверяет, *разрешен* ли ему доступ к странице. Большая часть этого — проверка файла robots.txt — если я использовал правило ‘disallow’ для блокировки страницы, Googlebot будет это уважать и не будет её обходить.

Если Googlebot обнаруживает страницу, которую не следует сканировать, он пропустит её, даже не запрашивая её. Если страницу *можно* сканировать, Googlebot загрузит и обработает её содержимое.

Рендеринг

Пока страница загружается, бот получает исходный HTML-код – это то, что вы видите до загрузки каких-либо интерактивных элементов. По сути, это структура страницы, и она готова к обработке, как только бот получает к ней доступ.

После выполнения JavaScript, Googlebot видит полную веб-страницу, так же, как её отобразил бы браузер.

Индексирование

Google будет хранить подходящие веб-страницы и их информацию в своем поисковом индексе, что позволит им отображаться в качестве результатов при поиске.

Как Googlebot обрабатывает интерактивно скрытый контент?

Иногда веб-страницы изначально скрывают контент. Вам может потребоваться нажать на вкладки или развернуть разделы, чтобы увидеть всё доступное, например, дополнительные детали или информацию.

Googlebot, веб-краулер, используемый Google, не может взаимодействовать с веб-страницей так, как это может сделать человек – он не может нажимать на элементы или открывать разделы, которые скрыты до нажатия. По этой причине, крайне важно, чтобы вся важная информация на вашей странице была легко доступна для него.

Для достижения этого, информация должна присутствовать в исходном коде страницы при её первой загрузке. Вы можете изначально скрыть контент визуально на веб-странице, но его не следует удалять из базового кода.

Представьте, что контент вашего веб-сайта находится внутри запертого ящика. HTML — это сам контент, а JavaScript — ключ для его открытия. Если веб-краулер Google (Googlebot) должен открыть ящик, чтобы увидеть контент, он может столкнуться с задержкой. Но, если ваш сервер откроет ящик *перед* тем, как Googlebot запросит страницу, контент будет легко доступен, когда Googlebot получит к нему доступ.

Как повысить вероятность того, что Googlebot сможет прочитать ваш контент

Чтобы убедиться, что Google может легко прочитать контент вашего веб-сайта, важно, чтобы он был доступен без необходимости запуска JavaScript. Одно из решений — генерировать контент на стороне сервера.

Рендеринг на стороне сервера создает веб-страницы на сервере, а не в веб-браузере пользователя. Это означает, что сервер создает HTML-файл и отправляет его непосредственно пользователю (или поисковой системе), чтобы они могли увидеть контент немедленно, не дожидаясь загрузки JavaScript. По сути, сервер доставляет полностью сформированную страницу с готовыми HTML и CSS, в то время как браузер загружает любые необходимые JavaScript-файлы отдельно.

В отличие от клиентского рендеринга, где веб-браузерам необходимо загрузить и обработать код перед отображением контента, серверный рендеринг проще для сервера. Именно поэтому разработчики часто предпочитают его. Однако это может затруднить просмотр контента страницы поисковыми ботами, если они сначала не выполнят JavaScript.

Как LLM боты обрабатывают JavaScript?

Учитывая то, что мы теперь знаем о том, как Googlebot отображает JavaScript, чем это отличается от AI ботов?

Важно помнить, что, в отличие от Googlebot, не существует единого авторитета или стандарта для всех ботов, работающих на основе больших языковых моделей (LLM bots). У каждого бота разные возможности, поэтому то, что может один, не применимо ко всем.

Боты, используемые для создания информационных источников для больших языковых моделей, отличаются от ботов, которые ищут информацию в интернете и предоставляют актуальные результаты пользователям.

И боты Claude не обладают той же способностью, что и боты OpenAI.

Как цифровой маркетолог, когда я думаю о том, чтобы убедиться, что AI боты могут получить доступ к нашему контенту, я всегда сосредотачиваюсь сначала на самых базовых ботах. Если это работает для них, это сработает для всех остальных – нам нужно учитывать самый низкий общий знаменатель, чтобы обеспечить широкую доступность.

У нас не так много информации о том, как AI-чатботы обрабатывают JavaScript, потому что они не делятся этими данными публично, как это делает Google. Но некоторые исследователи проводят тесты, чтобы выяснить, как эти чатботы обрабатывают JavaScript-код.

Как цифровой маркетолог, я нашел расследование Vercel 2024 года о том, насколько хорошо большие языковые модели (LLM) боты обрабатывают JavaScript, действительно интересным. Они протестировали основных игроков – OpenAI, Anthropic, Meta, ByteDance и Perplexity – и обнаружили, что ни один из них не мог фактически *отрендерить* JavaScript. Удивительно, но только Gemini (используя существующую веб-технологию сканирования Google), Applebot и CCbot от CommonCrawl смогли справиться с этим. Это имеет большие последствия для того, как мы думаем о SEO и видимости контента с помощью AI!

Гленн Гейб недавно подтвердил исследование Vercel, тщательно протестировав, как ChatGPT, Perplexity и Claude обрабатывают JavaScript. Он также объясняет, как вы можете протестировать свой собственный веб-сайт, чтобы увидеть, как эти AI-модели интерпретируют его контент.

Эти боты представляют собой некоторых из крупнейших игроков в области ИИ, подкрепленных значительными инвестициями. Если у них возникают проблемы с JavaScript, вероятно, что более мелкие или специализированные боты сталкиваются с аналогичными проблемами.

Как ИИ-боты обрабатывают интерактивно скрытый контент?

Честно говоря, не всегда всё идёт гладко с почтовыми клиентами и интерактивным контентом. Если элемент полагается на JavaScript для функционирования – такие вещи, как опросы, викторины или анимированные элементы – некоторые почтовые программы просто не могут с этим справиться и не отображают его правильно. Это распространённая проблема, с которой мы сталкиваемся как digital-маркетологи.

Чтобы помочь ботам получить доступ ко всему контенту на странице, убедитесь, что всё – даже контент, скрытый во вкладках или аккордеонах – полностью загружено в коде страницы без необходимости запуска какого-либо JavaScript. Таким образом, боты смогут увидеть всё, не нуждаясь во взаимодействии со страницей, как это сделал бы человеческий посетитель.

Как проверить проблемы с рендерингом JavaScript

Есть два очень простых способа проверить, может ли Googlebot отобразить весь контент на вашей странице:

Проверьте DOM через инструменты разработчика.

Когда браузер загружает веб-страницу, он считывает HTML и преобразует его в семейное дерево (DOM).

Как это проверить

Я проведу вас через это, используя Инструменты разработчика Chrome в качестве примера.

Чтобы увидеть код, из которого состоит веб-страница, можно использовать свой веб-браузер. В Chrome просто щелкните правой кнопкой мыши по странице и выберите ‘Inspect’. Затем выберите вкладку ‘Elements’, чтобы просмотреть код.

Вы можете проверить, виден ли контент вашей веб-страницы без запуска JavaScript, выполнив поиск здесь. Если контент появляется сразу при загрузке страницы – до любого взаимодействия – вероятно, он виден Google и другим ботам, таким как те, которые используются для больших языковых моделей.

Используйте Google Search Console

Чтобы проверить, виден ли контент конкретно Googlebot, вы можете использовать Google Search Console.

Чтобы протестировать страницу, сначала вставьте её URL в поле ‘Inspect any URL’. Это перенаправит вас на страницу, где вы можете выбрать ‘Test live URL’. После тестирования вы увидите другой экран с возможностью ‘View tested page’.

Как проверить, видит ли LLM-бот ваш контент

Согласно тестам, проведенным Гленном Гейбом, вы можете спросить большие языковые модели (LLMs), могут ли они получить доступ к контенту веб-страницы. Например, вы можете попросить их прочитать статью, и они сообщат вам, если не могут, часто объясняя, что это связано с JavaScript на странице.

Что это значит для вашего веб-сайта?

Googlebot, веб-краулер Google, со временем стал очень умелым в работе с JavaScript. Однако, крайне важно помнить, что новые AI-боты (LLM боты) не работают как Googlebot. Они не предназначены для обхода и отображения веб-сайтов таким же образом, и вы не должны этого от них ожидать. Неверно думать, что они менее способны – они просто созданы для разных целей и функционируют принципиально иначе.

Чтобы обеспечить высокую позицию вашего сайта в поисковой выдаче Google и облегчить его понимание для AI-ботов, убедитесь, что весь важный контент полностью загружается при первой загрузке страницы. В частности, проверьте статический HTML вашего сайта, чтобы убедиться, что контент легко доступен.

Смотрите также

2026-01-08 16:11