Аудит технического SEO нуждается в новом слое.

Типичный технический SEO-аудит рассматривает такие вещи, как то, могут ли поисковые системы легко получить доступ к вашему веб-сайту и понять его, насколько быстро он загружается, насколько хорошо он работает на мобильных устройствах и использует ли он структурированные данные. Однако эти проверки изначально были созданы только с одной целью: помочь веб-краулеру Google, Googlebot, выполнять свою работу.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Так всегда было.

К 2026 году ваш веб-сайт, вероятно, будет иметь гораздо больше посетителей, которые не являются людьми. ИИ-системы, такие как GPTBot и другие, сканируют веб для обучения и улучшения поиска на основе искусственного интеллекта. Кроме того, новые ИИ-помощники, такие как Google-Agent, будут просматривать веб-сайты для отдельных пользователей. Недавние данные показывают, что более 30% всего трафика веб-сайтов уже приходится на ботов, и эти ИИ-системы становятся его большей частью. По этой причине важно учитывать этих нечеловеческих посетителей при проверке технического состояния вашего веб-сайта.

Вот пять слоев, которые следует добавить к вашему существующему техническому SEO-аудиту.

Уровень 1: Доступ к AI-краулеру

Файл robots.txt, который вы сейчас используете, вероятно, предназначен для контроля доступа поисковых ботов, таких как Googlebot и Bingbot, и, возможно, некоторых базовых веб-скрейперов. Однако, краулеры на основе искусственного интеллекта требуют собственного, отдельного набора правил в вашем файле robots.txt, отличного от используемого для традиционных поисковых систем.

https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text

Что проверить

Проверьте ваш файл robots.txt, чтобы узнать, добавили ли вы какие-либо правила специально для AI ботов, таких как GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider, AppleBot-Extended, CCBot и ChatGPT-User. Если вы не видите ни одного из них в списке, ваши настройки, вероятно, используют правила по умолчанию, которые могут не соответствовать вашим намерениям. Не предполагайте, что настройки по умолчанию верны для вас – всегда проверяйте, соответствуют ли они вашим потребностям.

Вместо того чтобы просто разрешать или блокировать всех AI-краулеров, важно принимать решение в каждом конкретном случае. AI-краулеры не одинаковы; они делятся на три основные группы. Самая большая, составляющая 89,4% трафика (по данным Cloudflare), — это обучающие краулеры, которые собирают данные для улучшения AI-моделей. Другие 8% — это поисковые краулеры, используемые для обеспечения AI-управляемых результатов поиска. Последние 2,2% — это агенты, активируемые пользователем, — такие как те, которые используются Google Agent или ChatGPT, — которые просматривают веб-страницы для отдельных пользователей в режиме реального времени. Каждую из этих категорий следует обрабатывать по-разному в вашем файле robots.txt.

Данные Cloudflare показывают, сколько различных AI-ботов «берут» с веб-сайтов по сравнению с тем, сколько трафика они отправляют обратно, помогая вам решить, каких из них разрешить. ClaudeBot от Anthropic проверяет 20 600 страниц на каждого посетителя, которого он отправляет, в то время как бот от OpenAI проверяет 1300 страниц на каждого посетителя. Meta вообще не отправляет никаких посетителей. Блокировка ботов, таких как OAI-SearchBot от OpenAI или PerplexityBot, может привести к тому, что ваш сайт будет реже появляться в результатах поиска ChatGPT и Perplexity. Блокировка ботов, ориентированных на сбор данных, таких как CCBot или краулер от Meta, останавливает их от получения вашего контента, но поскольку эти боты в любом случае не отправляют трафик обратно, вы не потеряете никаких посетителей. В конечном итоге, эти цифры показывают, какие боты просто берут информацию, ничего не внося взамен.

Один краулер, Google-Agent, заслуживает особого упоминания. Google официально признал его 20 марта 2026 года как способ идентификации запросов от AI-систем, просматривающих веб для пользователей. В отличие от типичных веб-краулеров, Google-Agent не уважает файлы robots.txt. Google считает его прокси-пользователем, поскольку запрос был инициирован человеком, а не независимым краулером. Следовательно, блокировка Google-Agent требует серверной аутентификации, и простое использование robots.txt не сработает. Это примечательное развитие с потенциальными последствиями для будущего, хотя оно выходит за рамки данного обсуждения.

Уровень 2: JavaScript Рендеринг

Как цифровой маркетолог, я всегда знал, что Googlebot может обрабатывать JavaScript благодаря использованию headless Chromium – это стандарт на протяжении некоторого времени. Но сейчас действительно интересно то, что большинство других AI-powered краулеров *не* рендерят JavaScript. Это значительная разница, и нам нужно учитывать это при оптимизации для AI-driven поиска и обнаружения контента.

Crawler	Отображает JavaScript
GPTBot (OpenAI)	Нет
ClaudeBot (Anthropic)	Нет
PerplexityBot	Нет
CCBot (Common Crawl)	Нет
AppleBot	Да
Googlebot	Да

Как цифровой маркетолог, я вижу значительный сдвиг в том, как работают поисковые системы. Прямо сейчас Applebot и Googlebot – единственные крупные игроки, которые фактически *выполняют* JavaScript, чтобы увидеть ваш контент. Остальные четыре крупных – GPTBot, ClaudeBot, PerplexityBot и CCBot – просто извлекают базовый HTML. Это означает, что если вы полагаетесь на JavaScript для загрузки вашего контента, те поисковые системы на базе ИИ, такие как OpenAI, Anthropic и Perplexity, не смогут его найти. Server-side rendering – это больше не просто ‘приятное дополнение’; это абсолютно необходимо, если вы хотите, чтобы ваш контент был виден в результатах поиска ИИ. В основном, если он существует только в JavaScript, эти сканеры не могут его увидеть, и ваш контент не будет использоваться для обучения их ИИ-моделей.

Что проверить

Одностраничные приложения, созданные с использованием технологий, таких как React, Vue или Angular, могут испытывать трудности с поисковой оптимизацией, если они не используют серверный рендеринг (SSR) или статическую генерацию сайта (SSG). Например, приложение React, которое отображает сведения о продукте и цены только после загрузки страницы, представляет поисковым роботам пустую страницу, предлагая только ссылку на код, который создает контент.

Решение достаточно простое. Такие методы, как серверный рендеринг (SSR), статическая генерация сайта (SSG) или предварительный рендеринг, могут легко исправить эту проблему в большинстве популярных веб-фреймворков. Например, Next.js предлагает SSR и SSG для React, Nuxt делает то же самое для Vue, а Angular Universal обрабатывает серверный рендеринг для Angular. Сейчас необходимо создать инструмент, который позволит определить, какие страницы полагаются на клиентский JavaScript для отображения важного контента.

Уровень 3: Структурированные данные для ИИ

На протяжении многих лет технические SEO-аудиты включали проверку структурированных данных. Однако, то, как мы их оцениваем, нуждается в изменениях. Теперь нам нужно спрашивать не только *есть ли* на странице схема разметки, но и помогает ли эта разметка ИИ понимать и правильно оценивать контент.

Что проверить

Реализация JSON-LD (предпочтительнее, чем Microdata и RDFa для парсинга ИИ).
Типы схем, выходящие за рамки основ: Организация, Статья, Продукт, FAQ, HowTo, Личность.
Связи между сущностями: sameAs, author, publisher — связи, которые объединяют ваш контент с известными сущностями.
Полнота: заполнены ли все соответствующие свойства, или вы просто ставите галочку, используя схему-заготовку только с именем и URL?

Почему это важно сейчас

В начале 2025 года как Microsoft (Fabrice Canel из Bing), так и Google подтвердили, что использование schema markup – способа структурирования данных на веб-страницах – улучшает понимание контента их AI-системами (Copilot и Google Search) и даже может повысить позиции в поисковой выдаче.

Нет, нельзя победить только за счёт схемы. Да, это может помочь.

Насколько подробную информацию вы предоставляете, также играет ключевую роль. Недавнее исследование исследователей из Принстонского университета, Технологического института Джорджии, Института искусственного интеллекта Аллена и IIT Delhi (представленное на конференции ACM KDD 2024 и первое, использующее термин «GEO») показало, что включение конкретных точек данных может увеличить, насколько легко AI находит ваш контент, на 41%. Исследования Yext показали, что веб-сайты с большим количеством подробной информации получают в 4.3 раза больше ссылок от AI, чем базовые списки. Это связано с тем, что структурированные данные предоставляют системам AI четкие, легко понятные факты, вместо того, чтобы заставлять их интерпретировать текст.

Важно отметить, что пока не проводилось никаких формальных академических исследований о том, как использование схемы влияет на частоту, с которой ИИ цитирует ваш контент. Хотя отраслевые данные выглядят многообещающе и указывают на положительную тенденцию, эти цифры следует рассматривать как признак потенциального улучшения, а не как окончательный результат.

По данным W3Techs, примерно 53% из 10 миллионов самых популярных веб-сайтов использовали JSON-LD к началу 2026 года. Если ваш сайт не использует его, поисковые системы – включая те, которые работают на базе ИИ – могут не полностью понимать, о чём ваш контент.

Уровень 4: Семантический HTML и Дерево Доступности

Аудит готовности к ИИ начинается с проверки, могут ли поисковые роботы получить доступ к вашему сайту, насколько хорошо он обрабатывает JavaScript и правильно ли реализованы структурированные данные. Последняя часть фокусируется на том, как ИИ конкретно понимает ваши страницы и какие подсказки помогают ему находить и оценивать ваш контент.

Большинство SEO-экспертов проверяют, как веб-сайты закодированы для поисковых систем. Однако новые браузеры на базе ИИ, такие как ChatGPT Atlas, функция автоматического просмотра Chrome и Perplexity Comet, не анализируют веб-страницы так, как веб-краулер Google (Googlebot). Вместо этого они сосредотачиваются на функциях доступности, встроенных в страницу, которые помогают людям с ограниченными возможностями пользоваться сетью.

Дерево доступности — это упрощённая версия вашей веб-страницы, которую браузеры создают из HTML-кода. Оно удаляет все визуальные детали — такие как цвета, размеры и макет — и фокусируется на основном контенте и структуре: заголовках, ссылках, кнопках и формах. На протяжении многих лет программы чтения с экрана использовали это дерево, чтобы помочь людям с нарушениями зрения получать доступ к веб-сайтам. Теперь программы искусственного интеллекта также используют его для понимания и работы с веб-страницами.

Основная причина заключается просто в эффективности. Работать с деревом доступности дешевле и быстрее, чем обрабатывать скриншоты.

Как цифровой маркетолог, я всегда подчеркиваю, что доступность является фундаментальной, и дело в том, что говорит ваш *code*, а не только в том, как вещи *look*. Визуально оформленный элемент – скажем, `

`, сделанный похожим на кнопку – не будет распознан как кнопка вспомогательными технологиями. Аналогично, изображения без описательного ‘alt text’ по сути невидимы для скринридеров и поисковых систем. И структура заголовков, которая пропускает уровни – например, переход прямо от H1 к H4 – создает запутанный и неудобный контур как для людей, использующих скринридеры, так и для инструментов на базе искусственного интеллекта, пытающихся понять ваш контент.

Microsoft’s Playwright MCP, ключевой инструмент для связи AI-моделей с автоматизацией браузера, работает путем захвата информации о доступности вместо полного HTML или изображений. Функция ‘browser_snapshot’ инструмента предоставляет упрощенное, богатое смыслом представление веб-страницы, которое легче понять AI-моделям. OpenAI отмечает, что его ChatGPT Atlas использует ARIA-теги – метки доступности – чтобы понять, как организован веб-сайт.

Создание веб-сайтов, которые доступны людям с ограниченными возможностями и совместимы с AI-помощниками, теперь идут рука об руку. Использование чёткой структуры с заголовками (H1–H6) помогает AI-системам понимать и извлекать важные части вашего контента. Использование семантических HTML-элементов, таких как `

Что проверить

Иерархия заголовков: логичная структура H1-H6, которую машины могут использовать для понимания взаимосвязей контента.
Семантические элементы: nav, main, article, section, aside, header, footer, использованы соответствующим образом.
Элементы формы ввода: у каждого ввода есть метка, у каждой кнопки — описательный текст.
Интерактивные элементы: для кликабельных элементов используйте или , а не
.
Дерево доступности: запустите снимок Playwright MCP или протестируйте с помощью VoiceOver/NVDA, чтобы увидеть, что видят агенты на самом деле.

Доступность веб-сайтов снижается. Недавнее исследование WebAIM показало, что средняя веб-страница теперь содержит 56.1 ошибку доступности, что на 10.1% больше, чем в прошлом году.

Использование ARIA – набора кодовых атрибутов, которые помогают скринридерам и ИИ понимать элементы веб-страниц – выросло на 27% всего за один год. ARIA может уточнить, *что такое* элемент – например, сообщить скринридеру, что раздел кода является диалоговым окном или меню. Однако страницы *с* ARIA на самом деле содержали значительно больше ошибок доступности (в среднем 59.1) по сравнению с теми, у которых их не было (42). Простое добавление ARIA без полного понимания может создать больше проблем, чем решить, поскольку некорректный код может ввести скринридеры в заблуждение. Лучший подход – использовать стандартные HTML-элементы, когда это возможно, и добавлять ARIA только тогда, когда этих элементов недостаточно для предоставления информации.

SEO-специалистам необязательно быть профессионалами в области доступности, но игнорировать её больше не вариант. Современные веб-сайты полагаются на одну и ту же базовую структуру как для скринридеров, так и для AI-агентов, что означает, что доступность напрямую влияет на то, как пользователи и AI взаимодействуют с вашим контентом.

Примечание: Сочетание клавиш Markdown не работает.

Предоставление простого markdown вместо стандартного HTML ботам ИИ может значительно снизить затраты на обработку – до 95% на страницу. Однако Джон Мюллер из Google настоятельно не рекомендует это делать, называя это плохим подходом. Он утверждает, что смысл заключается в том, как организован контент, и лишение его структуры не облегчает понимание ИИ, а наоборот, полностью удаляет смысл. Модели ИИ изначально обучались на обычном HTML и прекрасно с ним справляются. Решение заключается не в создании упрощенной версии для машин, а в обеспечении хорошо структурированного HTML и использовании семантических элементов. Правильно написанный HTML уже легко читается машинами, а упрощенная версия уже существует в функциях специальных возможностей, которые агенты ИИ уже используют.

Уровень 5: Сигналы обнаружения ИИ

Последний шаг рассматривает сигналы, которые не являются стандартными факторами аудита, но всё же влияют на то, как ИИ находит и оценивает ваш веб-сайт.

Хотя это и не гарантированное решение, файл llms.txt часто предлагается AI-языковыми моделями как способ помочь им понять ваш веб-сайт. По сути, это простой markdown-файл, который объясняет содержание и организацию вашего сайта. Пока нет твердых доказательств того, что он значительно улучшает частоту, с которой AI цитирует ваш веб-сайт, но поскольку LLMs так часто его рекомендуют, вы можете ожидать, что инструменты анализа веб-сайтов на основе AI укажут на его отсутствие. Хорошая новость в том, что его быстро создать и бесплатно поддерживать в актуальном состоянии.

ОК, теперь, когда мы это выяснили, давайте посмотрим, что действительно может иметь значение.

Хотите узнать, какие AI боты посещают ваш веб-сайт? Важно отслеживать этот трафик. Cloudflare предлагает панель инструментов AI Audit, которая показывает, какие AI краулеры получают доступ к вашему сайту, как часто и какие страницы они просматривают. Если вы не используете Cloudflare, вы можете проверить журналы своего сервера на наличие определенных идентификаторов: ищите ‘Google-Agent’, ‘ChatGPT-User’ и ‘ClaudeBot’ в строках user agent. Google также предоставляет список IP-адресов, используемых ‘Google-Agent’ (доступен в файле с именем `user-triggered-agents.json`), чтобы помочь вам убедиться, что запросы действительно поступают от Google и не были подделаны.

Чётко установите идентичность вашего бизнеса на вашем веб-сайте, используя структурированные данные. Это означает предоставление деталей – таких как название вашего бизнеса, URL, логотип и дата основания – в формате, который поисковым системам и ИИ могут легко понять. Включите ссылки на официальные профили на платформах, таких как LinkedIn, Crunchbase и Wikipedia, чтобы подтвердить вашу информацию. Для ключевых сотрудников свяжите их с вашей организацией, используя соответствующие теги, указывающие их роль (автор, сотрудник и т.д.). Предоставление этой базовой информации помогает системам ИИ точно идентифицировать и рекомендовать ваш бизнес по сравнению с конкурентами. Лучше всего внедрять эти структурированные данные на ранней стадии процесса разработки веб-сайта, а не как afterthought, поскольку это упростит будущие задачи.

То, как вы располагаете контент на веб-странице, значительно влияет на то, будут ли инструменты искусственного интеллекта использовать его в качестве источника. Исследование, анализирующее более 98 000 цитирований ChatGPT, показало, что почти 44% всей информации, полученной из ИИ, поступает из верхней трети страницы. В отличие от этого, нижние 10% составляют всего 2,4–4,4% цитирований, независимо от темы веб-сайта. Этот шаблон – сильное начало и окончание со слабыми средними разделами – известен как «мышление в форме кости собаки» и был подтвержден исследователями Стэнфордского университета как феномен «потерянный в середине». Важно проверить ваши важные веб-страницы, чтобы убедиться, что ключевая информация и данные размещены в верхних 30%, а не скрыты дальше вниз.

При оценке вашего контента попробуйте выделить одно ключевое утверждение. Имеет ли оно смысл само по себе? Современные инструменты искусственного интеллекта, такие как ChatGPT, Perplexity и Google AI Overviews, работают путем извлечения и цитирования конкретных отрывков. Однако предложения, которые зависят от ссылок, таких как ‘это’, ‘оно’ или ‘вышеуказанное’, теряют свой смысл, когда их извлекают из контекста. Чтобы избежать этого, сосредоточьтесь на написании самодостаточных предложений, четко определяя взаимосвязи между сущностями и используя сильные, цитируемые утверждения, которые ИИ может легко понять и процитировать без необходимости угадывать предполагаемое значение. Ramon Eijkemans предоставляет полезную структуру для применения этих принципов, чтобы обеспечить легкое использование вашего контента системами поиска ИИ.

Чек-лист аудита

От Аудита к Действию

Наш обзор выявил некоторые области для улучшения. Эти улучшения необходимо решить в определенном порядке, поскольку некоторые зависят от завершения других. Например, хорошо организованный контент перед созданием четкой цифровой идентичности позволяет системам находить вашу информацию, но не всегда надежно связывать ее с вашим брендом. Именно поэтому я разработал концепцию Machine-First Architecture, которая описывает последовательность – идентичность, структура, контент и взаимодействие – где каждый шаг строится на предыдущем.

Почему технический SEO-аудит занимает заслуженное место?

Эти техники на самом деле не направлены на улучшение вашей поисковой оптимизации (SEO). Такие вещи, как контроль доступа AI-ботов к вашему сайту, обеспечение доступности вашего контента или внутренняя оценка контента, напрямую не влияют на то, где появляется ваш веб-сайт в результатах поиска Google или как он индексируется.

Большая часть этой работы проистекает из практик технического SEO. Такие вещи, как управление тем, как сканируются веб-сайты, использование структурированных данных, написание семантического HTML, обработка рендеринга JavaScript и анализ журналов сервера — это навыки, которыми уже обладают профессионалы в области технического SEO. Способ, которым мы подходим к аудиту, остается прежним, но теперь мы сосредотачиваемся на другой аудитории.

Веб-сайты, представленные в ответах, работающих на основе искусственного интеллекта – те, которые корректно загружаются во время автоматического просмотра и появляются в рекомендациях ChatGPT – не добьются успеха только за счет качества контента. Их успех будет зависеть от того, насколько легко машины смогут получить доступ к их информации и понять её. Специалисты по техническому SEO находятся в уникальном положении, чтобы построить эту удобную для машин основу, и существующие аудиты веб-сайтов просто нуждаются в разделе, посвященном этому аспекту.

Смотрите также

2026-04-27 15:14