Наука о том, что на самом деле вознаграждает ИИ

Это Часть 3.

Итак, в первых двух частях я показал вам, *где* ИИ фокусируется на странице и *какие* страницы он обычно проверяет. Теперь я собираюсь объяснить, *что* конкретно в вашем контенте заставляет ИИ видеть его как ценный – что он вознаграждает, так сказать.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Данные проясняют:

Большинство советов по SEO-копирайтингу от ИИ не работают в масштабе. Не существует универсальной формулы «пишите так, чтобы получить цитирование» – сигналы, которые повышают частоту цитирования в одной отрасли, могут активно навредить другой.
Типы сущностей, предсказывающие цитирование, не являются теми, на которые нацелено воздействие. DATE и NUMBER являются универсальными позитивами. PRICE подавляет цитирование в пяти из шести вертикалей, а KG-верифицированные сущности являются негативным сигналом.
Единственный пишущий сигнал, который сохраняется во всех семи вертикалях: Декларативный язык во введении, +14% совокупный прирост.
Структура заголовков бинарна. Придерживайтесь правильного количества для вашей вертикали или не используйте их вообще. Три-четыре заголовка хуже, чем ни одного в каждой вертикали.
Корпоративный контент доминирует. Reddit – нет. Поведение цитирования ИИ не отражает то, что произошло с органическим поиском в 2023-2024 годах.

1. Определенные сигналы письма влияют на цитирование, в то время как другие вредят ему.

Статья «The Science Of How AI Pays Attention» обсуждает факторы, влияющие на то, насколько легко ChatGPT находит контент. Однако меня интересовало выявление конкретных характеристик письма – таких как длина, организация и стиль – которые последовательно приводят к большему количеству цитирований ИИ в различных областях.

Approach

Я сравнил страницы с высоким количеством цитирований (более трех уникальных упоминаний запроса) и страницы с низким количеством цитирований по семи показателям письма: количество слов, определенный язык, смягчение, элементы списков, плотность именованных сущностей и сигналы, специфичные для введения.
Я проанализировал первые 1000 слов на предмет количества пунктов списка, плотности именованных сущностей, плотности дефинитивных языковых токенов во введении и количества чисел во введении.

Как SEO-эксперт, я анализировал последние данные, и вот что я вижу: чёткий, конкретный язык и упоминание ключевых сущностей в вашем контенте по-прежнему важны. Однако, помимо этого, большинство сигналов ранжирования сейчас не демонстрируют значительных изменений – они довольно стабильны.

Что показали отраслевые тенденции

Когда мы разделяем данные по вертикали, мы внезапно видим предпочтения:

Общее количество слов было самым высоким в CRM/SaaS (1.59x).
Финансы были аномалией с количеством слов: Более короткие страницы побеждают (0.86x количество слов).
Определяющие фразы в первых 1 000 символах были позитивными для большинства вертикалей.
Образование — это пустой сигнал. Стиль письма почти ничего не объясняет о вероятности цитирования там.

Top Takeaways

Нет единого стиля письма, который гарантирует цитирования. То, что хорошо работает в одной области, например, CRM или SaaS, может фактически препятствовать цитированиям в другой, такой как Finance. Ключ в том, чтобы адаптировать формат вашего контента к конкретным стандартам отрасли, на которую вы нацелены.

Всегда начинайте с чёткого и прямого утверждения. Не начинайте с вопроса, справочной информации или введения. Вместо этого используйте простой формат, например, «[X] есть [Y]» или «[X] делает [Z]». Это самое важное правило письма, и оно применяется ко всему, что вы пишете, независимо от темы, формата или длины.

Большие языковые модели не любят расплывчатые формулировки во введении. Вместо того, чтобы говорить такие вещи, как ‘Это может помочь командам понять’, излагайте свои мысли прямо, например, ‘Команды, которые делают X, видят Y’. Упростите свой вступительный абзац как первый шаг к улучшению его производительности.

2. Типы сущностей, которые предсказывают цитирование, не являются теми, на которые нацелены.

Много советов по улучшению результатов поиска подчеркивают включение конкретных вещей, таких как названия брендов, инструменты и числа. Однако более пристальный взгляд на различные типы этих терминов раскрывает более детальную и полезную картину.

Подход

Запустил API обработки естественного языка от Google на первых 1000 символах (около 200-250 слов) каждого уникального URL.
Вычисленный лифт по типу сущности: % высокоцитируемых страниц этого типа / % низкоцитируемых страниц.
Проанализировано 5 000 страниц по семи направлениям.

В целом, увидеть дату или число — хороший знак, в то время как цена обычно — плохой. Эти тенденции, похоже, сохраняются во многих ситуациях.

Что показали отраслевые тенденции.

ДАТА является наиболее универсальным позитивным сигналом, за исключением Финансов (0.65x).
NUMBER является вторым по универсальности. Конкретные подсчёты, метрики и статистика во введении последовательно предсказывают более высокие показатели цитирования. Финансы (0.98x) и Product Analytics (1.10x) обозначают нижнюю и верхнюю границы этого диапазона.
ЦЕНА является самым сильным универсальным негативным сигналом. Страницы, начинающиеся с указания цены, сигнализируют о коммерческом намерении. Финансы – единственное исключение (1.16x), вероятно, потому что цена здесь означает проценты за услуги и сравнение ставок, которые являются фактическими данными, которые ищут финансовые запросы.
ПОТРЕБИТЕЛЬСКИЕ ТОВАРЫ (программное обеспечение/сущности продукта) смешаны. В здравоохранении сущности продукта сигнализируют об известных брендах и инструментах. В Crypto, упоминание конкретных протоколов и продуктов является ключевым для ответа на технические запросы.
НОМЕР_ТЕЛЕФОНА является положительным сигналом в сфере здравоохранения (1.41x) и образования (1.40x). В обоих случаях это почти наверняка прокси для известных брендов/учреждений/поставщиков с реальным физическим присутствием, а не буквальный сигнал о добавлении номеров телефонов на ваши страницы.

Инверсия Knowledge Graph заслуживает отдельной отметки здесь:

Данные показали, что страницы с высоким количеством цитирований содержат в среднем 1.42 KG-верифицированных сущностей против 1.75 для страниц с низким количеством цитирований (увеличение: 0.81x).
Страницы, построенные вокруг известных, проверенных KG сущностей (крупных брендов, учреждений, известных людей), как правило, имеют обобщенное освещение, что не приветствуется ChatGPT.
Страницы с большим количеством цитирований изобилуют конкретными, нишевыми сущностями: определенной методологией, точной статистикой, именованным сравнением. Многие из этих нишевых сущностей вообще не имеют записей в базах знаний. Именно этой конкретности стремится искусственный интеллект.

Top Takeaways

Включайте дату публикации на ваших веб-страницах и старайтесь использовать хотя бы одно число в вашем контенте. Эта комбинация оказалась наиболее надёжным индикатором оригинального контента в наших данных. Однако, для финансового контента, использование информации о ценах и конкретных местоположениях работало столь же хорошо.

Не начинайте с информации о ценах, если вы не работаете в финансовой сфере. Начало с цены часто приводит к тому, что меньше людей обращают внимание.

Как цифровой маркетолог, я тестировал, что *действительно* влияет на результаты поиска с использованием искусственного интеллекта. Я обнаружил, что просто наличие сильного присутствия в Knowledge Graph или авторитета бренда не даёт автоматического преимущества. На самом деле, сосредоточение на получении страниц в Wikipedia или подтверждённых панелях бренда не является наиболее эффективной стратегией. Удивительно, но высокоспециализированные, нишевые сущности – даже если они *не* находятся в Knowledge Graph – часто показывают лучшие результаты, чем известные бренды. Всё дело в релевантности, а не просто в известности.

3. Структура заголовков: Придерживайтесь одной или не заморачивайтесь.

Наши предыдущие исследования показали, что заголовки важны для получения цитирований. Поэтому я хотел узнать, может ли количество заголовков в документе предсказать, как часто его цитируют, и отличается ли оптимальный способ структурирования заголовков в зависимости от предметной области.

Подход

Подсчитано общее количество заголовков на странице (H1+H2+H3) по всем указанным URL-адресам.
Страницы сгруппированы в 7 блоков по количеству заголовков: 0, 1-2, 3-4, 5-9, 10-19, 20-49, 50+.
Вычисленная частота высокоцитируемых ссылок (% URL-адресов, являющихся высокоцитируемыми) для каждого сегмента по вертикали.

Простое добавление большего количества заголовков в ваш контент не всегда улучшает его. Идеальное количество заголовков варьируется в зависимости от темы и типа контента, который вы создаете. Интересно, что наши исследования показывают, что использование всего 3 или 4 заголовков на самом деле менее эффективно, чем использование вообще ни одного.

Что показали отраслевые тенденции

CRM/SaaS — единственная вертикаль, где подтверждено увеличение количества заголовков на 20+: 12,7% высокий уровень цитирования при 20-49 заголовках по сравнению с базовым показателем в 5,9%. Категория 50+ достигает 18,2%. Длинные структурированные справочные страницы и руководства по сравнению с одним разделом на инструмент превосходят все остальное здесь.
Здравоохранение испытывает наиболее резкие изменения. Высокая цитируемость снижается с 15,1% при нулевом количестве заголовков до 2,5% при 20-49 заголовках. Страница с 30 H2 на темы телемедицины сигнализирует о намерении оптимизации, а не о клиническом авторитете.
Финансы достигают пика в 10-19 заголовках (высокий процент цитирования — 29.4%). Структурировано, но не исчерпывающе: подумайте о таблицах ставок, нормативных разбивках и страницах сравнения консультантов с умеренной глубиной заголовков.
Крипто достигает пяти-девяти заголовков (высокий процент цитирования — 34,7%). Техническая документация в этой области, как правило, представляет собой плотный текст со средней структурой навигации. Чрезмерная структурированность нарушает техническую глубину.
Образование остается на одном уровне по всем количественным показателям заголовков, что соответствует результатам анализа письменных сигналов. Структура заголовков практически ничего не объясняет относительно вероятности цитирования в образовательном контенте.
Мертвая зона заголовков от трех до четырех уровней сохраняется во всех вертикалях без исключения. Частичная структура сбивает с толку AI-навигацию, не предоставляя полной выгоды от приверженности иерархии.

Top Takeaways

Открытие относительно заголовков, содержащих более 20 слов, сделанное в Части 1, конкретно применимо к CRM и SaaS компаниям, а не ко всем отраслям. Попытка использовать эту находку в таких областях, как здравоохранение, образование или финансы, может фактически снизить количество цитирований в этих областях.

Последовательность является ключевым моментом, когда речь идет о структуре страницы. Либо полностью придерживайтесь использования заголовков и четкой организации, либо не беспокойтесь о структуре вообще. Частично структурированная страница всегда будет работать хуже, чем полностью структурированная, независимо от темы или цели.

При структурировании вашего контента с помощью заголовков, используйте следующие рекомендации, основанные на вашей отрасли: Криптография должна использовать 5-9 заголовков. Контент в области финансов и образования лучше всего работает с 10-19 заголовками. Для CRM/SaaS используйте 20+ заголовков, включая H3. Контент в области здравоохранения должен использовать либо вообще без заголовков, либо максимум 5-9. Исключением являются очень длинные справочные страницы CRM (50+ разделов), где использование более глубокой структуры заголовков может быть полезным.

4. UGC Не Доминирует

В период между 2024 и 2025 годами Reddit значительно повлиял на то, как отображались результаты органического поиска. Я хотел выяснить, часто ли ChatGPT использует информацию из источников, созданных пользователями, таких как Reddit, форумы и обзоры, или он в основном полагается на официальные веб-сайты компаний или новостные сайты.

Вопреки тому, во что верят многие в этой области, наши данные показывают, что ИИ не последовательно отдает приоритет или ссылается на голоса из сообщества.

Подход

Классифицируйте указанные URL-адреса как (1) UGC: Reddit, Quora, Stack Overflow, поддомены форумов, Medium, Substack, Product Hunt, Tumblr, или (2) префиксы сообщества/форума или корпоративные/редакционные по домену.
Вычисленная доля цитирования по категориям и вертикалям.
Набор данных: 98 217 цитат по 7 направлениям.

Результаты: Корпоративный контент составляет 94,7% всех упоминаний. Пользовательский контент практически невидим.

Что показали отраслевые тенденции.

Финансы – наиболее корпоративно-зависимая вертикаль с 0.5% пользовательского контента (UGC). Контент YMYL (Your Money, Your Life) систематически подавляет цитирования мнений сообщества.
Крипто имеет самый высокий уровень проникновения пользовательского контента (UGC) в наборе данных — 9,2%. Контент, создаваемый сообществом (технические треды Reddit, учебные пособия Medium, сообщения на форумах разработчиков), отвечает на значительную часть проанализированных запросов. В быстро развивающейся технической нише, где официальная документация постоянно отстает, публикации сообщества заполняют этот пробел.
Аналитика продуктов и HR-технологии имеют 6,9% и 5,8% пользовательского контента (UGC) соответственно. Оба направления, где сравнения на Reddit и сообщества обзоров продуктов предоставляют достоверные сигналы наряду с корпоративным контентом.

Top Takeaways

Хотя Reddit часто влияет на поисковую оптимизацию (SEO), его влияние не было столь сильным, когда речь заходит о том, как часто ИИ-системы цитируют источники. Обычно Reddit составляет около 2-5% от всех цитат в различных отраслях, результат, который соответствует данным отчетов, таких как один от Profound.

В финансовой и медицинской отраслях пользовательский контент (UGC) в настоящее время не ценится ИИ при цитировании. Вместо этого сосредоточьтесь на создании хорошо обоснованного, официального контента от вашей компании. Хотя взаимодействие с вашим сообществом по-прежнему важно, оно не существенно улучшит частоту цитирования вашего контента ИИ в этих областях.

Для компаний в сфере криптовалют, продуктовой аналитики и HR-технологий активное взаимодействие с онлайн-сообществами может значительно повысить вашу видимость и доверие. Публикация углубленного контента на платформах, таких как Reddit, Medium и форумах разработчиков, посредством подробных сравнений, технических объяснений и хорошо структурированных ответов, может расширить вашу аудиторию за пределы традиционных маркетинговых усилий.

Что это значит для вашей стратегии повышения видимости LLM.

На протяжении всего этого исследования мы постоянно обнаруживали, что проблема с цитатами, сгенерированными ИИ, заключается не в качестве самого текста.

Предыдущий раздел продемонстрировал, что создание эффективной архитектуры контента является ключевым – страницы, ориентированные на единую тему, не могут быть успешными, если сама структура несовершенна, независимо от того, насколько хорошо они написаны. Этот анализ расширяет эту идею, показывая, что тот же принцип применим и к контенту *внутри* этих страниц.

Этот график, показывающий общие закономерности написания, имеет ключевое значение для понимания того, что действительно работает в SEO на основе искусственного интеллекта, локальном SEO и оптимизации магазинов приложений. Он не говорит вам, *что* делать, но показывает, насколько часто распространенные советы в нашей отрасли не подтверждаются при анализе различных типов контента. Такие вещи, как количество слов, число списков и конкретные термины, обычно не помогают, и стратегии, которые *действительно* работают, часто уникальны для каждого типа контента и не так широко известны, как многие в отрасли полагают.

Основной вывод из этого исследования заключается в том, что результаты различаются в зависимости от конкретной отрасли и темы, и это верно и для поисковой оптимизации.

Эта часть завершает Науку об ИИ – пока что. Потому что экосистема ИИ постоянно меняется.

Методология

Как человек, внимательно следящий за тем, как люди используют ИИ, я изучал данные от Gauge. Мы проанализировали почти 98 000 случаев, когда ChatGPT фактически ссылался на источники – это взято из более чем 1,2 миллиона общих ответов. Это даёт довольно хорошее представление о том, как часто и в каком контексте ИИ подтверждает свои утверждения.

Производительность ИИ варьируется в зависимости от тематики, поэтому мы проанализировали данные из семи различных, чётко определённых отраслей. Это помогло нам избежать результатов, которые могли бы быть предвзятыми в отношении какой-либо одной области.

Проанализированные вертикали:

B2B SaaS
Финансы
Здравоохранение
Образование
Crypto
HR Tech
Аналитика продукта

Смотрите также

2026-03-31 16:42