
На этой неделе я делюсь тем, что узнал, изучив 1,2 миллиона ответов, сгенерированных ChatGPT. Моя цель состояла в том, чтобы выяснить, как повысить вероятность того, что вашу работу будут цитировать другие.
Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.
Купить на падении (нет)
На протяжении двух десятилетий специалисты по SEO сосредоточены на создании объемных, всесторонних руководств, предназначенных для удержания внимания читателей. Эти руководства обычно включают подробные введения, идеи, вплетенные в контент, и постепенное приближение к конечному призыву к действию.
Данные показывают, что этот стиль письма не является идеальным для видимости в ИИ.
Я проанализировал более 1,2 миллиона примеров исходных цитат ChatGPT и обнаружил сильную тенденцию – то, что я называю эффектом «лыжного трампа». ChatGPT делает акцент на первых 30% любого данного текста. Мои исследования также выявили пять ключевых характеристик контента, который ChatGPT, вероятно, процитирует. Чтобы добиться успеха с ИИ, важно писать в ясном и лаконичном стиле, похожем на то, как пишут журналисты.
https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text
1. Какие разделы текста с наибольшей вероятностью будут процитированы ChatGPT?

Мы исследовали, как большие языковые модели (LLM) выбирают, какие части текста цитировать. Изучив более 18 000 цитат, мы обнаружили закономерность, напоминающую трамплин для прыжков с трамплина – то есть цитаты, как правило, концентрируются в нескольких ключевых областях.
- 44.2% всех цитат берут начало из первых 30% текста (вступления). ИИ читает как журналист. Он извлекает «Кто, Что, Где» из начала. Если ваша ключевая идея находится во вступлении, шансы, что она будет процитирована, высоки.
- 31.1% цитирований приходится на 30-70% текста (середину). Если вы прячете ключевые характеристики продукта в параграфе 12 из 20-параграфной публикации, то вероятность того, что ИИ его процитирует, снижается в 2.5 раза.
- 24.7% цитат поступают из последней трети статьи (заключение). Это доказывает, что ИИ просыпается в конце (подобно людям). Он пропускает фактический подвал (см. падение на 90-100%), но любит раздел «Резюме» или «Заключение» непосредственно перед подвалом.
Возможные объяснения схемы трамплина для прыжков с трамплина – тренировки и эффективность:
- LLM обучаются на журналистских и научных статьях, которые следуют структуре «BLUF» (Bottom Line Up Front). Модель учится тому, что самая «важная» информация всегда находится в начале.
- В то время как современные модели могут обрабатывать до 1 миллиона токенов для одного взаимодействия (~700 000-800 000 слов), они стремятся установить рамки как можно быстрее, а затем интерпретировать все остальное через эти рамки.

Изучив более 1,2 миллиона исследовательских ссылок, мы обнаружили значимую закономерность в 18 000 из них. Результаты чрезвычайно надежны, со значением P-value 0.0, что означает, что вероятность их случайного возникновения практически равна нулю. Чтобы подтвердить, что эти выводы соответствуют действительности, я проанализировал данные в нескольких различных случайных группах.
- Партия 1 была немного более плоской, но партии 2, 3 и 4 практически идентичны.
- Заключение: Поскольку партии 2, 3 и 4 зафиксировали точно такую же закономерность, данные стабильны по всем 1,2 миллионам цитат.
Эти тесты показывают, что ChatGPT обычно фокусируется на начале документов, но возникает новый вопрос о том, как он читает более мелкие разделы текста. Продолжает ли он отдавать приоритет началу или его внимание смещается по мере чтения? Теперь, когда мы подтвердили эту закономерность во многих документах, я хотел изучить, как он ведет себя на уровне абзацев.

Мы проанализировали более 1000 высокоцитируемых статей и обнаружили, что цитаты чаще всего встречаются в середине абзацев – в 53% случаев. Только около четверти (24,5%) цитат находится в первом предложении, и чуть более 22% – в последнем. Это показывает, что ChatGPT не просто просматривает первое предложение каждого абзаца; он действительно тщательно читает контент.
Как цифровой маркетолог, я экспериментировал с ChatGPT и тем, как он извлекает информацию для цитирования. Я обнаружил, что не нужно перегружать каждый абзац ответом. ChatGPT на самом деле ищет *наиболее информативное* предложение – то, которое содержит наибольшее количество релевантных деталей и добавляет больше новой информации – и не имеет значения, где это предложение находится в абзаце. Когда вы комбинируете это с шаблоном ‘лыжного трампа’ (где информация постепенно наращивается), кажется, что ваш лучший шанс быть процитированным – сосредоточиться на первых 20% вашего контента. Именно там должна быть самая важная информация!
2. Что заставляет ChatGPT чаще цитировать фрагменты?
Мы выявили типы контента, которые ChatGPT часто использует при предоставлении цитат. Теперь мы хотим понять *почему* он выбирает именно эти источники – что делает некоторый контент более вероятным для цитирования, чем другой?
Анализ показывает пять выигрышных характеристик:
- Окончательный язык.
- Разговорная структура вопросов и ответов.
- Обогащенность сущностями.
- Сбалансированное настроение.
- Простое письмо.
1. Окончательный против расплывчатого языка

Исследования, получающие цитирования, почти в два раза чаще чётко определяют термины или концепции (36,2% по сравнению с 20,2%). Хотя это не всегда строгое определение, высокоцитируемые работы устанавливают чёткую связь между идеями.
Возможные объяснения влияния прямого, декларативного письма:
- В векторной базе данных слово «is» выступает в качестве прочного моста, соединяющего предмет с его определением. Когда пользователь задаёт вопрос «Что такое X?», модель ищет самый сильный векторный путь, который почти всегда представляет собой прямую структуру предложения «X is Y».
- Модель старается отвечать пользователю немедленно. Она предпочитает текст, который позволяет решить запрос в одном предложении (Zero-Shot), а не синтезировать ответ из пяти абзацев.
Вывод: Начинайте свои статьи с прямого утверждения.
- Плохо: «В этом быстро меняющемся мире автоматизация становится ключевой…»
- Хорошо: «Автоматизация тестирования — это процесс использования программного обеспечения для…»
2. Разговорный стиль письма

Исследования показывают, что текст с вопросительными знаками в два раза чаще цитируется другими (18% по сравнению с 8,9%). Это подчеркивает, насколько важен стиль «вопрос-ответ» или разговорное письмо.
Начните с запроса пользователя в виде вопроса, а затем сразу же ответьте на него. Например:
- Стиль победителя: «Что такое Programmatic SEO? Это…»
- Стиль неудачника: «В этой статье мы обсудим различные нюансы…»
Большинство цитат, включающих вопросы, появляются сразу после заголовков. Похоже, что ИИ интерпретирует ваши заголовки H2 как вопросы от пользователя, а затем рассматривает текст, непосредственно следующий за каждым заголовком, как его ответ.
Пример проигрышной структуры:
-
История SEO
(Абстрактная тема)
-
Это началось в начале 90-х…
Пример структуры победителей (78%):
-
Когда началась SEO?
(Дословный запрос)
-
SEO началось в…
(Прямой ответ)
Этот пример эффективен благодаря тому, что я называю «отражением сущности». Вопрос в заголовке касается SEO, а ответ сразу начинается со слова ‘SEO’.
3. Богатство сущностей

Обычный английский текст обычно включает собственные имена – такие как названия брендов, инструменты или имена людей – примерно в 5–8% случаев. Однако тексты с большим количеством цитат содержат собственные имена гораздо чаще – около 20,6%!
- Показатель в 5-8% является лингвистическим ориентиром, полученным из стандартных корпусов, таких как Brown Corpus (1 миллион слов репрезентативного английского текста) и Penn Treebank (Wall Street Journal текст).
Пример:
- Неудачное предложение: «Для этой задачи есть много хороших инструментов». (Плотность 0%)
- Лучшее предложение: «Лучшие инструменты включают Salesforce, HubSpot и Pipedrive». (30% Плотность)
Большие языковые модели работают, предсказывая вероятности, поэтому общие советы, такие как ‘выберите правильный инструмент’, не очень полезны. Лучше быть конкретным – например, ‘выберите Salesforce’ – потому что это дает что-то конкретное для проверки. Эти модели предпочитают предложения с конкретными деталями – то, что мы называем ‘якорями’ – потому что они делают ответ более ясным и сфокусированным.
Как digital-маркетолог, я всегда говорю людям, что чем больше конкретных деталей вы включаете – например, названия брендов, местоположения или даже упоминания конкурентов – тем более информативным и увлекательным становится ваш контент. Подумайте об этом так: детали добавляют содержательность! Не стесняйтесь называть имена – даже если это ваши конкуренты – потому что это на самом деле делает ваше сообщение богаче и ценнее.
4. Сбалансированное настроение

Мой анализ показывает, что текст имеет умеренный уровень личного мнения, получив оценку 0.47 по стандартной мере, используемой в обработке естественного языка. Этот показатель указывает на баланс между фактической информацией и субъективными точками зрения.
Оценка выставляется по шкале от 0.0 до 1.0:
- 0.0 (Чистая объективность): Текст содержит только проверяемые факты. Никаких прилагательных, никаких эмоций. Пример: «The iPhone 15 was released in September 2023.»
- 1.0 (Чистая субъективность): Текст содержит только личные мнения, эмоции или яркие описания. Пример: «The iPhone 15 is an absolutely stunning masterpiece that I love.»
Искусственный интеллект процветает благодаря содержательным объяснениям, а не просто сырым данным или предвзятым мнениям. Он предпочитает текст, который выходит за рамки простого изложения фактов и вместо этого проясняет *как* эти факты имеют отношение и что они значат – по сути, стиль знающего аналитика.
Убедительное утверждение (с оценкой около 0.5) звучит так: «Хотя iPhone 15 имеет стандартный чип A16, он лучше подходит для создания фотографий и видео в условиях низкой освещенности, что делает его отличным вариантом для людей, которые создают контент.»
5. Профессиональное написание текстов

Текст, который является ясным и лаконичным, как тот, который можно найти в таких изданиях, как *The Economist* или *Harvard Business Review*, имеет тенденцию чаще цитироваться в академических исследованиях. Успешные статьи обычно имеют оценку удобочитаемости по Флешу-Кинкейду около 16, что сопоставимо с уровнем чтения в колледже, в то время как менее цитируемые статьи часто получают оценку около 19.1, что указывает на более продвинутую сложность на уровне PhD.
Даже при обсуждении сложных тем, чрезмерно сложный текст может быть проблемой. Высокий показатель читабельности (например, 19) часто указывает на длинные, запутанные предложения, перегруженные техническими терминами. Искусственный интеллект лучше всего работает с ясным и простым текстом – предложениями, которые следуют простой схеме «подлежащее-сказуемое-дополнение» и не слишком длинные – потому что он может легче идентифицировать и понимать ключевую информацию.
Заключение
Шаблон «трамплин» подчеркивает, как рассказывание историй и поиск информации иногда сталкиваются. Система видит постепенное раскрытие информации как неопределенность и фокусируется на быстром выявлении ключевых людей и фактов.
Контент с высокой видимостью функционирует больше как структурированный брифинг, чем как история.
Написание чётко и подробно требует дополнительных усилий. Наш анализ показывает, что успешный контент на самом деле использует сложный деловой язык и включает в себя множество конкретных деталей, что бросает вызов идее о том, что ИИ предпочитает более простой стиль письма – хотя и существуют некоторые исключения.
Мы пока не создали роботов, которые могут писать как люди. Однако машины становятся всё лучше в понимании того, что люди хотят от текста. Когда дело касается деловой переписки, люди быстро просматривают текст в поисках ключевой информации. Начиная с основной мысли – заключения – помогает как компьютерной системе, так и читателю сэкономить время.
Методология
Чтобы понять точно где и почему ИИ цитирует контент, мы проанализировали код.
Все данные в этом исследовании получены из Gauge.
- Gauge предоставил примерно 3 миллиона ответов от ИИ из ChatGPT, наряду с 30 миллионами цитат. Содержимое веб-страниц по каждому URL цитаты было извлечено в момент предоставления ответа, чтобы обеспечить прямую корреляцию между реальным веб-контентом и самим ответом. Были извлечены как исходный HTML, так и обычный текст.
1. Набор данных
Мы начали с большого массива, состоящего из более чем 1,2 миллиона результатов поиска и ответов, сгенерированных искусственным интеллектом. Затем мы сузили его до анализа более чем 18 000 источников, чтобы понять, откуда поступала информация, и более чем 11 000 источников, чтобы изучить, как использовался язык.
- Значимость: Этот размер выборки достаточно велик, чтобы получить P-значение 0.0 (p < 0.0001), что означает, что обнаруженные нами закономерности являются статистически неоспоримыми.
2. Движок «Harvester»
Мы использовали технику, называемую семантическими внедрениями – которая опирается на нейронные сети – чтобы точно определить предложение, на которое ссылался ИИ.
- Модель: Мы использовали all-MiniLM-L6-v2, модель sentence-transformer, которая понимает смысл, а не только ключевые слова.
- Фильтр: Мы применили строгий порог схожести (0.55), чтобы отбросить слабые совпадения или галлюцинации, гарантируя, что мы анализировали только высоконадежные цитаты.
3. The Metrics
Как только мы нашли точное соответствие, мы измерили две вещи:
- Позиционная глубина: Мы рассчитали точное место, где цитируемый текст появился в HTML (например, на отметке 10% против отметки 90%).
- Лингвистический ДНК: Мы сравнили «победителей» (процитированные введения) и «проигравших» (пропущенные введения) с помощью обработки естественного языка (NLP) для измерения:
- Коэффициент определения: Присутствие определенных глаголов (is, are, refers to).
- Плотность сущностей: Частота собственных имен (бренды, инструменты, люди).
- Субъективность: Оценка настроения от 0.0 (Факт) до 1.0 (Мнение).
Смотрите также
- Обзоры Google AI теперь предоставляют помощь в программировании
- YouTube запускает платные курсы для большего количества каналов
- 10 творческих способов мотивировать вашу маркетинговую команду с помощью @sejournal, @jasonhennessey
- Акции PHOR. ФосАгро: прогноз акций.
- Акции KMAZ. КАМАЗ: прогноз акций.
- Акции RASP. Распадская: прогноз акций.
- Google: рейтинг несвязанных ключевых слов в поиске? Сделайте ваши заголовки и контент более понятными
- Миллиарды URL-адресов Google goo.gl больше не будут работать
- Google разрешит рекламу средств по уходу за волосами на лобке в сентябре 2024 года
- Google заявляет, что теги заголовков «может быть» влияют на рейтинг
2026-02-17 17:42