Извлечение информации. Часть 3: Векторизация и Трансформеры (Не фильм)

Основная цель систем информационного поиска — предоставить пользователям то, что им нужно, и сделать так, чтобы они были довольны результатами. Важно помнить, что каждая часть этих систем — то, как они принимают информацию и что возвращают — создается с учетом хорошего пользовательского опыта.

Окей, так что я глубоко погрузился в то, как эти AI-системы на самом деле *находят* информацию, и это на удивление сложно. Это третья часть серии, которую я назвал ‘Information Retrieval for Beginners’ – по сути, я разбираю все, начиная с данных, на которых эти системы учатся, и заканчивая тем, как они выясняют, что вы *действительно* имеете в виду, даже когда ваши поисковые запросы – хаос. Речь идет о том, чтобы понять, как они работают, не застревая в техническом жаргоне.

TL;DR

  1. В векторной модели пространства расстояние между векторами представляет собой релевантность (сходство) между документами или элементами.
  2. Векторизация позволила поисковым системам выполнять поиск по концепциям, а не по словам. Это выравнивание концепций, а не букв или слов.
  3. Более длинные документы содержат больше похожих терминов. Чтобы бороться с этим, длина документа нормализуется, и приоритет отдается релевантности.
  4. Google делает это уже более десятилетия. Возможно, вы тоже делаете это уже более десятилетия.

https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text

Вещи, которые вам следует знать, прежде чем мы начнем

Некоторые концепции и системы, о которых вам следует знать, прежде чем мы начнем.

Вам не удастся отслеживать всё, и это нормально. Просто сосредоточьтесь на получении удовольствия, и со временем и повторением вы можете постепенно вспомнить важные части.

Что такое векторная модель пространства?

Векторная модель пространства — это способ представления текстовых документов в виде векторов, которые по сути являются списками чисел. Это позволяет компьютерам измерять, насколько похожи или отличаются документы друг от друга, вычисляя расстояние между этими векторами.

Расстояние вычисляет сходство между терминами или элементами.

Векторные модели часто используются в задачах, таких как поиск информации, организация документов и определение ключевых терминов. Они работают, создавая структурированное, многомерное числовое представление данных, позволяя нам определять, насколько релевантны элементы друг другу, используя такие методы, как косинусное сходство – которое измеряет, насколько они похожи.

Каждому понятию или идее в тексте присваивается числовое значение. Если понятие присутствует в тексте, его значение будет больше нуля. Важно отметить, что эти понятия не ограничиваются отдельными словами; они могут быть любой длины, от коротких фраз до полных предложений или даже всего документа.

Как это работает?

Как вебмастер, я узнал, что как только я определяю, что пользователи могут искать – например, ключевые слова, фразы и полные предложения – и присваиваю этим запросам значение, мой контент может быть ‘оценен’ поисковой системой. По сути, система определяет, где моя страница лучше всего ‘вписывается’ в свою огромную базу данных – её ‘векторное пространство’ – исходя из того, насколько хорошо она соответствует этим запросам. Модель решает, какое лучшее место для неё.

Документы могут быть ранжированы и сопоставлены друг с другом на основе того, насколько хорошо они соответствуют вашему поисковому запросу. Этот процесс вычисляет ‘оценку схожести’ для многих документов одновременно, измеряя, насколько тесно их *значение* связано с вашим запросом. Эти оценки затем определяют, где документы появляются в результатах поиска.

Не только их лексическое сходство.

Я знаю, это звучит немного сложно, но подумайте об этом так:

Текст может быть легко изменен и заполнен повторяющимися ключевыми словами, из-за чего он кажется базовым. Однако, если система способна понимать истинный смысл документа, это значительный шаг к созданию высококачественного контента.

Почему это работает так хорошо?

Машины не просто любят структуру. Они её обожают.

Использование согласованных форматов ввода и вывода приводит к более надежным и точным результатам. Набор данных, который является одновременно подробным и лаконичным, повысит точность таких задач, как классификация информации, извлечение ключевых деталей и прогнозирование.

Текст часто неструктурирован, что затрудняет его обработку компьютерами. Он дезорганизован и сложен, что на самом деле дает ему преимущество по сравнению со старыми методами, такими как Boolean Retrieval Model.

Булевы модели поиска документов находят документы, проверяя, соответствуют ли они запросу, используя простую логику ‘да’ или ‘нет’. Они рассматривают каждый документ как набор слов и используют операторы, такие как AND, OR и NOT, чтобы найти результаты, соответствующие определенным критериям.

Его простота имеет свои применения, но не может интерпретировать смысл.

Лучше рассматривать поиск как просто нахождение данных, а не как истинное понимание того, что вы находите. Мы часто слишком полагаемся на простое подсчёт частоты появления слов, особенно когда ищем что-то сложное. Это быстро, но это уже не самый эффективный подход.

Векторная модель пространства понимает, что вы *имеете в виду* своим поиском, а не только конкретные слова, которые вы используете – и именно это делает её такой эффективной.

Именно эта структура создает гораздо более точный отклик.

Трансформерская революция (Не Майкл Бэй)

Как цифровой маркетолог, я заметил огромный сдвиг в том, как мы работаем с языком в наших кампаниях. Забудьте старые способы использования статических векторных представлений слов, таких как Word2Vec. Архитектура transformer – настоящий прорыв – перевела нас к контекстным векторным представлениям, что означает, что значение слова меняется в зависимости от того, как оно используется. Это меняет правила игры, в отличие от всего, что мы видели раньше.

Традиционные языковые модели присваивают каждому слову одно, фиксированное значение. Однако, трансформеры более продвинуты – они создают значения для слов, которые адаптируются в зависимости от того, как они используются в предложении.

Google использует эту технику уже некоторое время. Это не недавняя разработка, и она не основана на местоположении. Это просто то, как работает современный поиск – за счёт фактического понимания содержания веб-страницы.

Конечно, нет. Но как личность – как кто-то, кто думает и чувствует – ты понимаешь, что я имею в виду. Трансформеры, однако, лишь делают вид, что понимают.

  1. Трансформеры взвешивают входные данные по значимости данных.
  2. Модель уделяет больше внимания словам, которые требуют или предоставляют дополнительный контекст.

Позвольте мне привести пример.

Клыки летучей мыши сверкнули, когда она вылетела из пещеры.

Летучая мышь — это неоднозначный термин. Неоднозначность — это плохо в эпоху ИИ.

Как человек, который годами работал над тем, как поисковые системы понимают язык, я своими глазами видел, как легко что-то можно неправильно истолковать. В данном случае, то, как трансформерная модель связывает слово ‘bat’ со словами, такими как ‘teeth’, ‘flew’ и ‘cave’, сильно указывает на то, что она думает об животном – летающем, ночном существе – а не об оборудовании, используемом в крикете или бейсболе. Гораздо вероятнее, что она свяжет ‘bat’ с кровососущим грызуном, чем со спортсменом, забивающим барьер.

BERT Strikes Back

BERT. Двунаправленные представления кодировщика из трансформеров. Пожимает плечами.

На протяжении многих лет Google преуспел в понимании смысла слов и документов, учитывая контекст, в котором они появляются. Эта способность понимать взаимосвязи и меняющиеся намерения пользователей является ключевым фактором успеха Google в поисковых системах и картографии.

Более новые версии BERT, такие как DeBERTa, представляют слова, используя два отдельных фрагмента информации: что означает слово *и* где оно появляется в тексте. Эта техника, называемая Disentangled Attention, помогает модели более точно понимать контекст.

Да, мне тоже это кажется странным.

BERT понимает слова в контексте, рассматривая всё предложение, или даже весь документ, сразу. В отличие от некоторых других систем, он не учитывает только слова, непосредственно перед или после данного слова, чтобы понять его значение.

Синонимы Малыш

Как SEO-эксперт, я помню, когда RankBrain был запущен в 2015 году – это было действительно большое событие. Это была первая система Google, которая использовала глубокое обучение, насколько я знаю, и её основная задача заключалась в том, чтобы помочь Google лучше понимать *смысл* за поисковыми запросами, а не только сами ключевые слова. По сути, это помогло Google связать слова с идеями, которые люди на самом деле искали.

Это действительно был пик ранних дней поисковых систем. Было удивительно легко создать веб-сайт на любую тему, добиться его появления в результатах поиска и, возможно, заработать хороший доход – и все это без необходимости обладать большим опытом или тщательно планировать.

Безмятежные дни.

Оглядываясь назад, становится очевидно, что это были трудные времена для людей. Представьте себе, что важные советы о таких вещах, как похороны или вывоз мусора от предприятий, вы получаете от человека, который ведет свою деятельность из своей спальни – именно таким это и было.

По мере поступления новых и развивающихся запросов, RankBrain и последующее нейронное сопоставление оказались жизненно важными.

Затем появилась MUM, передовая технология Google, которая может понимать текст, изображения и видео на многих языках одновременно.

Борьба с проблемами длины документов

Было очевидно еще десятилетие назад – и, возможно, даже раньше – что более длинный контент показывает лучшие результаты. Я вспоминаю время, когда я писал очень длинные статьи, иногда более 10 000 слов, даже на тривиальные темы, такие как конструкторы веб-сайтов, и публиковал их непосредственно на главной странице веб-сайта.

Даже тогда это была ужасная идея…

Когда поисковые системы представляют как вопросы, так и документы в виде чисел, легко предположить, что более длинные документы естественным образом будут появляться выше в результатах поиска.

Помнишь 10-15 лет назад, когда все были одержимы тем, что каждая статья должна была быть объемом в 2000 слов.

Это оптимальная длина для SEO.

Если вы увидите ещё одну 2000-словную статью под названием «Во сколько X?», у меня есть разрешение застрелить меня.

Поскольку более длинные документы содержат больше слов, они, естественно, будут иметь более высокие значения частоты терминов (TF). Они также, как правило, используют более широкий спектр слов. И то, и другое может привести к тому, что более длинные документы получат более высокие баллы.

Поэтому, на некоторое время, они были зенитом нашего отвратительного производства контента.

Более длинные документы можно условно разделить на две категории:

  1. Многословные документы, которые по сути повторяют одно и то же содержание (привет, ключевые слова, мой старый друг).
  2. Документы, охватывающие несколько тем, в которых поисковые запросы, вероятно, соответствуют небольшим фрагментам документа, но не всему ему.

Для решения этой проблемы используется метод, называемый Нормализация Длины Документа с Поворотом, для балансировки оценок. Он помогает предотвратить несправедливое влияние более длинных документов на результаты.

Нам следует использовать косинусное расстояние для измерения схожести, потому что оно фокусируется на том, насколько релевантны документы, а не просто на их длине. Такой подход подчеркивает смысл, а не просто количество раз, когда появляется слово.

Как цифровой маркетолог, я считаю косинусную схожесть невероятно полезной. Больше всего я ценю то, что ей не важна длина текста. Краткий ответ и подробный могут считаться по сути одной и той же темой, если их ‘направление’ схоже, когда вы смотрите на них как на векторы. Речь идет о основном смысле, а не просто об объеме контента.

Ну и что?

Отличный вопрос.

Вам не обязательно быть экспертом по базам данных, чтобы это понять. Достаточно знать, что базы данных могут быстро находить похожие элементы, не просматривая всё подряд, и они делают это, используя специальные внутренние инструменты.

Это приносит пользу таким компаниям, как Google, помогая им найти оптимальное соотношение между производительностью, стоимостью и простотой управления.

Новое исследование Кевина Индига показывает, что ChatGPT в значительной степени предпочитает ссылаться на информацию из начала текстов. Более 44% всех его цитат приходится всего лишь на первые 30% контента, при этом вероятность цитирования информации резко снижается после этого – закономерность, которую Индиг называет эффектом «лыжной горки».

Еще одна причина не создавать бездумно огромные документы, потому что кто-то вам сказал это сделать.

В Google, по крайней мере. И ваш ранг определяет ваш счёт. Так что начинайте заниматься SEO.

Исследование Метехана, анализирующее 200 000 точек данных относительно AEO/GEO, демонстрирует его значительную важность – как сейчас, так и в будущем. Это касается не только нашей работы; это также поднимает вопросы о потенциальных предубеждениях и более широком культурном воздействии.

Преобразование текста в последовательность числовых идентификаторов, процесс, называемый токенизацией, влияет как на объем необходимой обработки, так и на точность результатов.

  • Обычный английский текст является наиболее эффективным по токенам форматом, составляя 5,9 символов на токен. Давайте назовем это относительной эффективностью в 100%. Базовый уровень.
  • Турецкая проза имеет всего 3.6. Это на 61% эффективнее.
  • Markdown tables 2.7. На 46% эффективнее.

Некоторые языки программирования более эффективны, чем другие, и это становится все более важным. С ростом стоимости разработки и опасениями по поводу финансовой стабильности некоторых AI компаний, выбор правильного языка имеет решающее значение.

Top Tips

Поскольку Google уже установил эти методы, они должны работать последовательно на обеих платформах.

  1. Ответь, наконец, на вопрос. Боже мой. Переходи к сути. Меня не волнует ничего, кроме того, что я хочу. Дай это мне немедленно (сказано как человеком и машиной).
  2. Поэтому сразу выкладывайте важную информацию. У меня нет предела вниманию. То же самое касается и трансформерных моделей.
  3. Разграничьте. Работа по оптимизации сущностей. Установите связи онлайн. Получите свою панель знаний. Авторы, аккаунты в социальных сетях, структурированные данные, создание брендов и профилей.
  4. Отличный E-E-A-T. Предоставляйте достоверную информацию способом, который отличает вас от конкурентов.
  5. Создавайте насыщенные ключевыми словами внутренние ссылки, которые помогают определить, о чём страница и контент. Частично — это disambiguation. Частично — просто хороший UX.
  6. Если вам нужно что-то, ориентированное на LLMs, будьте более эффективны в использовании слов.
    • Использование структурированных списков может снизить потребление токенов на 20-40%, поскольку они убирают лишнюю информацию. Не потому, что они более эффективны*.
    • Используйте общеизвестные аббревиатуры, чтобы также экономить токены.

Ключ к успеху здесь прост: предоставляйте людям то, что им нужно, быстро и делайте всё предельно понятно. В сегодняшнем переполненном онлайн-мире этот подход удивительно эффективен.

Последние фрагменты

Некоторые люди задаются вопросом, может ли использование markdown с AI-агентами помочь им игнорировать ненужный код и быстро извлекать основной контент с веб-сайтов. По сути, агенты могли бы пропускать беспорядочный HTML и сосредотачиваться на том, что важно.

Неясно, насколько лучше было бы с более чистым и логичным HTML, но это определенно то, за чем стоит следить.

Очень SEO. Много AI.

Смотрите также

2026-02-20 17:43

Обновление режима Google AI Link, нажмите, чтобы поделиться данными и расширить возможности ChatGPT – SEO Pulse

Вот что важно для вас и вашей работы.

Google перерабатывает ссылки в обзорах ИИ и режиме ИИ.

Робби Штайн, вице-президент Google Search, поделился в X, что AI Overviews и AI Mode получают новый внешний вид ссылок как на компьютерах, так и на телефонах.

Вот что нового в отношении ссылок: Когда вы наводите курсор на группы ссылок на своем компьютере, вы увидите всплывающее окно с названием веб-сайта, его значком и кратким описанием. Google также делает значки ссылок более заметными и информативными как на компьютерах, так и на телефонах.

Почему это важно

Это обновление является частью продолжающихся усилий Штайна по улучшению отображения ссылок в результатах поиска ИИ Google. Летом прошлого года он заявил, что отображение большего количества встроенных ссылок является ключевой целью для поиска ИИ, и Google последовательно совершенствует способ их показа в ответах, сгенерированных ИИ.

https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text

AI Overviews теперь используют ‘всплывающее окно при наведении курсора’, чтобы показать, откуда взята информация. Эта карточка предварительного просмотра предоставляет пользователям больше контекста, чем небольшие ссылки, которые использовались ранее, помогая им решить, хотят ли они посетить исходный источник. Этот новый подход может значительно изменить количество трафика, получаемого издателями из результатов поиска с использованием AI.

Что говорят в индустрии

SEO-эксперт Лили Рей из Amsive поделилась в X (ранее Twitter), что впечатлена новыми карточками ссылок и надеется, что эта функция останется доступной.

43% запросов ChatGPT, полученных от пользователей, использующих неанглийские запросы, выполняются на английском языке.

Новое исследование компании Peec AI, которая анализирует данные поиска ИИ, показало, что многие последующие вопросы к ChatGPT задаются на английском языке, даже если первоначальный запрос был сделан на другом языке.

Peec AI изучил более 10 миллионов пользовательских запросов и 20 миллионов связанных поисков из своей системы. Анализ показал, что когда пользователи не вводили запросы на английском языке, 43% результирующих поисков всё равно проводились на английском языке. Также, почти в 78% случаев, когда пользователь начинал с запроса на неанглийском языке, хотя бы один из сделанных им поисков был на английском языке.

Почему это важно

ChatGPT Search работает, преобразуя ваш вопрос в более конкретные поисковые запросы. OpenAI не объяснила, как она определяет, какие поисковые термины использовать. Однако данные от Peec AI показывают, что английский язык часто включается в эти поиски, даже если вы и ваше местоположение не англоязычные.

Команда по связям с поисковой системой Google не может сказать, что вам по-прежнему нужен веб-сайт.

Кто-то спросил Google, будет ли по-прежнему необходим веб-сайт в 2026 году. Google не дал прямого ответа ‘да’.

В последнем подкасте Search Off the Record, Гэри Ильес и Мартин Сплитт из Google обсудили ценность веб-сайтов в современном онлайн-мире около 28 минут. Они согласились, что владение веб-сайтом все еще имеет преимущества – такие как контроль над вашими данными, тем, как вы зарабатываете деньги, и тем контентом, который вы отображаете. Однако они не утверждали, что эти преимущества уникальны для традиционного веба.

Почему это важно

Google Search работает, исследуя и организуя информацию с веб-сайтов. Интересно, что даже команда Google, ответственная за отношения с бизнесом, признает, что компании могут задаваться вопросом, нужен ли им веб-сайт – это кажется очевидной выгодой, но это обоснованное соображение для некоторых.

По словам Ильиса, хотя это и не является официальной рекомендацией, он считает, что веб-сайты остаются лучшим способом обмена информацией с широкой аудиторией. Он уточнил, что это просто его личное мнение.

Сегодня общение происходит на множестве различных платформах – таких как AI-чат-боты, социальные сети, онлайн-сообщества и поисковые системы. Для тех, кто помогает клиентам создавать веб-сайты, сейчас важнее сосредоточиться на том, где их целевая аудитория *в настоящее время* проводит время в сети, а не полагаться на устаревшие предположения.

Тема Недели: Земля Непрерывно Движется Под Органикой

Истории этой недели подчеркивают, как всё меняется и становится сложнее быть замеченным в сети без оплаты продвижения, как это традиционно делали многие маркетологи.

Как человек, который разрабатывает веб-сайты уже много лет, я внимательно слежу за тем, как ИИ меняет ситуацию. Google корректирует способ отображения ссылок в этих ответах, работающих на базе ИИ, что является хорошим знаком того, что они наконец-то прислушиваются к нашим опасениям по поводу трафика. Также стоит отметить, что ChatGPT теперь фильтрует не-английский контент *перед* тем, как даже рассмотреть релевантность страницы – это очень важно. И, честно говоря, даже команда Google не обещает, что веб-сайты останутся основным источником ответов. Ландшафт меняется, и нам нужно адаптироваться.

Эти примеры показывают, почему важно делиться своим контентом на нескольких платформах, чтобы взаимодействовать с более широкой аудиторией. Также крайне важно отслеживать, откуда поступает трафик на ваш веб-сайт.

Смотрите также

2026-02-20 17:44

New Meridian Tool, Performance Max Learning Path – PPC Pulse

Добро пожаловать в еженедельный PPC Pulse! Мы сосредоточены на том, как планировать различные ситуации в Google Ads и Microsoft Ads.

Как SEO-эксперт, я внимательно слежу за некоторыми захватывающими новыми инструментами от крупных платформ. Google недавно представил ‘Scenario Planner’ внутри Meridian, который позволяет мне тестировать различные бюджетные стратегии *перед* фактическими тратами – это огромная экономия времени! А Microsoft запустил действительно полезный, пошаговый обучающий курс для Performance Max кампаний, который проведет вас через реалистичные сценарии кампаний. Оба инструмента разработаны, чтобы помочь нам принимать более взвешенные решения и добиваться лучших результатов.

Оба обновления указывают на растущий акцент на улучшение решений до запуска кампаний.

Вот что произошло на этой неделе и почему это важно для рекламодателей.

Google представляет Scenario Planner для Meridian

Google представила новую функцию под названием Scenario Planner для своей платформы моделирования маркетингового микса, Meridian. Этот инструмент помогает маркетологам экспериментировать с различными бюджетными стратегиями и прогнозировать, как эти изменения могут повлиять на результаты, основываясь на анализе данных Meridian.

Рекламодателям больше не нужно полагаться на отложенные квартальные отчёты о маркетинговом миксе или фиксированные данные. Теперь они могут прогнозировать, как изменение расходов на рекламу на различных платформах повлияет на ключевые результаты, такие как продажи, действия клиентов и общая прибыль.

https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text

Как человек, который разрабатывает веб-сайты и работает с маркетинговыми данными на протяжении многих лет, я внимательно слежу за обновлениями Google в отношении Моделирования Маркетингового Микса (MMM). По сути, они стремятся предоставить маркетологам – таким как я – способ легко понять, что работает, и обосновать наши бюджеты. Самое лучшее? Вам не нужно быть программистом, чтобы получать ценные сведения и быстро принимать решения на основе данных. Речь идет о том, чтобы сделать сложный анализ простым и практичным для оперативного планирования.

Похоже, это полезный инструмент планирования, предназначенный для облегчения стратегических обсуждений между рекламодателями и лицами, принимающими важные решения.

Почему это важно для рекламодателей

Моделирование маркетингового микса обычно выполняется командами более высокого уровня в компании, часто появляется в квартальных или годовых отчётах или обсуждается финансовыми аналитиками и специалистами по аналитике. Большинство специалистов, управляющих контекстной рекламой (PPC), не используют эти инструменты моделирования регулярно.

Это обновление важно, потому что Google теперь предоставляет менеджерам с ограниченным бюджетом прямой доступ к информации, необходимой для принятия ежедневных решений.

PPC-маркетологам все чаще требуется демонстрировать ценность своих расходов, выходя за рамки простого отслеживания последнего клика перед покупкой. Им необходимо показывать более полную отдачу от инвестиций при запросе дополнительного бюджета или перераспределении средств.

Этот инструмент обладает потенциалом изменить то, как проходят маркетинговые обсуждения. Вместо того, чтобы сосредотачиваться исключительно на прошлых результатах рекламы, команды могут все чаще использовать прогнозы и оценки потенциальной выгоды для обоснования новых стратегий.

Что говорят профессионалы в области PPC

Джинни Марвин из Google объявила о новом Планировщике сценариев на LinkedIn, подчеркнув его ключевые особенности.

«Не требуется никакого технического опыта в MMM, чтобы перейти от ‘что произошло?’ к ‘что дальше?’

Как SEO-эксперт, я слышу много шума вокруг этого обновления! Людям вроде Ivan Walker это действительно нравится, а другие, такие как Ashley V., придерживаются подхода ‘посмотрим и увидим’, желая узнать, как это работает для других, прежде чем бросаться в омут с головой. Всегда приятно видеть сочетание энтузиазма и осторожного оптимизма, когда выходят новые инструменты.

Microsoft запускает учебный путь Performance Max на основе сценариев.

Microsoft Advertising расширяет свою Learning Lab новой обучающей программой, ориентированной на Performance Max, помогая пользователям получить максимальную отдачу от этой рекламной функции.

Это обучение отличается от типичных сертификаций. Вместо простого изучения концепций, оно ставит рекламодателей в реалистичные ситуации, чтобы помочь им получить практические навыки. Оно делает акцент на принятии реальных решений при создании, улучшении и исправлении рекламных кампаний.

Я рад, что Microsoft подчеркивает, что получение хороших результатов с Performance Max зависит не только от технических настроек – речь идет о глубоком понимании ваших целей, общей картины и хорошо продуманного плана.

Это руководство по обучению помогает рекламодателям подготовиться к реальным проблемам, с которыми они столкнутся при управлении аккаунтами. В нём рассматриваются такие вопросы, как определение того, как потратить свой бюджет, понимание эффективности их рекламы и устранение проблем, когда реклама не соответствует ожиданиям.

Почему это важно для рекламодателей

Performance Max существует уже некоторое время. Хотя большинство рекламодателей пробовали его, и многие используют его в широком масштабе, сейчас отличается необходимость в более стратегическом подходе для достижения наилучших результатов.

Многие люди думают, что кампании Performance Max запускаются автоматически после активации, но это не совсем так. Результаты на самом деле сильно зависят от того, как настроены ваши кампании, какие данные вы предоставляете и насколько хорошо вы определили, как выглядит успешная конверсия.

Microsoft считает, что автоматизация не устраняет потребность в стратегическом мышлении – она просто меняет *где* применяется эта стратегия. Вместо того, чтобы сосредотачиваться на ручных задачах, таких как корректировка ставок, рекламодатели теперь могут уделять больше усилий важным областям, таким как определение целевой аудитории, повышение качества рекламы и обеспечение точного отслеживания эффективности.

Обучение на основе сценариев может быть отличным способом для агентств и внутренних команд быстро обучить новых или менее опытных членов команды. Вместо простого объяснения функций, оно помещает их в реалистичные ситуации, с которыми команды обычно сталкиваются, давая им ценный контекст и практический опыт.

Тема Недели: Планирование Прежде Чем Тратить

Оба обновления на этой неделе сосредоточены на единой цели: принятии лучших решений *до* того, как будут выделены средства.

Google теперь позволяет маркетологам просматривать, как различные варианты бюджета могут работать, прежде чем перемещать свои рекламные средства в другое место. Аналогично, Microsoft показывает рекламодателям, чего ожидать в реальных примерах кампаний *перед* их фактическим запуском.

Большинство новостей индустрии освещают улучшения, внесенные *в ходе* кампании, но эти обновления касаются того, что происходит заранее. Прежде чем запускать кампанию, насколько вы уверены, что она хорошо организована? Насколько комфортно вы чувствуете себя с тем, как распределен ваш бюджет? И насколько прочны убеждения, на которых основана ваша стратегия?

В условиях тщательного контроля бюджетов и автоматизации всё большего количества задач, этап планирования кампаний сейчас важнее, чем когда-либо прежде.

Смотрите также

2026-02-20 17:10

Google предлагает AI-сертификат бесплатно для соответствующих малых предприятий США.

Недавно Google представила новый онлайн-курс под названием Google AI Professional Certificate. Он разработан для прохождения в удобном для вас темпе и обучает навыкам, таким как работа с данными, создание контента, проведение исследований и современному подходу к кодированию под названием ‘vibe coding’.

Все участники получают три месяца бесплатного доступа к Google AI Pro. Малые предприятия США, соответствующие требованиям, могут получить доступ к полной программе бесплатно, подав отдельную заявку – подробности о соответствии требованиям см. ниже.

Как специалист по цифровому маркетингу, я рад сообщить, что сертификация теперь доступна на популярных платформах, таких как Coursera, Google Skills и Udemy. Если вы находитесь в США или Канаде, ежемесячная подписка стоит $49.

Что охватывает сертификат

Эта программа состоит из семи коротких уроков, каждый из которых занимает около часа на завершение. Вам не требуется какой-либо предыдущий опыт в области искусственного интеллекта для участия.

Как профессионал в области цифрового маркетинга, я провожу участников через более 20 практических упражнений. Мы не просто обсуждаем теорию – мы действительно *делаем* вещи. Это включает в себя такие вещи, как разработка презентаций и маркетингового контента, проведение углубленных маркетинговых исследований, создание привлекательной инфографики, анализ данных для понимания того, что работает, и даже создание пользовательских приложений – и самое лучшее, им не нужен какой-либо опыт программирования!

После завершения всех семи частей курса вы получите сертификат Google, который сможете продемонстрировать в LinkedIn и предоставить потенциальным работодателям.

https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text

Бесплатный доступ для соответствующих малых предприятий США.

Google предоставляет бесплатный сертификат квалифицированным малым и средним предприятиям США с 500 или менее сотрудниками. Новые клиенты Google Workspace также получают три месяца плана Business Standard бесплатно, до 300 пользователей.

Как специалист по цифровому маркетингу, сообщаю вам, что для соответствия требованиям предприятия должны быть зарегистрированы в США и предоставить свой EIN через заявку на Coursera. Coursera оценивает, что проверка вашей информации занимает примерно 5-7 рабочих дней.

Компании, заинтересованные в участии, могут найти больше информации на grow.google/small-business. Google сотрудничает с Торговой палатой США и Американскими центрами развития малого бизнеса, чтобы помочь распространить информацию об этой программе.

Как это помогает

Эта программа расширяет возможности Google AI Essentials, очень популярного курса на Coursera. В отличие от этого вводного курса, AI Professional Certificate фокусируется на том, как фактически *использовать* AI в реальных ситуациях.

Этот сертификат обучает вас использованию инструментов искусственного интеллекта от Google, таких как Gemini, NotebookLM и Google AI Studio, что означает, что навыки, которые вы приобретаете, лучше всего применять в среде Google. В то время как Google также предлагает сертификацию Generative AI Leader для Google Cloud (запуск в мае 2025 года), она ориентирована на профессионалов бизнеса без технического образования и требует экзамен стоимостью $99. Этот новый AI Professional Certificate бесплатен – плата за экзамен отсутствует.

Заглядывая в будущее

Теперь вы можете получить Сертификат профессионала по ИИ Google через Coursera, Google Skills или Udemy. Малый бизнес в США, отвечающий требованиям, может получить его бесплатно по адресу grow.google/small-business.

Если вы уже изучаете инструменты искусственного интеллекта от Google, этот сертификат предоставляет официальную, признанную в отрасли квалификацию, чтобы продемонстрировать навыки, которые вы приобретаете.

Смотрите также

2026-02-19 23:09

Почему ИИ неправильно интерпретирует середину ваших лучших страниц

Контент часто теряет свою силу воздействия не из-за плохого написания или незаинтересованности читателя, а из-за ограничений в том, как ИИ обрабатывает длинные тексты. Большие языковые модели испытывают трудности с длинным контекстом, и многие ИИ-системы теперь сокращают контент *до того*, как он будет проанализирован, снижая его эффективность.

Эта комбинация часто приводит к тому, что я называю «мышлением в форме кости собаки» – текст начинается и заканчивается сильно, но становится слабым и нестабильным в середине. ИИ может потерять концентрацию, отклониться от темы или выдумывать неточные детали. Даже хорошо написанная, тщательно исследованная статья может пострадать от этого, когда ИИ идеально копирует введение и заключение, но придумывает содержание, чтобы соединить их.

Это не теория, как она проявляется в исследованиях, и она также проявляется в производственных системах.

https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text

Почему происходит The Dog-Bone?

Существует две последовательно возникающие ситуации, приводящие к сбою, и они поражают одно и то же место.

Это правда, что языковые модели испытывают трудности, когда важная информация погребена в длинном тексте. Исследователи из Стэнфорда обнаружили, что эти модели работают лучше всего, когда ключевые детали находятся в начале или конце входного текста, но их точность значительно снижается, когда информация помещается в середину. Этот шаблон производительности – сильный по краям, слабый в центре – они называют ‘dog-bone pattern’.

Кроме того, в то время как модели обрабатывают все большие объемы информации, системы также становятся более эффективными в сжатии этих данных. Даже если модель *может* обработать огромный ввод, шаги, связанные с этим, часто сокращают данные, суммируют их или сжимают для экономии средств и обеспечения надежной производительности. Это делает этап обработки особенно уязвимым, поскольку это наиболее вероятная часть, которая может быть упрощена или потерять важные детали.

Как человек, который уже некоторое время разрабатывает и оптимизирует веб-приложения, я слежу за исследованиями в области обработки действительно длинных входных данных – например, огромных текстовых документов или расширенных бесед. Недавно я наткнулся на статью под названием ATACompressor, которая планируется к публикации в 2026 году на arXiv. В ней рассматривается распространенная проблема, с которой мы сталкиваемся при работе с этими длинными контекстами – информация ‘теряется в середине’. Ключевая идея – адаптивное сжатие: уменьшение менее важных частей входных данных при обеспечении сохранения того, что действительно важно для поставленной задачи. Это умный подход, который рассматривает сжатие не просто как уменьшение размера, а как способ приоритизировать релевантную информацию.

Итак, вы были правы, если когда-либо говорили кому-то «укоротить середину». Сейчас я бы предложил следующее уточнение:

Два фильтра, одна опасная зона

Представьте, что ваш контент проходит через два фильтра, прежде чем стать ответом.

  • Фильтр 1: Поведение внимания модели: Даже если система передает ваш текст полностью, способность модели использовать его зависит от позиции. Начало и конец обычно работают лучше, середина — хуже.
  • Фильтр 2: Управление контекстом на системном уровне: Прежде чем модель что-либо увидит, многие системы сжимают входные данные. Это может быть явное суммирование, усвоенное сжатие или шаблоны «сворачивания контекста», используемые агентами для поддержания небольшого объема оперативной памяти. Одним из примеров в этой области является AgentFold, который фокусируется на проактивном сворачивании контекста для веб-агентов с длинным горизонтом.

Если вы считаете эти два фильтра стандартными, область между ними становится особенно уязвимой. Она и упускается из виду, и сжимается чаще.

Эта техника использует форму ‘dog-bone’ для повышения производительности. Уменьшая объем информации в средней секции, мы напрямую решаем проблемы, связанные с фильтрацией и извлечением. По сути, мы минимизируем то, что система отбрасывает, и максимизируем полезность оставшейся информации для модели.

Что с этим делать, не превращая свой текст в техническое задание?

Мы не говорим, что длинный контент мёртв – он по-прежнему ценен для читателей и полезен для систем искусственного интеллекта, которые учатся на нём. Решение не в том, чтобы писать меньше, а в том, чтобы улучшить *как* вы структурируете свои тексты.

Вот практическое руководство, намеренно оставленное лаконичным.

Поместите «Блоки ответов» в середину, а не связный текст.

Длинные статьи часто содержат подробный, извилистый раздел посередине, где автор углубляется в тему и рассматривает все её стороны – и читатели обычно могут следовать за ходом мысли. Однако, модели искусственного интеллекта иногда испытывают трудности с такой структурой. Чтобы помочь моделям лучше понимать текст, разбейте средний раздел на серию коротких, самодостаточных блоков информации.

Блок ответа содержит:
Чёткое утверждение. Ограничение. Поддерживающую деталь. Прямое следствие.

Как SEO-эксперт, я часто говорю клиентам, что если фрагмент контента не может существовать сам по себе – то есть его нельзя чётко понять даже при представлении изолированно – он не будет хорошо работать под «сжатием» алгоритмов поисковых систем. Подумайте о выделенных сниппетах или голосовом поиске – им нужна лаконичная, самодостаточная информация. Чтобы ваш контент был действительно устойчивым, сосредоточьтесь на создании сильного основного сообщения, которое трудно исказить или плохо резюмировать. Именно так вы обеспечите его высокую позицию в рейтинге и точное отражение вашего бренда.

2. Переключите тему на полпути.

Дрейф часто происходит из-за того, что модель перестаёт видеть последовательные якоря.

Примерно на полпути написанного, кратко суммируйте свою основную мысль, важные элементы, которые вы обсуждаете, и то, как вы принимаете решение. Несколько предложений – обычно от двух до четырех – будет вполне достаточно. Это помогает сохранить ясность и гарантирует, что всё останется в рамках темы.

Он также улучшает способ сжатия файлов. Чётко указывая важную информацию, вы по сути говорите программе сжатия, что сохранять, а что можно отбросить.

3. Храните доказательства локально для претензии.

Обе модели и компрессоры работают эффективнее, когда информация, подтверждающая утверждение, размещается поблизости.

Когда утверждение появляется в одной части документа, а подтверждающие его доказательства находятся гораздо позже, модели ИИ иногда сокращают текст между ними. Это может разорвать связь между утверждением и доказательством, и модель затем попытается заполнить недостающее звено собственной интерпретацией.

При предоставлении локальных доказательств начните с вашего утверждения, за которым немедленно следует соответствующий номер, дата, определение или источник. Если вам нужно объяснить подробнее, сделайте это *после* того, как вы чётко свяжете это с вашим первоначальным утверждением.

Чёткое написание и объединение связанной информации также облегчает другим возможность ссылаться на вашу работу. Трудно точно процитировать утверждение, когда читателям приходится собирать смысл из разных частей вашего текста.

4. Используйте последовательное именование для основных объектов

Это может показаться незначительным, но это важно. Хотя люди не заметят, если вы слегка измените чьё-то имя несколько раз ради последовательности, это может запутать AI-модели и привести к ошибкам.

Выбери основной термин для представления ключевой концепции и придерживайся его. Хотя допустимо использовать разные слова для обозначения людей, последовательно используй этот основной термин для всего остального. Когда программное обеспечение извлекает информацию или упрощает её, последовательные термины служат чёткими идентификаторами. Непоследовательные термины создают путаницу.

5. Рассматривайте «Структурированные Выводы» как подсказку о том, как машины предпочитают потреблять информацию.

Растущая тенденция в инструментах для больших языковых моделей заключается в создании структурированных выходных данных и ограничении возможных ответов. Речь идет не о принуждении статей к формату JSON, а скорее об упрощении автоматического извлечения информации компьютерами. Это подчеркивает ключевой момент: машины лучше всего работают, когда факты представлены последовательным и предсказуемым образом.

Чтобы сделать вашу статью более понятной, попробуйте включить в основной текст некоторые знакомые элементы. Хорошие варианты включают определения ключевых терминов, нумерованные шаги для процессов, списки требований с использованием маркеров, сравнения с использованием чётких характеристик и конкретное упоминание людей или вещей, связанных с вашими аргументами.

Если вы это сделаете, ваш контент будет проще извлекать, сжимать без проблем и использовать повторно точно.

Как это проявляется в реальной SEO-работе

Мы достигли поворотного момента. Если вы занимаетесь SEO или руководите контентом, вы больше не оптимизируете для одной AI-модели. Вместо этого сосредоточьтесь на оптимизации всей системы – того, как информация находится, обобщается и представляется.

Ваши видимые симптомы будут выглядеть следующим образом:

  • Ваша статья правильно перефразируется в начале, но основная концепция представлена неверно. Это эффект «потерянного в середине» плюс сжатие.
  • Ваш бренд упоминается, но ваши подтверждающие доказательства не переносятся в ответ. Это означает, что локальное подтверждение не работает. Модель не может обосновать цитирование вас, поэтому использует вас как фоновый цвет.
  • Твои нюансированные средние части становятся общими. Это сжатие, превращающее твои нюансы в пресную сводку, а затем модель рассматривает эту сводку как «истинную» середину.
  • Ваш ход «сокращения середины» — это способ снизить эти показатели отказов. Не за счет снижения ценности, а за счет ужесточения информационной геометрии.

Простой способ редактировать для средней выживаемости

Вот простой пятиступенчатый процесс, который вы можете использовать для любого объемного письменного проекта, и его выполнение не должно занять больше часа.

  1. Определите середину и прочитайте только среднюю треть. Если среднюю треть нельзя суммировать в двух предложениях, не теряя смысла, то это слишком мягко.
  2. Добавьте один перефразированный абзац в начале средней трети. Повторите: основное утверждение, границы и «и что с этого следует». Будьте кратки.
  3. Преобразуйте среднюю треть в четыре-восемь блоков ответов. Каждый блок должен быть цитируемым. Каждый блок должен включать свое собственное ограничение и как минимум одну подтверждающую деталь.
  4. Стабилизируйте метки. Выберите название для ваших ключевых сущностей и придерживайтесь его в середине.

По сути, этот подход работает, поскольку учитывает две ключевые проблемы: склонность моделей с длинным контекстом испытывать трудности с информацией в середине и тот факт, что в реальных приложениях часто сокращают или упрощают контекст для поддержания надёжности.

Подведение итогов

Просто наличие более широкого контекстного окна не является решением. Это может фактически создавать новые проблемы, поскольку более длинные входные данные часто приводят к большей компрессии данных, что, в свою очередь, может привести к потере важной информации в тексте.

Послушайте, я разрабатываю веб-сайты уже давно, и вот что я узнал о контенте: безусловно, продолжайте писать глубокие, длинные статьи, когда тема этого требует. Но, пожалуйста, не позволяйте основной части вашего контента разбредаться во все стороны. Думайте о средней части как о самой важной – о фундаменте. Именно там должна быть самая сильная и важная информация, а не просто пустая болтовня или красивые детали. Она должна *поддерживать* все остальное.

Это ключ к созданию контента, который одновременно увлекателен для людей и полезен для компьютеров, сохраняя при этом естественный стиль письма.

Смотрите также

2026-02-19 17:41