Google Search достигает $63 млрд, детали тестов рекламы в режиме AI.

Только что закончил анализ финансовых показателей Alphabet за 4 квартал 2025 года, и они оказались действительно сильными! Мы получили $113.8 миллиардов за квартал, что превысило прогнозы аналитиков. Более того, 2025 год стал для нас первым годом с общим доходом более $400 миллиардов. Google Search продолжает оставаться основным драйвером роста, увеличившись на 17% и достигнув $63.07 миллиардов за год – отличные результаты во всех областях.

Во время недавнего отчета о прибылях мы обсудили нашу стратегию превращения AI Mode в источник дохода. Мы также поделились некоторыми захватывающими новыми данными, показывающими, как ИИ влияет на то, как люди ищут – это довольно значительный сдвиг, и мы рады возможностям, которые он предоставляет.

Что происходит

Google Search и реклама принесли 63,07 миллиарда долларов, что на 17% больше, чем 54,03 миллиарда долларов, заработанных в последнем квартале 2024 года. В течение 2025 года рост доходов от Search неуклонно увеличивался, начиная с 10% в первом квартале и достигая 17% к четвертому кварталу.

По словам генерального директора Сундара Пичаи, Google Search показал рекордное использование в последнем квартале года. Он объяснил, что этот рост обусловлен новыми функциями AI, которые преобразуют то, как люди ищут информацию.

Пичай сказал в ходе звонка:

После запуска этих новых функций мы наблюдаем повышение вовлеченности: пользователи теперь ищут функции AI Mode в два раза чаще каждый день, чем когда они впервые стали доступны в США.

Когда люди используют поиск на основе искусственного интеллекта, их вопросы обычно в три раза длиннее, чем обычные поисковые запросы, и многие из этих запросов порождают дальнейшие вопросы.

Тестирование монетизации AI Mode

Google начинает изучать способы монетизации своих функций искусственного интеллекта, например, тестирование рекламы, которая появляется под ответами, сгенерированными искусственным интеллектом, по словам директора по развитию бизнеса Филиппа Шиндлера. В настоящее время они проводят больше тестов в этой области.

О Direct Offers, новой пилотной программе, Шинделер сказал:

Мы тестируем новую функцию Google Ads под названием Direct Offers. Она позволяет рекламодателям демонстрировать специальные предложения клиентам, которые активно ищут возможность совершить покупку, непосредственно в AI-powered experience.

Google также планирует запустить оформление заказа непосредственно в режиме AI Mode от избранных продавцов.

По словам Шиндлера, рост числа сложных вопросов, задаваемых с использованием ИИ, создает новые возможности для рекламы. Улучшенная способность Gemini понимать, что *имеют в виду* пользователи, позволила им показывать рекламу в этих более длинных и подробных запросах, извлечение прибыли из которых ранее было затруднительно.

YouTube Miss Explained

Доходы от рекламы на YouTube достигли 11,38 миллиарда долларов, увеличившись на 9%, но оказались ниже 11,84 миллиарда долларов, которые ожидали аналитики.

Шиндлер отнёс промах на перекрытие предвыборной рекламы из 4-го квартала 2024 года.

Основная причина замедления роста рекламных доходов в этом году заключалась в том, что мы сравнивали результаты с необычайно высокими расходами во время предыдущих выборов в США.

Он также отметил, что хотя больше подписок может означать меньше денег от рекламы, в конечном итоге это приносит пользу компании в целом. Когда люди выбирают YouTube Premium, это снижает доход от рекламы, но укрепляет бизнес в целом.

Что ещё произошло

Как цифровой маркетолог, я внимательно слежу за последними финансовыми результатами Google. Их подразделение Cloud действительно взлетело, выросло на 48% до 17,66 миллиардов долларов! Еще более интересно, что Alphabet планирует масштабные инвестиции – от 175 до 185 миллиардов долларов – в такие вещи, как центры обработки данных, к 2026 году. Это почти вдвое больше, чем они тратят в этом году, и это сильно намекает на то, что мы скоро увидим гораздо больше ИИ, интегрированного в Search и во все их продукты. Это большой сигнал о том, куда движется цифровое пространство.

Почему это важно

Год назад, в последнем квартале 2024 года, Search показал рост на 12%. К первому кварталу 2025 года AI Overviews насчитывал 1,5 миллиарда ежемесячных пользователей, а рост Search замедлился незначительно до 10%. Сейчас Search снова растёт, с темпом 17%.

Во время звонка Google подчеркнул, что люди проводят больше времени на своих платформах. По словам Шиндлера, новые рекламные возможности создают дополнительный доход от поисков, извлечение прибыли из которых раньше было затруднительно.

Это монетизационная победа для Google. Компромисс, за которым стоит наблюдать, — это реферальный трафик.

Когда его спросили о каннибализации, Пичай сказал, что Google не видит никаких её признаков:

Как SEO-эксперт, я наблюдаю реальный сдвиг в том, как люди используют Google. Кажется, что всё сейчас сходится к более широкому спектру поисковых запросов – люди экспериментируют с более разнообразными и сложными запросами, чем когда-либо прежде. Это захватывающее время, потому что это означает, что нам нужно думать шире, чем просто о ключевых словах, и сосредоточиться на истинном понимании намерений пользователей.

Это может быть верно, когда люди ищут что-то напрямую. Однако вам нужно будет отслеживать данные вашего веб-сайта, чтобы увидеть, верно ли это для посетителей, приходящих с других веб-сайтов.

Заглядывая в будущее

Google считает, что его функции AI на самом деле увеличивают использование поиска, а не уменьшают его, и недавние финансовые результаты за четвёртый квартал, похоже, подтверждают это.

Пока неясно, как новый и улучшенный AI Mode повлияет на трафик, поступающий из рефералов, но ответы предоставит аналитика вашего веб-сайта.

Смотрите также

2026-02-05 06:10

5 Отчетов Google Analytics, которые маркетологам PPC действительно стоит использовать.

Google Analytics никогда не был идеальным, но раньше казался более понятным.

Переход на Google Analytics 4 означал, что PPC-маркетологам пришлось изменить подход к анализу данных – дело было не только в поиске правильных отчетов, но и в совершенно новом подходе к пониманию эффективности.

Важные отчёты теперь сложнее найти и использовать. Некоторые из них требуют дополнительных шагов для доступа, а другие не так удобны в использовании, как раньше. Это серьёзная проблема для PPC-менеджеров, которые полагаются на быстрый доступ к данным.

Вам потребуется анализировать результаты, объяснять свои расходы и искать способы улучшить ситуацию, обычно без возможности создавать новые отчёты с нуля или тратить много времени на переключение между различными экранами.

Эта статья выделяет пять отчетов Google Analytics, которые по-прежнему невероятно полезны для контекстной рекламы (PPC). Эти отчеты помогают вам узнать, как ведет себя ваша аудитория, найти новые области для роста и показать, как ваши усилия по платной рекламе способствуют значимым бизнес-результатам.

1. Отчёт об аудитории

По мере того, как таргетинг по ключевым словам становится более гибким, а автоматизированные системы берут на себя всё больше задач по показу рекламы, понимание вашей аудитории становится всё более важным.

Отчет об аудиториях GA4 — это обновленная версия отчетов, основанных на интересах, от которых раньше зависели маркетологи, но теперь он основан на том, что люди действительно делают, а не на предположениях о том, что они могут захотеть.

Как эксперт по SEO и PPC, я считаю этот отчёт невероятно ценным для понимания того, как разные аудитории – как предварительно настроенные, так и созданные на заказ – показывают себя с точки зрения вовлечённости и конверсий. Особенно выделяется акцент на *действия*, которые совершают люди, а не просто на базовые демографические данные. Речь идёт о том, чтобы видеть, какие аудитории действительно приносят результаты, и это помогает мне оптимизировать кампании и получить максимальную отдачу от инвестиций.

Используйте этот отчёт для:

  • Определите, какие аудитории приводят к реальным конверсиям, а не просто трафику.
  • Сравните производительность между конвертерами, просмотрами корзин, повторными посетителями или пользователями с высокой вовлечённостью.
  • Определите, какие аудитории заслуживают более агрессивных ставок или распределения бюджета.
  • Создавайте и экспортируйте высокоэффективные аудитории непосредственно в Google Ads.

Этот отчёт предоставляет более чёткие и полезные сведения, чем старые методы сегментации аудитории, и он разработан для бесперебойной работы с современными кампаниями контекстной рекламы.

Чтобы найти этот отчёт, перейдите по пути: Отчёты > Пользователи > Атрибуты пользователей > Аудитории.

Этот отчёт работает лучше всего, если вы создали пользовательские аудитории в GA4. Это аудитории, которые вы определяете на основе поведения пользователей, и отличаются от предварительно созданных вариантов, таких как In-Market или Affinity аудитории, найденные в Google Ads.

Аудитории Google Analytics 4 (GA4) создаются с использованием данных, собранных непосредственно с вашего веб-сайта, таких как страницы, которые посещают люди, действия, которые они выполняют, или покупки, которые они совершают. Это делает их очень полезными для улучшения вашей рекламы с оплатой за клик (PPC), но вам нужно настроить их заранее.

2. Отчёт о поиске по сайту

Многие рекламодатели PPC не в полной мере используют отчет о поиске по сайту, но это мощный инструмент для развития ваших кампаний. Изучая, что люди ищут *после* перехода по вашему объявлению и попадания на ваш сайт, вы можете понять, что они действительно надеялись найти, и определить области, в которых ваш сайт не соответствует их потребностям.

В GA4 данные Поиска по сайту находятся в отслеживании событий, а не в отдельном отчете.

Для PPC-команд этот отчет может:

  • Информированное расширение ключевых слов с использованием реального пользовательского языка.
  • Выделите пробелы в продукте или контенте, влияющие на коэффициенты конверсии.
  • Выявляйте несоответствия между рекламными сообщениями и ожиданиями на сайте.

Отчет о поиске по сайту также может показать командам разработчиков продуктов, ищут ли клиенты продукты, которых в настоящее время нет в наличии, выявляя потенциальные новые возможности.

Представьте, что вы управляете веб-сайтом, предлагающим свадебные приглашения, с хорошим разнообразием дизайнов, подходящих для разных свадебных тематик.

Отчёт о поиске по сайту показывает, что всё больше и больше людей ищут «rustic» (деревенские) вещи, но наши веб-дизайны не отражают этот стиль. Кажется, существует несоответствие между тем, что ищут посетители, и тем, что мы предлагаем визуально.

Это показывает, что существует интерес к этому продукту, что помогает маркетинговой команде решить, как двигаться дальше.

Чтобы найти отчёт «Поиск по сайту», перейдите в Отчёты > Вовлечённость > События.

Найдите событие «view_search_results» и нажмите на него.

После нажатия найдите карточку пользовательского параметра «search_term» на странице.

Несколько важных замечаний о данных поисковых запросов:

  • Перед использованием этого отчета необходимо создать новое пользовательское измерение (с областью действия события) для заполнения результатов поиска.
  • Google Analytics будет отображать данные только после достижения минимального порога агрегации.

Хотя он и не предлагает столько же деталей, как старый отчёт Site Search в Universal Analytics, эта новая версия всё ещё показывает, сколько раз каждый поисковый запрос был использован и сколько уникальных пользователей выполняли эти поиски.

3. Отчет по рефералам

Реферальный трафик часто игнорируется PPC-командами, что является упущенной возможностью.

Отчёт о перенаправлениях сообщает вам, какие веб-сайты отправляют трафик на ваш, и что делают эти посетители, когда попадают на него.

Чтобы найти этот отчёт, перейдите в Отчёты > Привлечение > Привлечение трафика.


Основные характеристики этого отчета могут:

  • Определите сторонние сайты, направляющие трафик высокого качества.
  • Создавайте аудитории на основе размещения для тестирования Display или Demand Gen.

Это экономичный способ безопасно протестировать новые PPC-кампании, поскольку веб-сайты, отправляющие рефералов, известны тем, что привлекают ценных посетителей на ваш сайт.

4. Top Conversion Paths Report

Нас, маркетологов, часто спрашивают о результатах кампаний, направленных на повышение узнаваемости бренда – то, что часто называют «Top of Funnel» маркетингом.

Руководители обычно сосредотачиваются на маркетинговых методах, которые уже показали положительные результаты. Это гарантирует, что они эффективно тратят деньги.

В современной экономике это важнее, чем когда-либо.

Этот отчёт Google Analytics помогает анализировать и интерпретировать поведение TOFU.

Если вы проводите какую-либо кампанию, кроме Search, этот отчет абсолютно необходим.

Маркетинговые усилия на платформах, таких как YouTube, медийная реклама и социальные сети (включая Meta, Instagram и TikTok), все имеют уникальные цели и задачи.

Кампании по времени суток (TOF) часто подвергаются критике за то, что не приносят результаты так быстро или эффективно, как поисковые кампании.

Как маркетологам, это может быть раздражающе слышать снова и снова.

Отчёт «Путь конверсий» показывает полный путь, который проходит клиент, от первого взаимодействия с вашим бизнесом до момента совершения покупки, и сколько времени занимает этот процесс.

Чтобы найти этот отчёт, перейдите в Реклама > Атрибуция > Пути конверсий.

При более детальном анализе эффективности кампаний я рекомендую:

  • Включите оператор «И» в фильтр для «Сессионной кампании», специфичный для рассматриваемых кампаний TOF.

Мы поняли, что наши платные кампании в социальных сетях на самом деле играли более важную роль на ранних этапах пути клиента, чем мы изначально думали!

Ключевые особенности этого отчета могут:

  • Определите количество точек касания до финальной конверсии.
  • Анализируйте сложные взаимодействия пользователей на протяжении всего пути, когда задействовано несколько каналов (особенно для более длительных циклов продаж).
  • Отчёт о засчитанных конверсиях на основе модели атрибуции.

Этот отчёт предоставляет данные, необходимые для обоснования запроса дополнительного финансирования для каналов верхней части воронки.

Выигрышная ситуация для всех заинтересованных сторон.

5. Отчет о событиях конверсии

Большинство рекламных кампаний с оплатой за клик (PPC) сосредоточены на оптимизации только одной основной цели, такой как покупка. Хотя это практично для управления ставками, это обычно не показывает полной картины того, как платная реклама помогает генерировать доход.

Отчёт о событиях конверсии в Google Analytics 4 позволяет вам изучать *каждое* важное действие, которое совершают пользователи на вашем сайте, а не только последнее действие, которое официально учитывается как конверсия.

Для принятия решений по контекстной рекламе этот отчет помогает ответить на вопросы, на которые не может ответить сама Google Реклама, например:

  • Какие действия постоянно происходят перед покупкой или отправкой лида.
  • Имеют ли определенные кампании серьезные намерения, но не могут быть немедленно завершены.
  • Как разные платные каналы влияют на раннюю вовлеченность и конечную конверсию.

Особенно важно помнить об этом, глядя на результаты кампаний на таких платформах, как Display, YouTube, Demand Gen и платных социальных сетях. Эти кампании могут *казаться* неэффективными, если вы сосредоточитесь только на последнем клике перед конверсией. Однако они часто играют жизненно важную роль в поощрении важных действий пользователей, таких как просмотр продуктов, посещение страниц с ценами, открытие форм или возвращение на ваш веб-сайт.

Чтобы найти этот отчет, перейдите по ссылке: Отчеты > Вовлеченность > События.

В Google Analytics 4 (GA4) то, как вы определяете конверсии в настройках своего аккаунта, напрямую влияет на данные о конверсиях, которые вы видите. В отличие от предыдущих версий, в GA4 нет простого фильтра для отображения *только* конверсий в отчете «События». Получение точных показателей конверсии зависит от правильной настройки событий с самого начала.

Этот отчет также может помочь определить, где потенциальные клиенты покидают процесс конверсии. Если кампания изначально вызывает большой интерес, но не приводит к завершенным продажам, проблема, скорее всего, не в том, *на кого* вы ориентируетесь или *сколько* вы предлагаете цену. Вместо этого это, вероятно, связано с опытом работы на вашей целевой странице, с тем, насколько легко заполнить форму или с тем, когда вы отслеживаете потенциальных клиентов.

Отчет «События конверсии» при использовании с фильтрами кампаний Google Ads позволяет менеджерам PPC продемонстрировать ценность кампании, даже если это не был последний шаг, который клиент предпринял перед конверсией.

Понимание более широкой картины часто является тем, что отличает прекращение маркетинговых усилий до того, как у них появится шанс, и предоставление возможности расти успешным, но недооцененным усилиям.

 

Превратите аналитику в лучшие решения PPC

Хотя Google Analytics полезен, большинство ежедневных улучшений PPC-кампаний фактически вносятся непосредственно в сами рекламные платформы, а не в Google Analytics.

Эти отчеты предлагают другой вид понимания. Они помогают специалистам по контекстной рекламе увидеть более широкую картину того, что происходит после того, как кто-то нажимает на рекламу: как посетители перемещаются по веб-сайту, как они взаимодействуют с различными его частями и какое поведение показывает, что они действительно заинтересованы в том, что вы предлагаете.

Эти отчеты, создаваемые каждый месяц или квартал, выявляют тенденции, которые легко не заметить при ежедневном просмотре счетов. Они помогают вам принимать более правильные решения о том, на кого ориентироваться, более четко понимать эффективность и более уверенно обсуждать свой бюджет.

Если вы сосредоточитесь на отчетах Google Analytics, которые непосредственно решают ваши проблемы с оплатой за клик, это перестанет казаться утомительной задачей и начнет предоставлять ценную информацию, которая поможет вам добиться успеха.

Смотрите также

2026-02-05 05:11

Мюллер из Google называет идею «Markdown для ботов» «глупой идеей».

Как SEO-эксперт, я наблюдаю за захватывающей тенденцией: некоторые разработчики сейчас адаптируют Markdown-доставку специально для AI-краулеров, таких как боты. Цель? Сократить использование токенов, что в конечном итоге делает сканирование и индексацию более эффективными. Это умный способ оптимизировать контент для AI, и я ожидаю, что мы увидим больше этого в будущем.

Джон Мюллер из Google настоятельно не рекомендовал практику прямой передачи файлов в формате Markdown AI-сканерам. Он высказал технические опасения на Reddit и прямо назвал этот подход «плохой идеей» на Bluesky.

Что происходит

Разработчик поделился на Reddit TechSEO, что планирует использовать Next.js для выявления AI-ботов, таких как GPTBot и ClaudeBot, при посещении ими веб-сайта. Вместо того, чтобы показывать этим ботам полную веб-страницу, система будет отправлять им простую версию контента в виде обычного текста.

Разработчик сообщил, что предварительные тесты показали снижение использования токенов на страницу на 95%. Они считают, что это улучшение позволит сайту обрабатывать больше запросов от AI-ботов, использующих генерацию с расширением извлечения (RAG).

Мюллер ответил серией вопросов.

Думаете ли вы, что поисковые системы правильно интерпретируют Markdown файл на веб-сайте, или они увидят его просто как обычный текст? Смогут ли они переходить по ссылкам внутри него? И какое влияние это окажет на структуру вашего веб-сайта – такие вещи, как внутренние ссылки, заголовки, подвалы и навигация? Одно дело отправить Markdown файл напрямую, но это кажется совсем другим, когда поисковая система ожидает HTML страницу, а получает текстовый файл вместо этого.

В Bluesky Мюллер был более прямолинеен. Он ответил эксперту по SEO Джоно Алдерсону, который считал, что преобразование страниц в простой Markdown удаляет важный контекст и организацию.

Мюллер написал:

Преобразование веб-страниц в markdown кажется бессмысленным. Поскольку большие языковые модели теперь могут обрабатывать изображения, почему бы не сохранять целые веб-сайты в виде картинок?

Олдерсон отметил, что преобразование веб-страницы в Markdown может привести к потере важной информации и её организации. Он рассматривает получение контента в формате Markdown как быстрое решение, а не долгосрочное.

Человек, который первым поделился этой идеей, объяснил, что большие языковые модели лучше понимают Markdown, чем HTML, предполагая, что это связано с тем, что они были широко обучены на коде. Однако это еще не доказано.

Почему это важно

Как SEO-эксперт, я внимательно слежу за советами Джона Мюллера, и он последователен в этом вопросе. Недавно он ответил на вопрос Лили Рей об создании отдельных Markdown или JSON-версий страниц для Large Language Models, и его ответ перекликался с тем, что он говорил раньше. В основном, он рекомендует отдавать приоритет чистому, хорошо структурированному HTML и разметке schema, а не создавать контент *специально* для ботов – то есть не создавать отдельные версии только для них. Сосредоточьтесь на том, чтобы ваш основной HTML-контент был отличным, и это послужит всем, включая LLMs.

SE Ranking проанализировал 300 000 веб-сайтов и обнаружил, что наличие файла llms.txt, похоже, не влияет на частоту упоминания веб-сайта при генерации ответов моделями ИИ. Джон Мюллер из Google отметил, что этот файл аналогичен мета-тегу keywords, который основные поисковые системы официально не используют для ранжирования веб-сайтов или определения цитирований.

В настоящее время официальная документация от поисковых платформ не указывает на то, что создание контента специально для ботов – например, упрощенных версий веб-страниц с использованием Markdown – помогает улучшить поисковые позиции или получить больше цитирований. Гэри Мюллер из Google выразил аналогичные опасения в нескольких беседах, и данные от SE Ranking подтверждают это – они не обнаружили никаких доказательств того, что эти форматы, ориентированные на ботов, имеют какое-либо значение.

Заглядывая в будущее

Пока платформы искусственного интеллекта конкретно не запросят веб-страницы в формате Markdown, всё ещё лучше всего сосредоточиться на чистом HTML. Избегайте избыточного JavaScript, замедляющего загрузку контента, и используйте структурированные данные, когда платформы предоставляют чёткие рекомендации по этому поводу.

Смотрите также

2026-02-05 00:09

Реальный SEO-навык, которому никто не учит: Дедукция проблем

Часто, когда SEO-усилия не приносят успеха, это происходит не из-за ошибок в технических аспектах. Реальная проблема обычно заключается в ошибочном планировании и стратегии *перед* началом какой-либо работы по оптимизации.

Когда в компаниях возникают проблемы с SEO, мы часто видим одно и то же: команды сразу же начинают гадать о причинах, спорить о том, что может быть не так, и пытаться выяснить, кто виноват – всё это происходит до того, как они фактически определили проблему, которую пытаются решить.

Когда люди начинают обвинять друг друга, становится невозможно чётко определить фактическую проблему. Команды сосредотачиваются на защите себя, а не на поиске решений, и без общего понимания того, что не так, любая попытка исправить это — просто выстрел в темноте.

Паттерн неудачи, который узнает каждый.

Если вы достаточно долго работали в корпоративном SEO, вы видели эту встречу.

Когда кто-то замечает проблему – например, когда Google отображает неправильный заголовок или название веб-сайта, падение в поисковой выдаче или неточную информацию о местоположении – это часто приводит к большому количеству обсуждений и попыток объяснить, что произошло. Вместо того, чтобы быстро решить проблему, ситуация наполняется оправданиями.

Люди предлагают различные объяснения этой проблеме. Некоторые считают, что внутри самого сайта недостаточно ссылок, в то время как другие полагают, что Google изменил заголовки страниц. Также предполагается проблема с системой управления контентом сайта, равно как и недавнее обновление алгоритма Google. И, как всегда, кто-то задается вопросом, не вышли ли из строя теги hreflang.

Каждое объяснение кажется разумным само по себе и основано на реальных событиях. Однако ни одно из них чётко не определяет проблему, которую они пытаются решить.

Все пытаются быть полезными. Никто на самом деле не сказал, какой результат выдала система.

SEO-разговоры часто терпят неудачу не из-за недостатка навыков, а потому что команды не начинают с чёткого определения того, чего они хотят достичь.

Встреча Вторая: Активность Без Ясности

Обычно за этим следует вторая встреча. Поверхностно, она кажется продуктивной.

Команда пришла подготовленной, предварительная работа уже была завершена. Мы тщательно проверили систему управления контентом и завершили детальный технический SEO-аудит. Мы также отслеживали обновления Google, обсуждения в отрасли и LinkedIn, чтобы узнать, сталкиваются ли другие с аналогичными проблемами, и запустили несколько диагностических инструментов для дальнейшего изучения.

Документация показывает, что проделана большая работа, со скриншотами как проблем, так и вещей, которые на самом деле не являются проблемами. Хотя кажется, что прогресс достигается, часто оказывается, что работа не приводит к решению.

Если изначальная проблема не была четко определена, то все усилия, потраченные на её анализ, вероятно, были направлены не туда. Обычно требуется время, чтобы это осознать. Недавние аудиты выявили некоторые проблемы, но они не связаны с вопросом, с которым мы сталкиваемся в данный момент.

Было потрачено время и внимание на проверку предположений, вместо того чтобы диагностировать поведение системы.

Это не ошибка выполнения. Это ошибка в определении проблемы.

Почему SEO-разговоры сходят с рельсов

Этот провал не случаен. Он структурный, и SEO особенно уязвим для него.

Я часто указывал на то, что поисковая индустрия недостаточно глубоко изучает, *почему* происходят те или иные вещи. Дело не в отсутствии усилий, хотя. Когда трафик падает или результаты поиска ведут себя странно, команды немедленно начинают проводить аудиты, следовать контрольным спискам и внедрять стандартные процедуры. Однако, эти инструменты на самом деле затрудняют выявление реальной проблемы. Они побуждают команды приступать к действиям, прежде чем они даже пришли к согласию относительно причины возникновения проблемы.

Как SEO-эксперт, я часто вижу, что мы застреваем в *угадывании* того, что влияет на ранжирование, вместо того чтобы смотреть, что на самом деле происходит. Когда мы видим колебания – изменение в выдаче, падение трафика – немедная реакция обычно такая: «Google, должно быть, обновил свой алгоритм!» или «Изменился фактор ранжирования!» Мы прыгаем к этим выводам вместо того, чтобы тщательно анализировать наблюдаемые результаты. Легко предположить изменение в системе, но нам нужно сосредоточиться на том, что мы *видим* происходящим в первую очередь.

Часто самые большие проблемы заключаются не в драматических событиях, а в повседневных происшествиях. Контроль над различными частями системы обычно разделен между разными командами. Когда одна команда вносит изменения, они часто не сообщаются другим. Это приводит к тому, что контент, дизайн, структура веб-сайта, организация данных, инструменты отслеживания и базовая технология развиваются по-отдельности. Становится трудно понять, как изменения в одной области влияют на другие, и ни одна команда не имеет полного представления о том, как все работает вместе.

Когда результаты не сообщаются чётко, люди склонны сосредотачиваться просто на том, чтобы быть занятыми, полагая, что сама активность является признаком прогресса.

Вместо того, чтобы по-настоящему понимать *почему* что-то пошло не так, анализ первопричин часто превращается просто в формальное выполнение действий. Команды сразу же начинают обсуждать возможные причины, не договорившись о том, что на самом деле произошло. Это приводит к большому количеству бесполезной работы – совещаниям, документам и спискам дел – но редко приводит к чёткому пониманию проблемы.

Системы, однако, не реагируют на усилия. Они реагируют на вводные данные.

Отсутствующий навык: Дедукция проблем

Забудьте о сложных SEO-техниках, таких как исследование ключевых слов или технические аудиты – это всего лишь инструменты. Самый важный навык – это на самом деле понять, какие проблемы есть у людей, которые может решить ваш контент. Разберитесь в этом, и все остальное встанет на свои места.

Эффективное решение проблем означает тщательное изучение *того, что на самом деле произошло*, а не поспешные выводы, основанные на том, что, по вашему мнению, должно было произойти. Это предполагает отказ от первоначальных идей, избежание быстрых решений и чёткое описание результата объективно, прежде чем пытаться найти какие-либо решения.

Вот тогда начинается настоящее расследование. Команды могут тщательно изучить, что привело к результату, отделить то, что они могут контролировать, от того, что они не могут, и обсудить произошедшее конструктивно, не сосредотачиваясь на обвинениях или догадках.

На практике, дедукция проблем означает способность к:

  • Наблюдайте за результатом работы системы без предвзятости, сосредотачиваясь на том, что система произвела, а не на том, что предполагалось.
  • Опишите этот исход точно и нейтрально, не включая предположения о причинах.
  • Рассуждайте в обратном направлении, анализируя вклад сигналов, определяя, какие входные данные могли правдоподобно повлиять на результат.
  • Разделяйте исправимые входные данные от исторических ограничений, чтобы усилия тратились там, где это действительно имеет значение.
  • Действуй без упрёка или суеверий, принимая решения на основе доказательств, а не инстинкта.

Это не заменяет техническое SEO или анализ первопричин. Это делает их возможными.

Дедукция проблем — это системное мышление, применяемое к поиску. И почти никто этому не учит.

Пример предприятия из реального мира

Недавно я работал с клиентом, который был расстроен тем, что Google постоянно показывал неверное местоположение в качестве названия его компании, независимо от того, откуда осуществлялся поиск. Процесс устранения неполадок следовал типичному шаблону: множество возможных объяснений. Люди предлагали такие вещи, как внутренние ссылки на веб-сайте, придающие этому местоположению больший вес, автоматическое изменение Google отображаемого заголовка, проблемы с системой управления контентом их веб-сайта или несоответствия в коде веб-сайта. Они даже упоминали потенциальные проблемы с тем, как была реализована SEO-оптимизация клиента. Каждое из этих объяснений имело смысл и основывалось на прошлом опыте, но ни одно из них на самом деле не объясняло *why* это происходило. Поэтому мы приостановили обсуждение и начали все сначала, четко перефразировав основную проблему.

Google выбрал конкретное место, а не название компании, для отображения в качестве основной ссылки для бренда при онлайн-поиске.

То предложение полностью изменило атмосферу. Как только все поняли, что произошло, объяснение стало простым. Разговор перешел от догадок к пониманию проблемы, и стало намного легче понять, как всё развивалось.

Как Google на самом деле принял это решение

Google не был смущен. Он реагировал на последовательный набор подтверждающих сигналов.

Как только результат стал очевидным, замешательство исчезло. Множественные источники информации указывали на один и тот же ответ, и Google просто последовал за наиболее ясным и надежным доказательством.

1. Неправильно примененная схема веб-сайта

Основная проблема заключалась в том, как были построены страницы местоположений веб-сайта. Они были закодированы так, как будто это отдельные веб-сайты, а не чётко связанные с веб-сайтом основного бренда. Это означало, что несколько страниц некорректно сигнализировали о себе как о *основном* веб-сайте, ослабляя их поисковый рейтинг и вызывая противоречивую информацию для Google. Google не был смущён самим кодом; он просто распознал противоречивые сигналы и логически проигнорировал их.

2. Разбавление тегов заголовков

Теги заголовков неэффективно демонстрировали чёткую структуру. Тег заголовка главной страницы пытался включить слишком много информации – маркетинговый слоган, название бренда, первое местоположение, а затем список других местоположений, все разделенные запятыми. Это делало связь между брендом и его различными местоположениями неясной. В результате, Google начал отдавать приоритет местоположению, которое упоминалось наиболее последовательно во всех его факторах ранжирования. Google не выбирал местоположение случайным образом; он логически отдавал предпочтение тому, которое наиболее часто и чётко подчеркивалось.

3. Смещение подтверждения из внешних источников.

Сигналы со всего веба подтвердили тот же результат. Ссылки с других веб-сайтов, а также упоминания и ссылки, подавляющим образом вели на один конкретный сайт. Google увидел, что остальной веб согласен с тем, что они уже видели на самом сайте: это местоположение явно выделялось как основное представление бренда. Это не было предпочтением Google, а просто подтверждением того, что показывали доказательства.

Что можно было бы легко исправить, а что — нет.

После того, как мы выявили реальную проблему, обсуждение сместилось. Дело было не в том, что Google действовал непредсказуемо — проблема заключалась в системной ошибке, которая постоянно определяла местоположение как название веб-сайта, а не бренд.

Как только мы поняли проблему по-новому, стало возможным найти решения. Мы перешли от споров об идеях к фактическому изучению процессов, которые вызвали проблему, и начали их исправлять. Это также помогло нам расставить приоритеты – мы могли быстро внести некоторые изменения, планируя при этом долгосрочные улучшения.

Исправление некоторых ошибок было простым. Поскольку структура веб-сайта была создана автоматически, мы могли быстро обновить код, чтобы выделить основной бренд. Команда бренда также решила сделать заголовок главной страницы более лаконичным, подчеркивая название и слоган бренда, сохраняя при этом подробную информацию о местоположении на отдельных страницах местоположений.

Некоторые показатели было сложнее изменить. Например, доказательства из внешних источников – такие вещи, как связи и рекомендации, накопленные со временем, – нельзя было быстро изменить. Укрепление или исправление такого рода информации потребовало бы постоянных усилий и последовательных обновлений.

Дедукция проблем не только показала нам, *что* нужно исправить, но и *где* начать, *какие* трудности предвидеть и реалистичную оценку усилий, необходимых для каждой коррекции.

Как SEO-эксперт, я часто вижу команды, которые тратят время впустую, пытаясь быстро ‘исправить’ вещи, которые просто так не работают. Такие вещи, как авторитет домена или устоявшиеся рейтинги, требуют времени для построения. Я обнаружил, что сосредоточение на *направленных* улучшениях – улучшение чего-либо даже на небольшую величину каждый раз – гораздо эффективнее, чем погоня за мгновенными результатами. Речь идет о направлении корабля, а не о его переворачивании.

Почему анализ первопричин часто терпит неудачу в SEO

Анализ первопричин дает сбой, когда команды пытаются ответить на «почему» до того, как согласуют «что».

В крупных компаниях проблемы с SEO часто усугубляются структурой команд. Ответственность распределяется между многими группами – контент, разработка, анализ данных, брендинг, юридический отдел, перевод и управление платформой – и ни одна команда не несет полной ответственности. Каждая команда сосредоточена на своих целях, поэтому, когда что-то идет не так, первой реакцией является не выяснение *почему* это произошло, а защита своей области работы.

Обсуждения часто перескакивают с темы на тему, не имея чёткой направленности. Люди предлагают причины произошедшего, не понимая даже, что случилось. Вина перекладывается с одного на другого, когда каждая команда подчёркивает то, что находится вне их контроля. Вместо того, чтобы пытаться выяснить *почему* что-то произошло, разговор превращается в игру, где каждый избегает ответственности.

Я заметил нечто разочаровывающее в цифровом маркетинге: когда что-то идет не так, мы часто попадаем в ловушку чрезмерного упрощения. Вместо того, чтобы действительно копаться в *причине* произошедшего, мы склонны полагаться на стандартные контрольные списки и знакомые шаги по устранению неполадок. Дело не в том, что эти инструменты плохи, просто они кажутся безопасными и легкими. Проблема в том, что выполнение действий по привычке не всегда приводит к реальному пониманию или согласию по поводу основной проблемы. В итоге мы просто *выглядим* занятыми, не получая при этом ясности в отношении того, как исправить ситуацию в долгосрочной перспективе.

Когда неудобно или рискованно объяснять проблему внутри компании, люди часто указывают на внешние факторы. Они могут обвинить недавнее изменение от Google, упомянуть что-то, сказанное SEO-экспертом, или выделить общие колебания рынка. Сосредоточение на внешних причинах предоставляет удобное оправдание, позволяя командам избежать принятия ответственности или признания внутренних проблем.

Однако, эти подсказки редко бывают окончательными. Если использовать их преждевременно, они могут фактически помешать чёткому мышлению вместо того, чтобы помогать ему.

Это обычная ситуация: проводятся встречи, создаются заметки и списки дел, но часто бывает неясно, чего на самом деле удалось достичь. Команды активны, но реальный прогресс останавливается.

Определение основной проблемы нарушает привычный шаблон реагирования. Это гарантирует, что все согласны с тем, *что* произошло, прежде чем обсуждать причины, оправдываться или пытаться исправить ситуацию. Когда результат ясен, команды могут работать более эффективно, сосредотачиваясь на решениях, а не на возложении вины, и смещая фокус расследования с *как* что-то не удалось на *почему* это имело значение.

Вот тогда это начинает работать.

Навыки, которые предприятия должны нанимать в первую очередь.

Недавно клиент, которому я давал консультации, задал, казалось бы, простой вопрос, когда мы разрабатывали должностную инструкцию для человека, который будет управлять поисковой системой его компании.

«Какой самый важный навык мы должны искать при найме?»

Они ожидали стандартный ответ, обычно сосредоточенный на таких вещах, как продвинутые знания технического SEO, понимание того, как ИИ влияет на поиск, опыт работы со структурированными данными (schema) и владение различными платформами. Именно такой шаблон обычно наблюдается в этих обсуждениях.

Я не давал им ни одного из этих. Вместо этого я сказал критическое мышление.

Наступила пауза.

Многие люди в поиске работы считают, что технические навыки – самые важные, но на самом деле, это самая простая часть для изучения. Вы всегда можете освоить новые инструменты и адаптироваться к меняющимся платформам. Настоящая сложность заключается в умении эффективно устранять неполадки и критически мыслить, когда что-то идет не по плану.

SEO для крупных предприятий часто бывает неясным. Трудно понять, что действительно влияет на результаты, разные команды могут работать над одним и тем же, и когда возникают проблемы, их нужно быстро решать.

Когда становится трудно, самая большая проблема обычно заключается не в недостатке навыков. Это неспособность остановиться и чётко подумать, прежде чем реагировать.

Самое важное — это уметь объективно оценивать результаты работы системы, чётко объяснять то, что вы видите, различать проблемы и их первопричины, отслеживать факторы, которые привели к возникновению проблемы, и избегать поспешных суждений или обвинений.

Другими словами, дедукция проблемы.

В частности (как указано выше), возможность:

  • Наблюдайте за результатом системы без предвзятости.
  • Опишите это точно.
  • Разделяйте симптомы от причин.
  • Рассуждайте в обратном порядке, исходя из вносящих вклад сигналов.
  • Воздержитесь от поспешных выводов или возложения вины.

Мы, безусловно, можем обучить людей *тому*, как проводить поисковую оптимизацию. Но обучить критическому мышлению невероятно сложно – либо у вас есть к этому талант, либо нет. В мире корпоративного SEO отсутствие навыков критического мышления является серьезным недостатком, даже больше, чем во многих других областях цифрового маркетинга.

Это больше, чем SEO

Как только вы узнаете закономерность, становится трудно не замечать её.

Причина, по которой анализ первопричин часто терпит неудачу, та же, что и причина, по которой обсуждения SEO часто становятся субъективными. Когда цели не установлены чётко, люди придумывают истории, чтобы объяснить результаты. То, что начинается как полезный совет, может превратиться в бездумную традицию. Обновления Google становятся удобным оправданием для проблем, которые на самом деле происходят из-за внутренних проблем, а сложные технические проблемы часто ошибочно классифицируются как проблемы ранжирования.

Эти проблемы не вызваны ошибками; они возникают потому, что современные цифровые системы намеренно строятся из отдельных, несвязанных частей.

В настоящее время ответственность за различные части системы распределена между многими командами – контент, разработка, анализ данных, брендинг, юридический отдел, перевод и поддержка платформы. Ни одна команда не отвечает за всё, но каждая команда отвечает за свои собственные цели. Из-за этой структуры точно объяснить проблемы может быть сложно. Это часто приводит к вопросам о том, кто несёт ответственность и как информация передавалась между командами, и никто не хочет выделять потенциальные проблемы.

Обсуждения часто отклоняются от темы, люди спорят о *почему* что-то произошло, прежде чем они даже согласятся о *что* произошло. Ответственность перекладывается, а простые контрольные списки предпочитают тщательному обдумыванию, потому что они позволяют быстро действовать, даже если все не на одной волне. Когда обсуждение проблем внутри компании кажется рискованным, фокус смещается на внешние факторы – такие как изменения с Google, отраслевые слухи или якобы эксперты, обвиняющие более широкие рыночные тенденции.

Эти внешние наблюдения могут предложить некоторое временное утешение, но они не решают основную проблему. Они показывают связи между вещами, но не *почему* они происходят. Хотя они полезны для понимания ситуации, они не дают реального понимания и даже могут позволить организациям избежать устранения недостатков в своих собственных процессах, которые привели к результату.

Здесь SEO начинает пересекаться с чем-то более широким: обнаруживаемостью.

Неважно, как кто-то находит ваш бренд – через поисковую систему, такую как Google, AI-помощника, интернет-магазин или специализированный веб-сайт – есть определенные вещи, которые имеют наибольшее значение. Во-первых, виден ли ваш бренд? Во-вторых, представлен ли он таким образом, чтобы быть понятным и последовательным? И, наконец, побуждает ли это представление людей узнать больше, или оно создает путаницу и подрывает доверие?

Достижение этих результатов – это не просто внесение небольших, отдельных улучшений. Это требует хорошо спроектированных систем, которые стабильно работают на всех платформах.

Чёткое решение проблем позволяет командам эффективно работать вместе. Сначала необходимо установить общее понимание того, что на самом деле произошло – прежде чем переходить к объяснениям или решениям – это помогает преодолеть разногласия, устраняет взаимные обвинения и сосредотачивает всех на поиске ответов. Это делает анализ первопричин действительно полезным, а не просто показухой.

Вот тогда разговор меняется. И вот тогда прогресс действительно начинается.

Главный вывод

Google не допустил ошибки при выборе имени веб-сайта; он просто использовал версию бренда, которую распознала его система.

Эффективное SEO заключается не в внесении изменений, а в понимании ситуации *до* начала работы. Знание того, что происходило ранее, является ключевым навыком.

До тех пор, пока компании не будут отдавать приоритет и вознаграждать сильные навыки решения проблем при найме и обучении, обсуждения о SEO останутся непродуктивными. Мы будем продолжать решать поверхностные проблемы, вместо того чтобы устранять основные причины, приводящие к одним и тем же результатам.

И никакое количество оптимизации не может исправить проблему, которая изначально не была чётко определена.

Смотрите также

2026-02-04 18:18

Извлечение информации Часть 2: Как получить данные для обучения модели.

Сейчас самый важный момент в вашей карьере для инвестиций в обучение и понимание. Дело не в том, что поиск на основе ИИ принципиально отличается от того, к чему вы привыкли, а скорее в широко распространенной *вере* в то, что это так.

Лидеры по всей стране действительно сосредоточены на принятии правильных решений прямо сейчас. Им необходимо быть уверенными, что именно мы — команда, которая будет вести компанию вперед в эту новую эру.

Важно понимать основы того, как информация находится и к ней осуществляется доступ, даже если ваши текущие бизнес-практики не требуют изменений.

Всё начинается с понимания основ обучающих данных модели: что это такое, как это работает и, что самое главное, как получить к ним доступ.

TL;DR

  1. Искусственный интеллект является продуктом своих обучающих данных. Качество (и количество) данных, на которых обучается модель, является ключевым фактором её успеха.
  2. Чем больше согласованных и точных упоминаний бренда вы имеете в обучающих данных, тем меньше неоднозначности вы создаете.
  3. Качественное SEO, в сочетании с улучшенным продвижением продуктов и традиционным маркетингом, улучшит вашу видимость в обучении и данных, и в конечном итоге с использованием RAG/поиска в реальном времени.

Что такое обучающие данные?

LLM учатся предсказывать, что будет дальше – будь то следующее слово, предложение или ответ – путем изучения большой коллекции данных, называемой обучающим набором данных. Эти данные могут быть ‘помечены’, то есть предоставлены правильные ответы, или ‘непомечены’, требуя от модели самостоятельно изучать закономерности.

Без высококачественных обучающих данных, модели совершенно бесполезны.

Будь то сомнительные публикации в сети, забавные видео с кошками или классические произведения искусства и литературы, современные модели ИИ обучаются абсолютно на всем. И это не ограничивается только письменными текстами — этим моделям также необходимо понимать, как говорят люди, включая разные акценты и даже эмоции, стоящие за их голосами.

Как это работает?

Большие языковые модели не просто запоминают информацию; они учатся, сжимая её. Они анализируют огромные объёмы данных и совершенствуют свои внутренние настройки посредством процесса, называемого обратным распространением ошибки.

Когда модель правильно предсказывает следующее слово в обучающей последовательности, она продолжает работу. Если она ошибается, модель корректируется с использованием процесса, аналогичного принципу работы павловского обусловливания – она учится на своих ошибках.

По голове похлопали палкой или назвали «хорошим мальчиком».

Затем модель способна векторизовать. Создавая карту ассоциаций по термину, фразе и предложению.

  • Преобразование текста в числовые векторы, также известное как Мешок слов (Bag of Words).
  • Улавливание семантического значения слов и предложений, сохранение более широкого контекста и смысла (словесные и предложенные вложения/эмбеддинги).

Параметрическая память хранит правила и детали как связи внутри самой модели – это по сути встроенные знания. Чем больше модель уже понимает о предмете, тем меньше ей нужно проверять свои ответы на точность.

Модели с большой памятью могут быстро находить правильную информацию, когда она хранится внутри них, но их знания фиксированы, и они не могут учиться или запоминать новое. По сути, они ‘забывают’ по мере поступления новой информации.

Как человек, который некоторое время строил и управлял веб-сайтами, я в последнее время действительно углубился в Retrieval-Augmented Generation (RAG) и поиск в реальном времени в интернете. Что в них круто, так это то, что они не *учатся* в традиционном смысле – они используют огромную внешнюю базу знаний. Это означает, что они могут масштабироваться практически до любого размера, что здорово, но это также может сделать их немного медленнее. Я обнаружил, что они особенно сильны при работе с текущими событиями или чем-либо, где вам нужно быть абсолютно уверенным в точности и проверяемости информации – по сути, с чем-либо, что требует надежной основы фактов.

Создание алгоритмов более высокого качества

Когда речь заходит о тренировочных данных, разработка более качественных алгоритмов опирается на три элемента:

  1. Качество.
  2. Количество.
  3. Устранение предвзятости.

Качество данных имеет решающее значение. Модель, обученная на неточных или полностью искусственных данных, не будет хорошо работать при столкновении с реальными проблемами и сложностями.

Огромный объем данных также является проблемой. Эти компании, по сути, взяли все, что могли, и не заплатили за это.

Использование искусственных данных для решения масштабных задач — не главная проблема. Всё сложнее находить бесплатный, высококачественный контент в интернете для этих целей, главным образом из-за двух факторов:

  1. Если вы не хотите дьявольский расизм, злобные комментарии, теории заговора и плагиат, я не уверен, что интернет — это ваш парень на данный момент.
  2. Если они соблюдают директивы robots.txt компании, по крайней мере. Восемь из десяти крупнейших новостных веб-сайтов в мире сейчас блокируют ботов для обучения ИИ. Я не знаю, насколько эффективна их блокировка на уровне CDN, но это затрудняет получение качественных данных для обучения.

Значительной проблемой является предвзятость и отсутствие разнообразия. Все, включая людей, создающих эти AI-модели, имеют свои собственные естественные предубеждения.

Шокирующе, я знаю…

Если искусственный интеллект обучается на предвзятых данных – данных, которые несправедливо отдают предпочтение определенным группам или продуктам – он может усугубить существующие общественные проблемы и способствовать дискриминации.

Как SEO-эксперт, я часто объясняю клиентам, что Большие языковые модели (LLMs) на самом деле не ‘думают’ и не хранят информацию, как традиционная база данных. То, в чём они *действительно* хороши, – это распознавание закономерностей. Они были обучены на огромном количестве данных, и, по сути, предсказывают следующее слово – или, точнее, следующий ‘токен’ – на основе миллиардов числовых значений. Эти значения определяют наиболее вероятную последовательность, учитывая контекст. Речь идет об анализе закономерностей, а не об интеллекте или фактическом воспроизведении.

Как собираются обучающие данные?

Как и у любого хорошего SEO-специалиста, всё зависит.

  1. Если вы построили ИИ-модель специально для идентификации фотографий собак, вам нужны фотографии собак в каждой мыслимой позе. Все типы собак. Все эмоции, которые проявляет песик. Вам нужно создать или приобрести набор данных из миллионов, возможно, миллиардов изображений собак.
  2. Затем это необходимо очистить. Рассматривайте это как структурирование данных в согласованный формат. В упомянутом сценарии с собакой, возможно, кошачий друг злонамеренно добавил фотографии кошек, одетых как собаки, чтобы вас запутать. Их необходимо идентифицировать.
  3. Затем помеченные (для обучения с учителем). Разметка данных (с некоторыми аннотациями от человека) гарантирует, что в цикле присутствует разумное существо. Надеемся, эксперт, который добавит релевантные метки к крошечной части данных, чтобы модель могла учиться. Например, такса, сидящая на коробке и выглядящая меланхолично.
  4. Предварительная обработка. Реагирование на такие проблемы, как кошки, маскирующиеся под собак. Обеспечение минимизации потенциальных предубеждений в наборе данных, например, чрезмерно частое упоминание определенных пород собак по сравнению с другими.
  5. Разделенный. Часть данных резервируется, чтобы модель не могла запомнить выходные данные. Это финальная стадия валидации. Что-то вроде плацебо.

Этот процесс и дорогостоящий, и занимает значительное количество времени. Просто непрактично полагаться на столько специализированных знаний от людей, которые могли бы работать над более важными задачами.

Представьте себе: вы ломаете руку и проводите шесть часов в приемном отделении. Когда вы наконец-то попадаете к врачу, вы узнаете, что задержка была вызвана тем, что все они были заняты работой с данными, чтобы помочь обучить последнюю AI-модель OpenAI.

Я понимаю, что тебе очень больно, но я сейчас очень занят разметкой этих несчастных псов.

Разметка данных может быть медленным и повторяющимся процессом. Чтобы ускорить работу, многие компании нанимают команды людей (часто называемых ‘людьми в цикле’ или экспертами по данным), которые работают вместе с автоматизированными инструментами, предоставляющими начальные метки. Эти инструменты помогают сортировать и уточнять данные для обучения с учителем.

Для справки, один час видеоданных может занять у людей до 800 часов на аннотацию.

Micro Models

Компании сейчас создают более мелкие, более узконаправленные AI-модели – часто называемые микро-моделями. Эти модели не требуют огромного количества данных или времени обучения для эффективной работы. Обычные люди могут быстро начать обучать эти микро-модели, просто маркируя небольшое количество примеров.

Модели учатся. Они обучают себя.

В конечном итоге, нам потребуется вмешиваться всё реже и реже, в основном для проверки результатов и, что крайне важно, для предотвращения генерации моделями неприемлемого или вредоносного контента – например, сексуально откровенных изображений кого-либо, включая детей, публичных лиц или частных лиц.

Но кому это интересно перед лицом «прогресса».

Типы обучающих данных

Обучающие данные обычно сортируются в зависимости от того, сколько помощи им требуется – уровня контроля – и какую работу они выполняют, помогая модели учиться и совершенствоваться.

В идеале модель в основном обучается на реальных данных.

После разработки модели ее можно обучать и улучшать с использованием искусственных данных. Однако полагаться только на искусственные данные обычно недостаточно для построения действительно эффективной модели.

  • Контролируемый (или помеченный): где каждый ввод помечен «правильным» ответом.
  • Без присмотра (или без маркировки): Разбирайтесь сами, роботы, я пошел попить пива.
  • Полуконтролируемый:небольшой объем данных правильно помечен и модель «понимает» правила. Ещё, я выпью пива в офисе.
  • RLHF (Обучение с подкреплением на основе обратной связи с человеком): людям показывают два варианта и просят выбрать «правильный» (данные о предпочтениях). Либо человек демонстрирует поставленную задачу для режима имитации (демонстрационные данные).
  • Данные для предварительного обучения и тонкой настройки. Массивные наборы данных позволяют получить обширную информацию, а точная настройка используется для превращения модели в эксперта по категориям.
  • Мультимодальность: изображения, видео, текст и т. д.

Далее, есть то, что мы называем данными пограничного случая. Это информация, специально созданная для того, чтобы бросить вызов модели и сделать ее более надежной.

Учитывая быстро растущий спрос на данные для обучения ИИ, естественным образом возникают вопросы о том, что представляет собой добросовестное использование.

Так что платите людям.

Спектр надзора

Обучение с учителем предполагает обучение ИИ с использованием данных, на которых уже указаны правильные ответы. Эти метки имеют решающее значение, поскольку они позволяют ИИ автоматически обучаться и улучшать свою производительность.

Представьте, что вы учите компьютер распознавать цвета. Существует много разных оттенков каждого цвета – на самом деле сотни! Хотя это кажется простой задачей, для ее правильного решения требуется точная маркировка каждого цвета. К сожалению, точная маркировка занимает много времени и может быть дорогостоящей.

Обучение без учителя предполагает передачу модели ИИ большого количества необработанных, немаркированных данных. По сути, вы предоставляете данные и позволяете модели попытаться разобраться в них самостоятельно, без какого-либо руководства. Это подход «попробуй и посмотри», а результаты оценишь позже.

Это позволяет проводить более исследовательское «распознавание образов». Не учусь.

Хотя этот метод не идеален, он очень хорош для выявления тенденций, которые люди могут упустить из виду. Модель может эффективно создавать свои собственные категории и процессы для анализа.

Модели искусственного интеллекта способны обучаться самостоятельно и обнаруживать закономерности, которые люди могут упустить из виду. Однако они также допускают ошибки. Это похоже на беспилотные автомобили: хотя они могут стать причиной меньшего количества аварий в целом, те, которые *случаются*, чувствуют себя намного хуже.

Нас пугают технологии. И это правильно.

Борьба с предвзятостью

Предвзятость в обучающих данных вполне реальна и потенциально очень разрушительна. Есть три фазы:

  1. Предвзятость происхождения.
  2. Предвзятость развития.
  3. Предвзятость развертывания.

Предвзятость происхождения ставит под вопрос, насколько на самом деле надежен и справедлив набор данных. Представляют ли данные полную картину, или существуют скрытые предубеждения (преднамеренные или нет), которые искажают результаты?

Данные обучения могут содержать определенные характеристики или закономерности – это известно как ошибка развития. Но происходит ли алгоритмическая погрешность *из-за* данных, используемых для обучения модели?

Далее следует предвзятость развертывания, которая возникает, когда способ оценки и обработки данных дает неточные результаты и может привести к постоянным, самоусиливающимся ошибкам в автоматизированных системах.

Понятно, почему человеческий надзор так важен и почему предоставление ИИ возможности учиться на фальшивой или плохо отобранной информации может привести к серьезным проблемам.

Если в здравоохранении данные собираются с учетом человеческих предубеждений, полученные алгоритмы могут в конечном итоге повторить неравенство прошлого. Это серьезная проблема.

Это приводит к довольно мрачному циклу подкрепления.

Наиболее часто используемые источники данных для обучения

Если вы ищете хорошо организованные коллекции академических или литературных произведений – такие, которые вам нужны для создания чего-то действительно стоящего – вам, вероятно, придется заплатить определенную сумму.

Обычный обход

В настоящее время Common Crawl Web Graph содержит данные примерно о 607 миллионах веб-сайтов. Каждый новый выпуск ежемесячно включает информацию от 94 до 163 миллионов веб-сайтов.

Недавний отчет Mozilla Foundation за 2024 год под названием «Обучающие данные по цене сэндвича» показал, что большинство (64%) из 47 крупных языковых моделей, которые они изучали, опирались как минимум на одну обработанную версию набора данных Common Crawl.

Вряд ли ваша работа будет замечена или процитирована, если она не была включена в данные, используемые для обучения этих систем. Такие инструменты, как Common Crawl Index Server, позволяют вам проверить, был ли ваш веб-сайт заархивирован, а веб-график Metehan показывает, насколько хорошо связан ваш контент с Интернетом.

Википедия (и Викиданные)

Стандартный набор данных английской Википедии содержит около 20 ГБ полнотекстовых статей, полезных для обучения языковых моделей. Викиданные, между тем, представляют собой обширную и очень подробную базу знаний, наполненную хорошо организованной информацией.

Некоторые из крупнейших парней только что подписали соглашения с Википедией.

Издательства

OpenAI, Gemini и т. д. заключили многомиллионные лицензионные соглашения с рядом издателей.

Раньше я видел от них постоянный поток обновлений, но в последнее время он сильно замедлился — почти прекратился. Честно говоря, учитывая их финансовое положение, меня это не удивляет. Похоже, им пришлось отказаться от всего, включая создание контента.

Медиа и библиотеки

Основное внимание уделяется обучению ИИ работе с различными типами контента, такими как изображения и видео. Shutterstock и Getty Images уже сотрудничают с Perplexity в этом вопросе, а Disney, будущий партнер видеоплатформы Sora, помогает добиться визуального понимания, необходимого для этих моделей искусственного интеллекта.

Благодаря новому трехлетнему соглашению с Disney Сора теперь может создавать короткие видеоролики для социальных сетей с использованием персонажей Диснея, основываясь на том, что пользователи просят ее создать.

Disney инвестирует 1 миллиард долларов в OpenAI, а также получит возможность выкупить еще больше акций компании в рамках новой сделки.

книги

BookCorpus превратил очищенные данные 11 000 неопубликованных книг в набор данных объемом 985 миллионов слов.

Становится невозможно создать достаточно нового письменного материала, чтобы модели ИИ могли продолжать обучение, и это в конечном итоге приведет к снижению их производительности.

Репозитории кода

Способность кодировать в настоящее время является ключевым преимуществом многих больших языковых моделей (LLM). Такие модели, как Cursor и Claude Code, особенно впечатляют, и они были обучены с использованием данных из таких источников, как GitHub и Stack Overflow.

Они совершили революцию в области виброинженерии.

Общедоступные веб-данные

Использование широкого спектра полезной информации из Интернета ускоряет процесс обучения моделям ИИ, что снижает объем необходимой вычислительной мощности. Эти данные постоянно обновляются и меняются, но они также могут быть неорганизованными и ими сложно управлять.

Если вам требуются большие объемы данных, особенно если вам нужно, чтобы они постоянно обновлялись, то лучшим выбором будет информация, доступная в общедоступной сети. Это также относится к получению подлинных мнений и обзоров о продуктах и ​​услугах. Такие источники, как веб-сайты, платформы обзоров, пользовательский контент и социальные сети, — отличные места для поиска этой информации.

Почему модели не становятся (намного) лучше

Хотя у нас есть много доступных данных, большая часть из них не классифицирована, что делает их непригодными для обучения моделей машинного обучения, основанных на размеченной информации. Даже одна неправильная метка может снизить точность модели.

Многие эксперты полагают, что скоро мы столкнемся с нехваткой качественных данных. В конечном итоге это, скорее всего, приведет к тому, что инструменты ИИ начнут полагаться на неточную или некачественную информацию.

Это известная проблема, которая может привести к сбою модели.

  • Их блокируют компании, которые не хотят, чтобы их данные использовались бесплатно для обучения моделей.
  • Протоколы robots.txt (директива, а не нечто, требующее прямого исполнения), блокировка на уровне CDN и страницы условий обслуживания были обновлены, чтобы заставить этих ребят заблудиться.
  • Они потребляют данные быстрее, чем мы можем их произвести.

По мере того, как все больше издателей и веб-сайтов начинают требовать подписки (а это разумный бизнес-шаг), эффективность систем такого типа фактически снижается.

Итак, как вы получаете данные об обучении?

Я думаю о двух очевидных подходах.

  1. Определить наборы исходных данных для важных моделей и найти пути к ним.
  2. Отказаться от конкретики и просто заняться отличным SEO и более широким маркетингом. Окажите ощутимое влияние в своей отрасли.

У обоих подходов определенно есть свои плюсы и минусы. Но для большинства компаний попытки напрямую манипулировать работой конкретных моделей кажутся излишними. Честно говоря, это немного похоже на рискованную тактику SEO. Большинству брендов было бы лучше сосредоточиться на создании превосходного маркетингового контента, которым люди естественным образом делятся, ссылаются и обсуждают.

Эти модели ИИ не обучаются с использованием информации в реальном времени. Поскольку вы не можете добавлять новые данные в модель после ее создания, очень важно предвидеть ваши потребности и тщательно планировать данные обучения.

Если вы частное лицо, вы должны быть:

  • Создание и распространение контента.
  • Занимаюсь подкастами.
  • Посещение отраслевых мероприятий.
  • Совместное использование контента других людей.
  • Провожу вебинары.
  • Познакомьтесь с соответствующими издателями, публикациями и людьми.

Как определить, какие модели наборов данных используются?

Люди теперь гораздо более конфиденциальны в отношении данных, которые они используют для обучения своих моделей ИИ. Вероятно, это связано с юридическими проблемами и стоимостью данных. В результате вам придется провести расследование и найти информацию самостоятельно.

  • Обычное сканирование.
  • Википедия.
  • Викиданные.
  • Репозитории кодирования.

К счастью, большинство сделок становятся общедоступными, поэтому мы можем быть уверены, что модели ИИ обучаются с использованием информации из этих источников.

Google сотрудничает с Reddit и имеет доступ к огромной коллекции стенограмм с YouTube. Это дает им значительное преимущество, поскольку они, вероятно, обладают более крупным и более организованным набором данных, чем любая другая компания.

Как цифровой маркетолог, я внимательно слежу за развитием Grok. Важно понимать, что он почти полностью обучался на реальных данных из X (ранее Twitter). Это во многом объясняет его… нестандартное поведение. Честно говоря, он часто выглядит незрелым и склонным к созданию неуместного или оскорбительного контента, даже имитируя вредоносные сценарии. Нефильтрованный характер источника данных в режиме реального времени, очевидно, является важным фактором в формировании его ответов.

Важно помнить, что компании, занимающиеся искусственным интеллектом, часто полагаются на сторонние услуги. Эти компании решают такие задачи, как сбор информации из Интернета, ее организация и подготовка для использования в обучении моделей ИИ. Scale AI – ведущий поставщик услуг по подготовке данных для крупных компаний, занимающихся искусственным интеллектом, а Bright Data специализируется исключительно на сборе веб-данных.

Контрольный список

Мы стремимся включиться в данные, используемые для обучения больших языковых моделей (LLM). Это поможет модели распознать вашу информацию, что повысит вероятность ее использования при создании приложений, извлекающих информацию – часто называемых RAG. Для этого нам необходимо:

  1. Управляйте экосистемой мультиботов для обучения, индексирования и просмотра.
  2. Оптимизация сущности. Хорошо структурированный, хорошо связанный контент, согласованные NAP, свойства схемы SameAs и наличие сети знаний. В Google и Викиданных.
  3. Убедитесь, что ваш контент отображается на стороне сервера. Google стал очень искусным в рендеринге контента на стороне клиента. Боты, такие как GPT-bot, видят только ответ в формате HTML. JavaScript по-прежнему неуклюж.
  4. Хорошо структурированный, машиночитаемый контент в соответствующих форматах. Таблицы, списки, правильно структурированный семантический HTML.
  5. Получать. Сам. Вне. Там. Поделитесь своими вещами. Шуметь.
  6. Будьте предельно ясны на своем веб-сайте о том, кто вы. Ответьте на соответствующие вопросы. Владейте своими сущностями.

Важно учитывать как то, как вы представляете свой бренд напрямую, так и то, как о нем говорят другие. Стремитесь сделать ваш бренд первым, о чем думают люди, когда рассматривают варианты в вашей области.

Современное SEO с лучшим маркетингом.

Смотрите также

2026-02-04 17:29