Как могут работать системы рекомендаций, такие как Google Discover

Несмотря на то, что Google предоставляет информацию о Google Discover, он остаётся в значительной степени непонятым издателями и специалистами по маркетингу. Многие даже не распознают его как систему рекомендаций, хотя это именно то, чем он и является. Эта статья рассматривает ключевую исследовательскую работу по созданию масштабных систем рекомендаций. Хотя в статье основное внимание уделяется YouTube, принципы вполне могут применяться и к Google Discover.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Рекомендательные системы

Google Discover — это тип системы, называемый системой рекомендаций. Одним из самых ранних примеров была MovieLens, созданная в 1997 году как университетский проект. Пользователи оценивали фильмы, и система использовала эти оценки, чтобы предлагать другие фильмы, которые им могут понравиться, основываясь на идее, что люди со схожими вкусами часто любят похожие вещи. Однако эти старые алгоритмы недостаточно мощные, чтобы справиться с огромным масштабом, необходимым для персонализации рекомендаций для таких платформ, как YouTube или Google Discover.

Двухбашенная Модель Рекомендательной Системы

Как человек, который разрабатывал и поддерживал веб-приложения на протяжении многих лет, я видел, как системы рекомендаций сильно эволюционировали. В последнее время вы часто слышите о том, что люди называют архитектурой или моделью ‘Two-Tower’. Она стала очень популярной, особенно для работы с огромными наборами данных, такими как у YouTube. Интересно, что, хотя эта настройка была впервые реализована в работе над рекомендательным движком YouTube, в оригинальной исследовательской работе на самом деле не *называли* её моделью ‘Two-Tower’ – это название появилось позже как способ описать систему.

Может показаться странным обращаться к YouTube за пониманием Google Discover, но технология, которую Google изначально разработала для YouTube, фактически является основой того, как они обрабатывают рекомендации при работе с огромным и постоянно обновляющимся потоком контента.

Архитектура Two-Tower получила своё название от принципа работы: она использует два отдельных фрагмента информации, которые сравниваются для поиска соответствия, подобно тому, как могут соединяться две башни.

Эта система начинается с поиска релевантного контента в базе данных. Она использует нейронную сеть для создания цифрового профиля для каждого пользователя и другого для каждой единицы контента. Вместо объединения этих профилей в единую систему, она сравнивает их, чтобы найти наилучшие соответствия, основываясь на том, насколько они похожи.

Для уточнения, оригинальное исследование на самом деле не *называет* эту архитектуру ‘Two-Tower’ – это название появилось позже как способ описать этот подход. Однако, я буду продолжать использовать термин ‘Two-Tower’, поскольку он помогает понять, как работает этот тип рекомендательной системы.

The User Tower анализирует информацию о каждом пользователе – такие вещи, как то, что они смотрели, их поисковые запросы, их местоположение и общие демографические данные. Затем он использует эту информацию для создания профиля интересов пользователя, представленного в виде точки в математической системе. Это позволяет системе понимать, что нравится каждому пользователю.

Item Tower – это система, которая представляет контент – например, видео – с помощью числовых данных, позволяя быстро проводить сравнения. Изначально использовавшаяся YouTube, эта система изучает уникальные ‘координаты’ для каждого видео и сохраняет их. Когда вы открываете YouTube, система мгновенно сравнивает ваши интересы (‘ваши координаты’) с ‘координатами’ миллионов видео, позволяя показывать вам релевантный контент без необходимости анализировать каждое видео каждый раз.

Проблема свежего контента

Исследования Google подчеркивают важность ‘свежести’ в своих рекомендациях. Они объясняют это как баланс между показом людям вещей, которые им уже нравятся (эксплуатация) и представлением им новых вещей (исследование). На YouTube Google заинтересован в показе нового контента, потому что пользователи явно предпочитают его – они хотят видеть вещи, которые являются новыми и интересными.

Каждую секунду на YouTube загружается огромное количество видео. Выделение этого нового контента имеет решающее значение для поддержания вовлеченности пользователей. Мы обнаружили, что люди в целом любят смотреть недавние видео, но только если эти видео также представляют для них интерес.

Google Discover, похоже, отдаёт приоритет новому контенту, особенно по темам, которые уже интересуют пользователей. Вероятно, то же понимание того, что хотят люди, которое используют исследователи, также влияет на то, что Discover выбирает для показа. Это говорит о том, что постоянное создание нового контента может помочь вашим страницам появиться в Google Discover.

Эта исследовательская работа указывает на нечто увлекательное: алгоритмы машинного обучения могут естественным образом отдавать предпочтение старому контенту. Идея, хотя и потенциально устаревшая, заключается в том, что поскольку эти алгоритмы учатся на прошлых данных, они склонны быть предвзятыми в отношении того, что уже существует.

Как эксперт по SEO, я часто сталкиваюсь с этой закономерностью – модели машинного обучения, как правило, отдают предпочтение тому, что *уже* произошло. Это связано с тем, что они учатся, анализируя прошлые данные, а затем предсказывая, что произойдет дальше. Таким образом, по сути, они созданы для воспроизведения истории, что может создавать предвзятость в отношении более старых тенденций и информации.

Система учится на старых видео, чтобы определить, что было популярно, что может привести к рекомендации вещей, которые сейчас не в тренде. Чтобы исправить это, при предложении видео система временно игнорирует, как давно что-то было популярно. Это побуждает модель сосредотачиваться на текущих тенденциях, а не полагаться на прошлые данные, гарантируя, что она рекомендует то, что популярно *прямо сейчас*.

Точность данных кликов

Оригинальные исследования Google также обсуждают тонкие подсказки о том, чего хотят пользователи, в частности, данные, собранные с помощью кликов. Однако исследователи отмечают, что эти данные о кликах обычно не являются надежным способом определить, действительно ли пользователи довольны результатами.

Предсказать, что пользователи будут делать на YouTube, сложно из-за ограниченного объема данных и множества скрытых факторов. Мы обычно не знаем наверняка, довольны ли пользователи, поэтому полагаемся на косвенные подсказки, которые не всегда точны. Кроме того, информация, описывающая видео, организована непоследовательно. Из-за этих проблем с нашими данными наши системы должны быть очень устойчивыми и адаптируемыми.

В заключение, исследователи обнаружили, что их рекомендательная система успешно увеличила время, которое пользователи тратят на просмотр контента, и показала лучшие результаты в целом по сравнению с другими системами.

Мы разработали глубокую нейронную сеть для рекомендации видео на YouTube, и она работает в два этапа: сначала она находит набор потенциальных видео (генерация кандидатов), а затем ранжирует эти видео, чтобы показать вам лучшие. Эта система использует модель коллаборативной фильтрации, которая лучше понимает, как взаимодействуют различные факторы, чем предыдущие методы, использовавшиеся в YouTube, что приводит к более релевантным рекомендациям.

Как цифровой маркетолог, я работал над улучшением наших моделей рекомендации видео, и недавно мы сделали ключевое открытие. Просто включив возраст видео в данные, которые мы передаем модели, мы смогли значительно снизить ее склонность к предпочтению старого контента. Это позволило ей лучше понимать, как меняется популярность видео с течением времени. Результат? Лучшие результаты в наших внутренних тестах и – что самое главное – резкое увеличение времени просмотра для недавно загруженных видео, когда мы протестировали это с реальными пользователями в A/B-тесте.

Прогнозирование того, как долго кто-то будет смотреть видео, является хорошо известной задачей машинного обучения, но наша модель глубокого обучения достигла лучших результатов, чем традиционные методы, такие как линейные и основанные на деревьях подходы. Системы рекомендации особенно выигрывают от информации о том, что пользователи уже оценили или с чем взаимодействовали ранее. Чтобы эффективно работать, модели глубокого обучения нуждаются в том, чтобы категориальные и непрерывные данные были отформатированы определенным образом, поэтому мы использовали внедрения и квантильную нормализацию для подготовки данных соответствующим образом.

Несмотря на то, что эта исследовательская работа была опубликована десятилетие назад, она по-прежнему предоставляет ценное понимание того, как работают системы рекомендаций, помогая раскрыть суть таких платформ, как Google Discover. Вы можете найти оригинальную работу здесь: Deep Neural Networks for YouTube Recommendations.

Смотрите также

2026-01-21 15:40