Метод извлечения намерения пользователя от Google

Исследователи Google разработали новую технику для понимания того, чего хотят пользователи, путём анализа их действий. Этот метод использует небольшие модели, работающие непосредственно на устройстве, что означает, что пользовательские данные не нужно отправлять в Google, помогая сохранить личную информацию в тайне. Эта технология разработана для повышения производительности автономных агентов – программ, которые могут действовать независимо.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Команда нашла решение, разбив проблему на два более простых шага. Этот подход показал исключительные результаты, превзойдя возможности даже самых мощных больших языковых моделей, работающих на огромных системах центров обработки данных.

Меньшие модели на браузерах и устройствах

Это исследование направлено на понимание того, что пользователи пытаются сделать, анализируя их действия на телефонах или в браузерах, при этом сохраняя эти данные конфиденциальными на самом устройстве. Это требует, чтобы вся обработка происходила локально, без отправки какой-либо информации обратно в Google.

  1. Первый этап, на котором модель на устройстве суммирует то, что делал пользователь.
  2. Последовательность резюме затем отправляется второй модели, которая определяет намерение пользователя.

Наш метод последовательно превосходит как более мелкие AI-модели, так и самые продвинутые большие языковые и визуальные модели, независимо от используемых данных или модели. Он также эффективно справляется с неряшливыми или несовершенными данными, что является распространенной проблемой для стандартных методов обучения.

Извлечение намерений из взаимодействия с пользовательским интерфейсом.

В 2025 году исследователи представили метод понимания намерений пользователей путем анализа скриншотов и текстовых описаний их действий, используя мощные Мультимодальные Большие Языковые Модели (MLLMs). Они развили этот существующий подход, но улучшили его с помощью более эффективного запроса.

Понимание того, чего хочет пользователь – его намерения – удивительно сложно, и многое может пойти не так в этом процессе. Исследователи называют ‘траекторией’ путь, который пользователь проходит через приложение или веб-сайт, по сути, последовательность шагов, которые он выполняет.

Мы можем схематически изобразить пользовательский опыт как серию шагов, и каждый из этих шагов можно разбить на два ключевых компонента.

  1. Наблюдение
    Это визуальное состояние экрана (снимок экрана) того места, где пользователь находится на этом шаге.
  2. Действие
    Конкретное действие, которое пользователь выполнил на этом экране (например, нажатие кнопки, ввод текста или переход по ссылке).
  • «faithful: описывает только те вещи, которые фактически происходят в траектории;
  • comprehensive: предоставляет всю информацию о намерениях пользователя, необходимую для воспроизведения траектории;
  • and relevant: не содержит излишней информации, выходящей за рамки необходимой для полноты.»

Сложно оценить извлеченные намерения.

Оценивать, насколько хорошо система понимает запросы пользователей, непросто. Запросы пользователей часто включают сложную информацию, такую как конкретные даты или суммы, и то, что составляет «правильное» понимание, может быть открыто для интерпретации. Это особенно верно, потому что мотивы людей не всегда ясны, что затрудняет определение истинного намерения, стоящего за их запросами.

Часто бывает сложно понять, *почему* кто-то совершил то или иное действие в сети. Например, купил ли клиент продукт из-за его низкой цены или из-за его возможностей? Мы видим *что* делают люди, но не *почему* они это делают. Исследования показали, что даже при изучении пути пользователя по веб-сайту или приложению мы можем лишь догадываться об их намерениях в 80% случаев в интернете и 76% случаев на мобильных устройствах – это означает, что действия пользователя не всегда ясно раскрывают их цели.

Двухэтапный подход

Поскольку стандартные методы, такие как рассуждения методом цепочки мыслей (Chain of Thought), плохо работали с меньшими языковыми моделями, команда выбрала двухэтапный процесс, имитирующий работу Chain of Thought.

Как цифровой маркетолог, одним из первых моих действий является создание сводок для каждого шага, который совершает пользователь – например, на что он кликнул (мы делаем скриншот) и какое действие выполнил. Мы используем подсказки (prompting) для создания этих сводок, потому что на данный момент у нас недостаточно размеченных данных для обучения модели, которая могла бы делать это автоматически. Это подход, основанный на подсказках, пока мы не сможем создать этот обучающий набор данных.

Затем мы используем сводки каждого отдельного взаимодействия в качестве входных данных для другой модели, которая создает полное описание общей цели пользователя. Мы совершенствуем эту вторую модель с помощью процесса, называемого тонкой настройкой (fine-tuning)…

Первый этап: Краткое содержание скриншотов

Первоначальное резюме взаимодействия, основанное на скриншоте, разделено на два раздела, хотя существует и третий раздел.

  1. Описание того, что отображается на экране.
  2. Описание действия пользователя.

Финальный шаг включает в себя устранение догадок относительно того, чего хочет пользователь. Модель сначала пытается предсказать намерение пользователя, но эта «предсказуемая цель» затем удаляется. Парадоксальным образом, разрешение модели делать эти предсказания, а *затем* отбрасывать их, на самом деле улучшает конечный результат.

Исследователи попробовали несколько различных способов задать вопрос ИИ, и этот подход дал им наилучшие результаты.

Второй этап: Генерация общего описания намерения.

На втором этапе исследователи улучшили модель для создания общих описаний намерений пользователей. Они обучили эту модель, используя данные, состоящие из двух основных компонентов:

  1. Сводки, представляющие все взаимодействия в траектории
  2. Соответствующая истина, описывающая общую цель для каждой из траекторий.

Сначала модель часто придумывала вещи, потому что первоначальные резюме, которые она получала, иногда не содержали информации, но полные желаемые результаты всегда предоставлялись. Это привело к тому, что модель научилась дополнять эти резюме, пытаясь сопоставить их с полными желаемыми результатами.

Они исправили проблему, упростив желаемые результаты и устранив любую информацию, отсутствующую в исходных резюме. Это позволило модели научиться понимать цели исключительно на основе предоставленных входных данных.

После тестирования четырёх различных методов, исследователи выбрали этот, потому что он дал наилучшие результаты.

Этические соображения и ограничения

В заключении в статье подчеркиваются возможные этические проблемы, которые могут возникнуть, когда самоработающиеся системы действуют против воли пользователя, и подчеркивается важность установления мер безопасности для предотвращения этого.

Исследователи отметили некоторые ограничения, которые могут повлиять на широту применения полученных результатов. В частности, тестирование проводилось только на телефонах Android и веб-сайтах, поэтому результаты могут отличаться на устройствах Apple. Кроме того, в исследовании участвовали только пользователи из Соединенных Штатов, говорящие на английском языке.

Ни одна из исследовательских работ, ни одна из статей в блоге не указывает на то, что эти методы понимания того, чего хотят пользователи, используются прямо сейчас. Статья в блоге завершается утверждением о том, что описанная техника является полезной.

Как цифровой маркетолог, я очень рад будущему ИИ на устройствах. По мере того, как эти модели становятся умнее, а телефоны – мощнее, я считаю, что понимание намерений пользователя непосредственно на устройстве станет ключевым компонентом многих полезных функций, которые мы увидим в ближайшие годы. Это откроет множество возможностей для создания более интуитивных и персонализированных мобильных впечатлений.

Выводы

Исследовательская работа и связанная с ней статья в блоге не предполагают, что эти результаты могут быть применены к ИИ или традиционным поисковым технологиям, хотя они и отмечают связь с областью автономных агентов.

Это исследование фокусируется на интеллектуальной системе, встроенной в устройство, которое отслеживает взаимодействие пользователя с его экраном. Затем система пытается определить, чего пользователь пытается достичь, основываясь на этих действиях.

В статье перечислены два конкретных применения этой технологии:

  1. Проактивная помощь:
    Агент, который наблюдает за действиями пользователя для «улучшенной персонализации» и «повышения эффективности работы».
  2. Персонализированная память
    Процесс позволяет устройству «запоминать» прошлые действия как намерение для последующего использования.

Показывает направление, в котором движется Google.

Хотя эта технология ещё не доступна, она даёт чёткое представление о будущих планах Google. Они разрабатывают более компактные модели, работающие непосредственно на устройстве, которые будут обучаться на основе того, как пользователи взаимодействуют со своими устройствами. Эти модели затем будут активно предлагать помощь, предвосхищая то, чего пытается достичь пользователь. По сути, система будет сосредоточена на понимании целей пользователя.

Прочитайте блог Google здесь.

Маленькие модели, большие результаты: достижение превосходного извлечения намерений посредством декомпозиции

Прочитайте PDF-исследование:

Малые модели, большие результаты: достижение превосходного извлечения намерений посредством декомпозиции (PDF)

Смотрите также

2026-01-26 14:11