Google подтверждает использование технологии, аналогичной MUVERA

Во время недавней сессии вопросов и ответов на мероприятии Search Central Live Deep Dive в Азии Гарии Иллиес из Google был задан вопрос о применении метода поиска с помощью Multi-Vector Retrieval через Фиксированные-Размерные Кодировки (MUVERA) и основанных на графе моделей.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

МУВЕРА

Недавно Google представила MUVERA в публикации в блоге и исследовательской работе: инновационный подход, который повышает скорость поиска путем преобразования сложных многовекторных поисков в быстрые одновекторные. Он сжимает коллекции токеновых вложений в векторы фиксированной размерности, отражая их первоначальную близость в сходстве. Это позволяет использовать ускоренные методы одновекторного поиска для быстрого выявления перспективных вариантов, которые затем переоцениваются с использованием точного многовекторного сходства. По сравнению со старыми системами, такими как PLAID, MUVERA работает быстрее, извлекает меньше предложений и сохраняет уровни полноты, что делает ее жизнеспособным вариантом для крупномасштабных поисков.

Ключевые моменты о MUVERA следующие:

  • MUVERA преобразует многовекторные наборы в фиксированные векторы, используя фиксированные размерные кодировки (FDE), которые представляют собой одновекторные представления многовекторных наборов.
  • Эти FDE (фиксированные размерные кодировки) достаточно точно соответствуют исходным многовекторным сравнениям, чтобы обеспечить точный поиск.
  • Процесс поиска в MUVERA использует метод максимального внутреннего произведения (MIPS), признанную технику поиска, применяемую для задач извлечения данных, что упрощает её масштабирование.
  • После использования быстрого одновекторного поиска (МИПС) для сужения списка наиболее вероятных совпадений, MUVERA проводит повторный ранжирование с помощью сходства Chamfer, более подробного метода сравнения многовекторов. Этот последний шаг восстанавливает полную точность многовекторного извлечения, обеспечивая скорость и точность.
  • МУВЕРА способна находить более релевантные документы с меньшим временем обработки по сравнению с современным базовым уровнем (PLAIAD), с которым она была сравнена.

Google подтверждает, что они используют Movera

Хосе Мануэль Моргаль в своем профиле на LinkedIn задал вопрос Гэри Иллесу из Google. Тот с юмором поинтересовался значением MUVERA до того, как подтвердил использование ими его варианта.

Была ли внедрена MUVERA, тема упомянутая в недавней статье Google Research и соответствующем документе, еще в поисковую функцию Google? С шуткой он задал мне вопрос о термине ‘MUVERA’, хихикая при этом, и отметил, что хоть они используют схожую систему, но не называют её так.

Использует ли Google модели на основе графов (GFM)?

Google только что опубликовал сообщение в блоге о своей последней достижении в области искусственного интеллекта, которую они назвали Графовой базовой моделью.

Graph Foundation Model (GFM) от Google — это система искусственного интеллекта, которая извлекает знания из реляционных баз данных, преобразуя их в сетеподобные структуры, известные как графы. В этих структурах отдельные строки функционируют как узлы, а отношения между таблицами изображаются в виде соединительных линий или ребер.

В отличие от традиционных моделей машинного обучения и графовых нейронных сетей (GNNs), которые работают исключительно на одном конкретном наборе данных, немногошаговые модели (GFMs) показывают адаптивность к обработке новых баз данных с различными структурами и атрибутами без необходимости переобучения свежими данными. GFMs используют мощную модель искусственного интеллекта для понимания взаимосвязей между отдельными точками данных в таблицах. Это позволяет им выявлять закономерности, которые часто упускают обычные модели, демонстрируя превосходную производительность на таких задачах, как обнаружение спама в крупномасштабных системах, например у Google. Немногошаговые модели представляют значительный прогресс, поскольку они обеспечивают гибкость основных моделей при анализе сложных структурированных данных.

Как опытный вебмастер могу подтвердить, что Graph Foundation Models являются значительным прорывом. В отличие от мелких улучшений, эти модели обеспечивают скачок в производительности, давая до 40 раз повышение средней точности и примерно втрое большую эффективность. Проще говоря, они не просто промежуточные шаги; это революционные изменения.

После этого Хосе спросил у Ильиса, использует ли Google Graph Foundation Models. Гэри снова притворился, что не понимает, о чем говорит Хосе.

Фрагмент работы под названием «Graph Foundation Models for Data», опубликованный исследовательской группой Google, не сопровождается сопроводительной статьей. Возникает вопрос: используется ли эта модель сейчас в Google Поиске? Его ответ был таким же, как и прежде: он задал вопрос о моделях Graph Foundation для данных. Он выразил сомнения относительно их текущей работоспособности из-за отсутствия соответствующей научной статьи и упомянул, что не контролирует контент, опубликованный на блоге Google Research.

Согласно мнению Гэри, модель графа Foundation не используется в поиске на данный момент. Пока это наиболее точная доступная информация.

ГФМ готов к масштабированному развертыванию?

Согласно официальному объявлению Граф-Фонда, они протестировали свою модель на практическом применении – фильтрации спама в рекламе. Это подразумевает, что они использовали реальные внутренние системы и информацию, а не полагались только на теоретические оценки или компьютерные сценарии.

Работа в масштабе Google подразумевает работу с графами, содержащими миллиарды узлов и связей, область, где наша среда JA X и инфраструктура TPU демонстрируют исключительные результаты. Такие огромные объемы данных идеально подходят для обучения универсальных моделей. Поэтому мы протестировали нашу Граф Факторизующую Машину (GFM) на различных внутренних задачах классификации, таких как определение спама в объявлениях, что включает множество больших и взаимосвязанных реляционных таблиц. Регулярные табличные базовые модели хотя и масштабируемы, не учитывают связи между строками разных таблиц, упуская контекст, который мог бы способствовать более точным предсказаниям. Наши эксперименты ясно показывают значительную разницу, которую это может внести.

Выводы

Представитель Google Гэри Иллис подтвердил, что версия программы МУВЕРА используется компанией Google. Что касается GFm, его ответ выглядел скорее как мнение, предполагая, что она возможно не активна для использования в настоящее время.

Смотрите также

2025-08-02 01:39