Google представил свежую и быструю многомерную технику извлечения данных под названием MUVERA, которая улучшает скорость поиска, ранжирования и точность. Этот инновационный метод применим к различным областям, включая поисковые системы, видеорекомендательные системы наподобие YouTube и обработку естественного языка (NLP).
📊 Сделай правильный выбор!
ФинБолт подскажет, когда покупать и когда продавать для максимальной выгоды!
Как опытный вебмастер, я недавно столкнулся с интересным инструментом под названием МУВЕРА. Хотя в объявлении прямо не указывается его использование в поиске, исследовательская работа раскрывает его возможности. По сути, МУВЕРА оптимизирует многовекторный поиск на огромном масштабе интернета. Это достигается за счет адаптивности к существующей инфраструктуре (через MIPS) и минимизации задержки и использования памяти.
Векторное вложение в поиск
Как эксперт по SEO, я бы описал векторное встраивание как метод, при котором словам, темам и фразам присваиваются многомерные представления пространства, отражающие их взаимосвязи. Это позволяет машинам понимать сходства путем распознавания паттернов, таких как использование слов в одном контексте или фраз с идентичными значениями. Связанные слова или фразы будут размещены близко друг к другу в этом представлении.
https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text
- Слова «Король Лир» будут близки к фразе «Трагедия Шекспира».
- Фраза «A MidSummer Night’s Dream» будет занимать место рядом с комедией Шекспира.
- И ‘Король Лир’, и ‘Сон в летнюю ночь’ будут расположены в пространстве, близком к Шекспиру.
Пробелы или промежутки между отдельными словами, группами слов и идеями (которые можно рассматривать как методы математического сравнения) определяют степень их связи друг с другом. Эти паттерны позволяют машинам делать выводы о сходстве между ними.
Или просто:
Расстояния между словами, мыслями и идеями помогают машинам понимать их схожесть. Эти образцы дают возможность машине находить общие черты среди разных элементов.
МУВЕРА решает присущую проблему многовекторных внедрений
В соответствии с исследованием MUVERA, нейронные вложения являются важной частью информационного поиска уже на протяжении десяти лет. Исследование модели ColBERT многовекторного представления из 2020 года выделяется как значимый шаг вперед в этой области, однако отмечается, что данная модель сталкивается с проблемой узкого места, что делает ее неидеальной.
В последнее время, после революционной работы ColBERT, модели с несколькими векторами, которые генерируют уникальный набор встраиваний для каждой точки данных, показали значительно лучшие результаты в задачах информационного поиска (IR). Однако реализация этих моделей для целей IR может быть вычислительно затратной из-за сложности многовекторного извлечения и оценки.
В последнее время мы наблюдали значительный прогресс, особенно с появлением таких моделей как ColBERT, использующих несколько векторов. Эти достижения продемонстрировали заметное улучшение в задачах информационного поиска. Метод многовекторного подхода повышает точность и способствует поднятию более релевантных документов, однако он сталкивается со значительными вычислительными трудностями. Например, увеличение числа эмбеддингов и сложность сравнения схожести с использованием множества векторов делают процесс извлечения данных заметно дороже.
Может быть преемником технологии RankEmbed от компании Google?
Показания по антимонопольному делу Министерства юстиции США раскрыли детали о том, как создаются страницы результатов поисковой системы. Один из методов, которые они используют, известный как RankEmbed, был описан так, что представляет механизм, встроенный в ранжирование поисковых запросов.
RankEmbed — это модель, которая преобразует как вопросы, так и документы в пространство эмбеддингов, учитывая не только семантические аспекты каждого элемента, но также дополнительные сигналы. Процесс поиска и ранжирования становится вопросом расчета скалярного произведения (или расстояния) в этом пространстве эмбеддингов… Это невероятно быстро, обычно достигая отличных результатов для общих запросов, но может несколько испытывать трудности с более специфичными или «хвостовыми» запросами.
MUVERA представляет собой инновационный прорыв в технологии, решая проблемы производительности и масштабируемости, с которыми сталкиваются многовекторные системы, превосходящие традиционные модели с двумя энкодерами, такие как RankEmbed. Она обеспечивает более глубокое семантическое понимание и улучшенное управление производительностью запросов на длинных хвостах.
Инновация заключается в методе, известном как Fixed Dimensional Encoding (FD), который разделяет пространство эмбеддинга на сегменты и объединяет векторы внутри каждого сегмента в один вектор фиксированной длины. Это позволяет ускорить поиск, так как не требуется сравнивать индивидуальные векторы по отдельности. Такая эффективность даёт возможность эффективно использовать крупные многовекторные модели, увеличивая скорость извлечения без ущерба для точности, полученной благодаря более полному семантическому представлению.
Вместо использования одновекторных представлений для точек данных, многовекторные модели присваивают каждому точке данных несколько векторов. Эти продвинутые модели используют более сложные функции сходства, способные уловить широкий спектр связей между точками данных. ️
Применение стратегии с несколькими измерениями повышает точность и даёт лучшие результаты, однако сталкивается со значительными вычислительными препятствиями. В частности, большее количество embeddings (вложений) и сложность оценки многовекторного сходства приводят к заметному увеличению затрат на извлечение документов.
В нашей статье ‘MUVERA: Multi-Vector Retrieval via Fixed Dimensional Encoding’, мы представляем новый инновационный метод поиска с использованием нескольких векторов, предназначенный для устранения расхождения в производительности между одновекторными и многовекторными поисками.
Благодаря этой инновационной стратегии можно использовать тщательно настроенные алгоритмы MIPS (Maximum Inner Product Search) для первоначального отбора кандидатов. Затем эти кандидаты уточняются с помощью точного многовекторного сходства, обеспечивая эффективный и точный поиск по нескольким векторам.
Многовекторные модели предлагают более точные ответы по сравнению с моделями двойного кодирования, но эта точность требует значительных вычислительных ресурсов. Тем не менее, MUVERA справляется со сложностями многовекторных моделей, позволяя достичь повышенной точности в методах многовекторирования без необходимости использования излишнего количества вычислительной мощности.
Что это значит для SEO?
Современные рейтинги поисковых систем все меньше полагаются на точное соответствие ключевых слов, предпочитая оценку схожести и намерения по контексту. Вместо того чтобы концентрироваться только на сопоставлении конкретных фраз, специалисты SEO и создатели контента могут извлечь выгоду из сосредоточения внимания на согласовании с более широким смыслом и целью запроса пользователя. Например, если кто-то ищет «мужские вельветовые куртки среднего размера», система, использующая MUVERA-подобный поиск, скорее всего, будет отдавать приоритет страницам, которые действительно продают эти товары, вместо страниц, содержащих только термины «вельветовые куртки» и фразу «средний размер», но не предлагающие нужный товар.
МУВЕРА: Ускорение многовекторного поиска до уровня одновекторного
Смотрите также
- Акции KLVZ. Кристалл: прогноз акций.
- Акции AFLT. Аэрофлот: прогноз акций.
- Акции MTLR. Мечел: прогноз акций.
- Google запрещает добавлять страны или штаты к предприятиям в зоне обслуживания.
- Google отказывается от расширения Web Vitals и переносит все на DevTools
- Акции GECO. Генетико: прогноз акций.
- Дополнительные ссылки Google со значками и метками
- Акции KZOS. Казаньоргсинтез: прогноз акций.
- Google: обновление ядра не за горами, поскольку издатели обеспокоены ростом
- Волатильность рейтинга в Google Поиске снова продолжает сильно меняться 18 сентября
2025-06-28 02:09