Google Announces A New Era For Voice Search

Google обновила свою технологию голосового поиска. Вместо того, чтобы сначала преобразовывать произнесенные слова в текст, новая система использует искусственный интеллект для непосредственного понимания речи и предоставления результатов поиска. Это делает голосовые поиски более быстрыми и точными.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Наша предыдущая система, Cascade ASR, работала путем преобразования устных запросов в текст, а затем использования этого текста для поиска результатов. Однако этот метод был не очень надежным, поскольку преобразование речи в текст иногда может упускать важные детали, что приводит к ошибкам.

Новая система Speech-to-Retrieval (S2R) использует искусственный интеллект для поиска релевантных документов на основе устных вопросов. Вместо того, чтобы вводить или транскрибировать запрос, вы можете просто произнести его, и система – обученная на огромной коллекции аудио и документов – найдет наилучшие соответствия напрямую.

Модель Dual-Encoder: Две нейронные сети

Система использует две нейронные сети:

  1. Одна из нейронных сетей, называемая аудиокодировщиком, преобразует произнесенные запросы в векторное представление их значения.
  2. Вторая сеть, энкодер документов, представляет письменную информацию в том же формате векторного представления.

Эти две системы разработаны для понимания как устных вопросов, так и письменных документов, переводя их в общий формат, где похожие аудио- и текстовые материалы группируются вместе на основе их значения.

Аудиокодек

Как цифровой маркетолог, я очень рад развитию технологии Speech-to-Retrieval. По сути, она берет вопрос человека, произнесенный вслух – его голосовой запрос – и преобразует его в числовое представление, своего рода цифровой отпечаток, который улавливает *смысл* за тем, что он спрашивает. Это позволяет системам понимать намерение, а не только слова, что очень важно для таких вещей, как голосовой поиск и виртуальные помощники.

Объявление иллюстрирует эту концепцию, используя знаменитую картину Эдварда Мунка, «Крик». Когда кто-то говорит «картина «Крик»», эта фраза представляется как точка в цифровом пространстве, расположенная близко ко всей информации, связанной с произведением искусства, – например, к месту, где она выставлена, или деталям ее истории.

Document Encoder

Кодировщик документов работает с текстовыми файлами, такими как веб-страницы, преобразуя их в векторы, которые отражают их смысл.

Пока модель обучается, её две части работают вместе, чтобы гарантировать, что аудио- и текстовые фрагменты, которые соответствуют друг другу, представлены похожими векторами, а несвязанные фрагменты остаются далеко друг от друга. Это создает значимую организацию данных в системе модели.

Rich Vector Representation

Google объяснила, что их энкодеры преобразуют как аудио, так и текст в детальные цифровые представления. Эти представления, называемые embeddings, улавливают смысл и контекст исходного контента. Они считаются «богатыми», потому что включают в себя не только сами слова, но и скрытое намерение и ситуацию.

Как SEO-эксперт, я очень рад S2R, поскольку он выходит за рамки простого сопоставления ключевых слов. Вместо того, чтобы просто искать эти точные слова, система фактически *понимает* смысл запроса пользователя. Например, если кто-то ищет «покажи мне кричащую картину Мунка», S2R все равно может связать это с документами о *The Scream*, потому что он понимает концепцию, а не только ключевые слова. Речь идет о семантическом понимании, и это меняет правила игры для релевантности поиска.

Эта модель работает, обучаясь на огромной коллекции аудиозаписей и соответствующих им документов. Она одновременно тонко настраивает свои внутренние параметры для обработки как аудио, так и текста, что позволяет ей лучше понимать связь между ними.

Как SEO-эксперт, специализирующийся на аудиопоиске, могу объяснить это так: мы обучаем нашу систему, чтобы ‘цифровой отпечаток’ аудиозапроса был очень похож на отпечатки документов, которые он должен найти. Это означает, что модель узнает, что человек *имеет в виду* под своим аудиопоиском, непосредственно из самого звука. Это огромное улучшение, потому что пропускается ненадежный шаг первоначального преобразования аудио в текст – там, где традиционные системы часто спотыкаются. Сосредоточившись непосредственно на намерении, мы получаем гораздо более точные и надежные результаты поиска.

Рейтинговый слой

Голосовой поиск, как и традиционный текстовый поиск, использует систему ранжирования. Когда вы задаете вопрос голосом, система сначала преобразует аудио в цифровое представление, которое передает смысл вашего запроса. Эта цифровая форма затем сопоставляется с индексом Google для поиска наиболее релевантных страниц.

Когда вы ищете что-то вроде «the scream painting», система преобразует эту фразу в числовое представление её значения. Затем она осуществляет поиск по своим сохраненным документам, находя те, которые имеют схожие значения – например, информацию о знаменитой картине Эдварда Мунка, The Scream.

После обнаружения потенциальных совпадений система переходит к этапу ранжирования. Здесь она объединяет степень сходства страниц со многими другими факторами – вещами, которые указывают на релевантность и качество – чтобы определить наилучший порядок для результатов поиска.

Benchmarking

Google сравнил свою новую систему распознавания речи, S2R, с существующей системой под названием Cascade ASR, а также с безупречной версией Cascade ASR. S2R показал результаты лучше, чем стандартный Cascade ASR, и приблизился к соответствию идеальной версии. Google считает эти результаты обнадеживающими и считает, что дальнейшие улучшения возможны.

Голосовой поиск включен

Несмотря на то, что некоторые области все еще нуждаются в доработке, Google запустил свою новую поисковую систему, теперь доступную на нескольких языках, и называет ее значительным шагом вперед. Вероятно, она также используется для англоязычных поисков.

Голосовой поиск теперь стал быстрее и точнее благодаря нашей новой технологии. Он напрямую понимает, что вы говорите, чтобы найти ответы, без необходимости чего-либо печатать сначала.

Speech-to-Retrieval (S2R): Новый подход к голосовому поиску

Смотрите также

2025-10-21 13:40