Google’s New BlockRank Democratizes Advanced Semantic Search

Недавнее исследование от Google DeepMind представляет BlockRank, новый алгоритм ИИ для ранжирования результатов поиска. Он настолько эффективен, что может сделать сложные поисковые технологии доступными каждому, а не только крупным организациям. Исследователи считают, что это ‘выровняет игровое поле’ в вопросе поиска информации.

In-Context Ranking (ICR)

Эта исследовательская работа описывает новое достижение: использование способности большой языковой модели понимать контекст для более эффективного ранжирования веб-страниц. Этот метод называется In-Context Ranking (ICR).

  1. Инструкции для задачи (например, «ранжируйте эти веб-страницы»)
  2. Кандидатские документы (страницы для ранжирования)
  3. И поисковый запрос.

В 2024 году исследователи из Google DeepMind и Google Research представили новую технику под названием ICR. Их первоначальные исследования показали, что ICR может работать так же хорошо, как традиционные поисковые системы, разработанные для информационного поиска.

Хотя это и улучшило ситуацию, это также означает, что требуется все больше и больше вычислительной мощности компьютера по мере роста количества ранжируемых веб-страниц.

Большим языковым моделям необходимо тщательно анализировать каждое слово в наборе документов, чтобы найти наиболее релевантные для поиска. Однако этот процесс становится значительно медленнее по мере увеличения количества документов, поскольку объем работы, который требуется выполнить, очень быстро растет.

Это новое исследование посвящено решению задачи повышения эффективности In-context Ranking (ICR). Исследование, под названием ‘Scalable In-context Ranking with Generative Models’, описывает метод под названием BlockRank, который позволяет эффективно масштабировать ICR.

Как разрабатывался BlockRank

Исследователи изучили, как модель фокусируется во время In-Context Retrieval и обнаружили два устойчивых поведения.

  • Разреженность междокументных блоков:
    Исследователи обнаружили, что когда модель читает группу документов, она склонна сосредотачиваться в основном на каждом документе по отдельности, вместо того чтобы сравнивать их все друг с другом. Они называют это «блочной разреженностью», что означает, что прямое сравнение между разными документами минимально. Основываясь на этом понимании, они изменили способ чтения входных данных моделью, чтобы она рассматривала каждый документ по отдельности, но при этом сравнивала их все с заданным вопросом. Это сохраняет важную часть — сопоставление документов с запросом — и пропускает ненужные сравнения между документами. Результатом является система, которая работает намного быстрее без потери точности.
  • Релевантность блока запроса-документа:
    Когда LLM читает запрос, он не рассматривает каждое слово в этом вопросе как равнозначно важное. Некоторые части вопроса, такие как конкретные ключевые слова или пунктуация, сигнализирующая о намерении, помогают модели решить, какой документ заслуживает больше внимания. Исследователи обнаружили, что внутренние паттерны внимания модели, в частности, то, как определенные слова в запросе фокусируются на конкретных документах, часто совпадают с тем, какие документы являются релевантными. Это поведение, которое они назвали «релевантность блока запроса-документа», стало тем, что исследователи могли обучить модель использовать более эффективно.

Исследовательская группа обнаружила два ключевых способа, которыми модель фокусировала своё внимание. Во-первых, они обнаружили, что модель неэффективно сравнивала документы, когда это не требовалось – закономерность, которую они назвали ‘inter-document block sparsity’. Во-вторых, они заметили, что определённые части поискового запроса часто указывали на наиболее релевантный документ – закономерность, названная ‘query-document block relevance’. Основываясь на этих выводах, они разработали новый, более эффективный подход.

Используя эти результаты, команда улучшила способность модели сосредотачиваться на важной информации и то, как она обучается. Это привело к созданию BlockRank, более быстрого и эффективного способа поиска релевантной информации за счёт устранения нерелевантных сравнений и помощи модели в расстановке приоритетов того, что имеет значение.

Оценка точности Benchmarking BlockRank

Исследователи протестировали BlockRank, чтобы оценить, насколько хорошо он ранжирует документы на трёх основных эталонных показателях:

  • BEIR
    Набор из множества различных поисковых и задач по ответам на вопросы, используемый для тестирования того, насколько хорошо система может находить и ранжировать релевантную информацию по широкому кругу тем.
  • MS MARCO
    Большой набор данных реальных поисковых запросов Bing и отрывков текста, используемый для измерения того, насколько точно система может ранжировать отрывки, которые наилучшим образом отвечают на вопрос пользователя.
  • Natural Questions (NQ)
    Эталонная задача, созданная на основе реальных поисковых запросов Google, предназначенная для проверки того, может ли система идентифицировать и ранжировать отрывки из Wikipedia, которые напрямую отвечают на эти вопросы.

Исследователи протестировали BlockRank, используя мощную языковую модель под названием Mistral, которая имеет 7 миллиардов параметров. Они сравнили её производительность с несколькими другими ведущими моделями ранжирования – FIRST, RankZephyr, RankVicuna и версией Mistral, которая была полностью дообучена для этой задачи.

BlockRank достиг результатов, равных или превосходящих другие системы во всех трех тестах. Он показал схожие результаты на MS MARCO и Natural Questions, и продемонстрировал небольшое улучшение на BEIR.

Тестирование на наборах данных MSMarco и NQ показало, что BlockRank (использующий модель Mistral-7B) работает так же хорошо, или даже лучше, чем традиционные методы тонкой настройки. Важно отметить, что он значительно быстрее и требует меньше вычислительной мощности как во время обучения, так и при использовании. Это обеспечивает практичный и эффективный способ создания систем поиска информации с использованием больших языковых моделей.

Они также отметили, что их тестирование было ограничено Mistral 7B и не включало другие большие языковые модели, что означает, что выводы применимы только к этой конкретной модели.

Использует ли Google BlockRank?

Исследование не упоминает никакого реального применения этой технологии, поэтому любые утверждения о её использовании – лишь спекуляции. Хотя понятно, почему возникает вопрос о том, как BlockRank связан с функциями, такими как AI Mode или AI Overviews, принцип работы этих функций – в частности, FastSearch и RankEmbed – значительно отличается от BlockRank. Следовательно, вероятно, он с ними не связан.

Почему BlockRank — это прорыв

Это исследование демонстрирует новую технологию, которая делает сложные системы ранжирования доступными для частных лиц и организаций, которые ранее не могли себе их позволить. Это значительный прогресс в расширении доступности высококачественных технологий ранжирования.

BlockRank улучшает способ, которым Большие Языковые Модели (LLMs) находят информацию, делая продвинутые поиски более быстрыми и эффективными. Это делает мощные инструменты поиска информации доступными для большего числа людей, потенциально ускоряя исследования, улучшая образование благодаря более быстрому доступу к релевантным материалам и помогая отдельным лицам и организациям принимать более обоснованные решения.

Поскольку эта технология более эффективна, она потребляет меньше энергии при поиске информации в приложениях больших языковых моделей. Это помогает сделать разработку и использование ИИ более экологичными.

Как SEO-эксперт, я видел много споров о том, использует ли Google это на самом деле. Честно говоря, я не нашёл никаких конкретных доказательств того, что они это делают, но было бы действительно ценно получить подтверждение непосредственно от кого-то из Google. Это то, о чём я хотел бы спросить их напрямую.

Google, похоже, готовится к выпуску BlockRank на GitHub, хотя код пока там недоступен.

Прочитайте о BlockRank здесь:
Масштабируемое контекстное ранжирование с использованием генеративных моделей

Смотрите также

2025-10-23 13:10

Блестящее возрождение WazirX: Нулевые комиссии, отсутствие страха, отсутствие доверия? 🚀

Вот, падшая звезда крипты WazirX решила возродиться из цифрового пепла – после увлекательного саббатикала, длившегося более года, вызванного дерзким ограблением на 234 миллиона долларов. Да, вы не ослышались – воры играли в «Марко Поло» с вашими активами, а биржа осталась ни с чем, как промокшее печенье.

Теперь наш измученный, но стойкий вестник блокчейна, Nischal Shetty — чей оптимизм, вероятно, может затмить солнце — объявил, что торговля возобновится в эту пятницу. И вот! Чтобы соблазнить верных, всего на месяц они не будут взимать комиссию — бесплатную, как бесплатное пиво или бесплатная доставка, если вы чувствуете себя щедрым — надеясь заманить трейдеров обратно в свой лабиринт ликвидности и безумия.

Мы приложим все усилия, чтобы расширить наши возможности ещё больше! Мы хотим быть с нашим племенем и поддерживать вас любым возможным способом, — заявил Шетти на X, звуча как герой и немного отчаянно — представьте себе Робин Гуда в цифровом исполнении, вооружённого хэштегами и надеждой. Они готовы сделать всё необходимое — возможно, даже надеть плащи — лишь бы вы вернулись в наше лоно.

Это великое пробуждение последовало за периодом молчания и уединения, таким, которым могли бы гордиться монахи, после того, как платформа оказалась в ледяных объятиях взлома в июле 2024 года. Взлом был настолько дерзким, что швейцарский сыр выглядит как Форт-Нокс.

Crypto comeback

Медленное возрождение токена WazirX: Потому что терпение – это добродетель (и маркетинговая стратегия)

Гениальные умы WazirX разработали коварный план: позволить трейдерам сначала окунуть пальцы ног – начиная с пар USDt (USDT) – прежде чем постепенно возвращать другие токены. Потому что зачем не проверить воду, прежде чем бросаться в хаос с головой? С восхода до заката в пятницу система будет протестирована, подвергнута ликвидности и, надеюсь, не сломается – потому что ничто так не говорит о ‘доверии’, как поэтапный подход и щепотка старой доброй неопределенности.

Тем временем, биржа радует своих пользователей безудержной бесплатной щедростью — неотразимой морковкой, надеясь разжечь былое пламя. И если реакция рынка будет достаточно бурной, они могут даже оставить бесплатные предложения навсегда. Навсегда, друзья мои — потому что что может быть более соблазнительным, чем бесплатная криптовалюта?

Конечно, возрождение не обходится без своих стильных причуд: токены были исключены из листинга, заменены или объединены — своего рода способ биржи навести порядок в своем цифровом шкафу, убедившись, что она отображает только самые гламурные, блестящие токены, соответствующие их высоким стандартам честности, стабильности и всем этим модным словечкам, заставляющим регуляторов облизываться.

Почти легендарная Одиссея WazirX: Хакеры, залы суда и воскрешения.

Сага читается как финансовая мыльная опера с высокими ставками. Атака в августе 2024 года истощила активы быстрее, чем скучающий фокусник достает кроликов из шляпы — исчезло 234 миллиона долларов, оставив лишь цифровые следы и много поколебленной уверенности. Сюжет усложнился благодаря работе криминалистической экспертизы, переговорам с кредиторами и сингапурским судом, танцующим под мелодию процедур реструктуризации. Это были месяцы напряжения, напряжения и еще больше напряжения — пока, наконец, 13 октября не поднялся занавес, открывая новое начало.

Итак, пока пыль – метафорическая, конечно – оседает, WazirX выходит из этого, потрепанный, но не сломленный, готовый снова соблазнить смелых (или глупых) низкими комиссиями и высокими надеждами. Крипто-цирк вернулся, дамы и господа – хватайте попкорн и свои цифровые кошельки.

Смотрите также

2025-10-23 13:58

XRP: На Луну… или просто обратно на Землю? 🚀

Ой-вей! Итак, эта штука с XRP… она держится за $2.38, как спасательный плот в урагане! ‘Быки‘ — эти оптимистичные простаки — якобы все еще у руля. Они говорят, что ‘покупательское давление’ нарастает. Покупательское давление? От КТО?! Моя тетя Милдред покупает больше соленых огурцов, чем XRP, и она не влияет на рынок. 🤨

Краткий проблеск гениальности (а затем… ничего)

Какой-то парень по имени Umair Crypto — звучит как злодей из фильма о Бонде, не так ли? — заметил, что на короткое время он немного оживился после отскока от чего-то под названием ’50-дневная простая скользящая средняя’. (Не спрашивайте меня, я просто пишу шутки!) Он поднялся до $2.52, что, давайте будем честны, не совсем фейерверк с Уолл-стрит. Он попытался достичь ‘100-дневной SMA’, видимо. Провался. Жалко. Теперь все шепчутся о ‘скрытой слабости’. Скрытая слабость?! Это урок грамматики или финансовый анализ?

Очевидно, существует нечто под названием ‘Индекс относительной силы’ — ещё один заумный термин для «угадывания» — и это важно. Если это провалится, это значит ЕЩЁ больше потерь! Ну, не говорите! Так что, по сути, XRP нужно держаться за $2.38 как за жизнь и молиться крипто-богам. Иначе… конец! 💥

Взорвётся ли он или просто… останется на месте?

Затем есть MakroVision Research. Звучит важно. Они говорят, что XRP остановил свое падение возле ‘Золотого кармана’ (Теперь это звучит многообещающе… может быть, он полон настоящего золота!). Он немного восстановился. Они смотрят на диапазон между $2.48 и $2.65. Если он не сможет преодолеть это… он просто будет сидеть там и размышлять о своем существовании. А если он упадет ниже $1.96? Ой вей! Беда!

Но! Если ему удастся прорваться ВЫШЕ $2.65, ТОГДА мы говорим! $3.06! Богатства, превосходящие ваши самые смелые мечты! (Или, знаете, немного более приятный автомобиль). Но только если он преодолеет этот $2.65. Кажется, всё зависит от этого $2.65. Это очень важный $2.65. 🧐

В заключение, эти аналитики говорят, что люди всё ещё покупают. Отлично для них. Но главный вопрос: смогут ли быки призвать достаточно… чего бы там ни было, что они призывают… чтобы преодолеть упрямые $2.65? Я вам говорю, всё это сложнее, чем рецепт брискета моей тёщи. 🤯

Смотрите также

2025-10-23 04:01

ИИ-помощники демонстрируют значительные проблемы в 45% новостных ответов.

Недавнее исследование, проведенное Европейским вещательным союзом (EBU) и BBC, показало, что лучшие AI-помощники давали неверные факты или некорректно обрабатывали новостную информацию почти в половине своих ответов.

Как человек, который годами создавал и отслеживал веб-сайты, я внимательно следил за развитием этих AI-чатботов. Недавно я изучил, насколько хорошо бесплатные версии ChatGPT, Copilot, Gemini и Perplexity справляются с текущими событиями. Я протестировал их, задавая вопросы, связанные с новостями, на 14 разных языках, и работал с общественными вещательными организациями из 18 стран – в общей сложности 22 организации – чтобы убедиться, что вопросы были уместными и точными.

EBU заявила в своем объявлении о результатах:

«Систематическое искажение новостей искусственным интеллектом является последовательным во всех языках и регионах.»

Что показало исследование

Мы проанализировали 2 709 основных ответа, а также изучили примеры из конкретных вопросов, чтобы получить более глубокое понимание.

Почти половина всех ответов (45%) содержала серьезную проблему, в то время как подавляющее большинство (81%) имело ту или иную проблему. Наиболее частой проблемой был поиск источников, что существенно повлияло примерно на треть ответов (31%).

Как каждый помощник выступил

Результаты различались в зависимости от используемой платформы. У Google Gemini было больше всего проблем, при этом 76% его ответов содержали значительные ошибки. Эти ошибки в основном были связаны с проблемами с источниками, что затронуло 72% ответов Gemini.

Другие ассистенты имели показатели от или ниже 37% по основным проблемам в целом и ниже 25% по проблемам с поиском источников.

Примеры Ошибок

Проблемы с точностью включали устаревшую или неверную информацию.

Недавно некоторые AI-помощники допустили ошибки: они утверждали, что Папа Франциск всё ещё жив, даже после сообщений о его смерти в апреле, и Gemini предоставил неточную информацию о правилах, касающихся одноразовых вейпов.

Методологические заметки

С 24 мая по 10 июня участники ответили на стандартный набор из 30 вопросов, а также могли ответить на вопросы, специфичные для их местоположения.

Исследование было сосредоточено на бесплатных/потребительских версиях каждого помощника, чтобы отразить типичное использование.

Многие организации изначально имели меры безопасности, которые предотвращали доступ ИИ-помощникам к их информации. Эти ограничения были временно сняты, чтобы разрешить создание контента, а затем восстановлены после этого.

Почему это важно

Это может повлиять на то, как ваши статьи отображаются в ответах, генерируемых ИИ. Поскольку ИИ иногда допускает ошибки, существует более высокая вероятность того, что он может неправильно процитировать или неточно представить информацию из вашего контента при создании резюме.

Заглядывая в будущее

EBU и BBC опубликовали набор инструментов под названием ‘News Integrity in AI Assistants‘ вместе со своим отчетом, предоставляя полезные советы технологическим компаниям, новостным организациям и тем, кто проводит исследования в этой области.

По данным Reuters, Европейский вещательный союз обеспокоен тем, что всё больше людей получают новости от цифровых помощников, что может подорвать общественное доверие к средствам массовой информации.

Как выразился директор EBU по медиа Жан Филипп Де Тендер:

Когда люди теряют веру в то, что заслуживает доверия, они часто перестают доверять чему-либо, что может оттолкнуть их от участия в демократии.

Смотрите также

2025-10-22 20:09

Кракен хватает $648M! 🦑 IPO, держитесь, матросы! 🏴‍☠️

📰 Финансовые Забавы 📰

Привет, сэр! Вот что к чему: 🕵️‍♂️

  • Казна Kraken разрослась, как кошелёк волшебника на распродаже шляп, собрав 648 миллионов долларов в третьем квартале — скачок на 114% по сравнению с прошлым годом. 🤑
  • Скорректированная прибыль? Аккуратные $178,6 миллиона, увеличение на 124% по сравнению с предыдущим кварталом. Общий объём? $561,9 миллиарда, почему бы и нет? 📈
  • С оценкой в 15 миллиардов долларов и финансированием в 500 миллионов долларов, планы по IPO Kraken столь же неизбежны, как тролль под мостом. 🌉

Ахой, крипто-негодяи! Kraken, щупальцевый титан цифровых морей, копил дублоны, как будто завтра не наступит. 🦑💰 В третьем квартале крипто-биржа (юридически известная как Payward Inc., но кому это интересно? 🤷♂️) выручила 648 миллионов долларов — рост на 114% по сравнению с прошлым годом. Это больше, чем счет гнома за пиво в Mended Drum! 🍻

Скорректированная прибыль? Кругленькая сумма в 178,6 миллиона долларов, увеличилась на 124% по сравнению с предыдущим кварталом. Общий объём? 561,9 миллиарда долларов, потому что, видимо, мир сошёл с ума по криптовалюте. 🌍💸 Kraken определяет доход как валовый доход за вычетом торговых издержек, что примерно так же понятно, как объяснение квантовой физики троллем. 🤓

Этот неожиданный доход дает Kraken возможность продвинуться в планах по IPO в США. С оценкой в 15 миллиардов долларов и раундом финансирования в 500 миллионов долларов, они теперь скорее левиафан, чем кракен. 🐋 Если все пройдет хорошо, они присоединятся к таким компаниям, как Bullish (родительская компания CoinDesk) и Gemini на публичных рынках. 🎢

В то же время, конкурент Kraken, Coinbase, должен отчитаться о доходах 30 октября. Аналитики ожидают рост доходов на 50%, но давайте будем честны — Kraken уже украл шоу. 🎭

Итак, станет ли IPO Kraken гладким плаванием или бурным путешествием? Только время (и много бумажной волокиты) покажет. 🏴‍☠️

Смотрите также

2025-10-22 20:49