Извлечение информации. Часть 3: Векторизация и Трансформеры (Не фильм)

Основная цель систем информационного поиска — предоставить пользователям то, что им нужно, и сделать так, чтобы они были довольны результатами. Важно помнить, что каждая часть этих систем — то, как они принимают информацию и что возвращают — создается с учетом хорошего пользовательского опыта.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Окей, так что я глубоко погрузился в то, как эти AI-системы на самом деле *находят* информацию, и это на удивление сложно. Это третья часть серии, которую я назвал ‘Information Retrieval for Beginners’ – по сути, я разбираю все, начиная с данных, на которых эти системы учатся, и заканчивая тем, как они выясняют, что вы *действительно* имеете в виду, даже когда ваши поисковые запросы – хаос. Речь идет о том, чтобы понять, как они работают, не застревая в техническом жаргоне.

TL;DR

В векторной модели пространства расстояние между векторами представляет собой релевантность (сходство) между документами или элементами.
Векторизация позволила поисковым системам выполнять поиск по концепциям, а не по словам. Это выравнивание концепций, а не букв или слов.
Более длинные документы содержат больше похожих терминов. Чтобы бороться с этим, длина документа нормализуется, и приоритет отдается релевантности.
Google делает это уже более десятилетия. Возможно, вы тоже делаете это уже более десятилетия.

https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text

Вещи, которые вам следует знать, прежде чем мы начнем

Некоторые концепции и системы, о которых вам следует знать, прежде чем мы начнем.

Вам не удастся отслеживать всё, и это нормально. Просто сосредоточьтесь на получении удовольствия, и со временем и повторением вы можете постепенно вспомнить важные части.

Что такое векторная модель пространства?

Векторная модель пространства — это способ представления текстовых документов в виде векторов, которые по сути являются списками чисел. Это позволяет компьютерам измерять, насколько похожи или отличаются документы друг от друга, вычисляя расстояние между этими векторами.

Расстояние вычисляет сходство между терминами или элементами.

Векторные модели часто используются в задачах, таких как поиск информации, организация документов и определение ключевых терминов. Они работают, создавая структурированное, многомерное числовое представление данных, позволяя нам определять, насколько релевантны элементы друг другу, используя такие методы, как косинусное сходство – которое измеряет, насколько они похожи.

Каждому понятию или идее в тексте присваивается числовое значение. Если понятие присутствует в тексте, его значение будет больше нуля. Важно отметить, что эти понятия не ограничиваются отдельными словами; они могут быть любой длины, от коротких фраз до полных предложений или даже всего документа.

Как это работает?

Как вебмастер, я узнал, что как только я определяю, что пользователи могут искать – например, ключевые слова, фразы и полные предложения – и присваиваю этим запросам значение, мой контент может быть ‘оценен’ поисковой системой. По сути, система определяет, где моя страница лучше всего ‘вписывается’ в свою огромную базу данных – её ‘векторное пространство’ – исходя из того, насколько хорошо она соответствует этим запросам. Модель решает, какое лучшее место для неё.

Документы могут быть ранжированы и сопоставлены друг с другом на основе того, насколько хорошо они соответствуют вашему поисковому запросу. Этот процесс вычисляет ‘оценку схожести’ для многих документов одновременно, измеряя, насколько тесно их *значение* связано с вашим запросом. Эти оценки затем определяют, где документы появляются в результатах поиска.

Не только их лексическое сходство.

Я знаю, это звучит немного сложно, но подумайте об этом так:

Текст может быть легко изменен и заполнен повторяющимися ключевыми словами, из-за чего он кажется базовым. Однако, если система способна понимать истинный смысл документа, это значительный шаг к созданию высококачественного контента.

Почему это работает так хорошо?

Машины не просто любят структуру. Они её обожают.

Использование согласованных форматов ввода и вывода приводит к более надежным и точным результатам. Набор данных, который является одновременно подробным и лаконичным, повысит точность таких задач, как классификация информации, извлечение ключевых деталей и прогнозирование.

Текст часто неструктурирован, что затрудняет его обработку компьютерами. Он дезорганизован и сложен, что на самом деле дает ему преимущество по сравнению со старыми методами, такими как Boolean Retrieval Model.

Булевы модели поиска документов находят документы, проверяя, соответствуют ли они запросу, используя простую логику ‘да’ или ‘нет’. Они рассматривают каждый документ как набор слов и используют операторы, такие как AND, OR и NOT, чтобы найти результаты, соответствующие определенным критериям.

Его простота имеет свои применения, но не может интерпретировать смысл.

Лучше рассматривать поиск как просто нахождение данных, а не как истинное понимание того, что вы находите. Мы часто слишком полагаемся на простое подсчёт частоты появления слов, особенно когда ищем что-то сложное. Это быстро, но это уже не самый эффективный подход.

Векторная модель пространства понимает, что вы *имеете в виду* своим поиском, а не только конкретные слова, которые вы используете – и именно это делает её такой эффективной.

Именно эта структура создает гораздо более точный отклик.

Трансформерская революция (Не Майкл Бэй)

Как цифровой маркетолог, я заметил огромный сдвиг в том, как мы работаем с языком в наших кампаниях. Забудьте старые способы использования статических векторных представлений слов, таких как Word2Vec. Архитектура transformer – настоящий прорыв – перевела нас к контекстным векторным представлениям, что означает, что значение слова меняется в зависимости от того, как оно используется. Это меняет правила игры, в отличие от всего, что мы видели раньше.

Традиционные языковые модели присваивают каждому слову одно, фиксированное значение. Однако, трансформеры более продвинуты – они создают значения для слов, которые адаптируются в зависимости от того, как они используются в предложении.

Google использует эту технику уже некоторое время. Это не недавняя разработка, и она не основана на местоположении. Это просто то, как работает современный поиск – за счёт фактического понимания содержания веб-страницы.

Конечно, нет. Но как личность – как кто-то, кто думает и чувствует – ты понимаешь, что я имею в виду. Трансформеры, однако, лишь делают вид, что понимают.

Трансформеры взвешивают входные данные по значимости данных.
Модель уделяет больше внимания словам, которые требуют или предоставляют дополнительный контекст.

Позвольте мне привести пример.

Клыки летучей мыши сверкнули, когда она вылетела из пещеры.

Летучая мышь — это неоднозначный термин. Неоднозначность — это плохо в эпоху ИИ.

Как человек, который годами работал над тем, как поисковые системы понимают язык, я своими глазами видел, как легко что-то можно неправильно истолковать. В данном случае, то, как трансформерная модель связывает слово ‘bat’ со словами, такими как ‘teeth’, ‘flew’ и ‘cave’, сильно указывает на то, что она думает об животном – летающем, ночном существе – а не об оборудовании, используемом в крикете или бейсболе. Гораздо вероятнее, что она свяжет ‘bat’ с кровососущим грызуном, чем со спортсменом, забивающим барьер.

BERT Strikes Back

BERT. Двунаправленные представления кодировщика из трансформеров. Пожимает плечами.

На протяжении многих лет Google преуспел в понимании смысла слов и документов, учитывая контекст, в котором они появляются. Эта способность понимать взаимосвязи и меняющиеся намерения пользователей является ключевым фактором успеха Google в поисковых системах и картографии.

Более новые версии BERT, такие как DeBERTa, представляют слова, используя два отдельных фрагмента информации: что означает слово *и* где оно появляется в тексте. Эта техника, называемая Disentangled Attention, помогает модели более точно понимать контекст.

Да, мне тоже это кажется странным.

BERT понимает слова в контексте, рассматривая всё предложение, или даже весь документ, сразу. В отличие от некоторых других систем, он не учитывает только слова, непосредственно перед или после данного слова, чтобы понять его значение.

Синонимы Малыш

Как SEO-эксперт, я помню, когда RankBrain был запущен в 2015 году – это было действительно большое событие. Это была первая система Google, которая использовала глубокое обучение, насколько я знаю, и её основная задача заключалась в том, чтобы помочь Google лучше понимать *смысл* за поисковыми запросами, а не только сами ключевые слова. По сути, это помогло Google связать слова с идеями, которые люди на самом деле искали.

Это действительно был пик ранних дней поисковых систем. Было удивительно легко создать веб-сайт на любую тему, добиться его появления в результатах поиска и, возможно, заработать хороший доход – и все это без необходимости обладать большим опытом или тщательно планировать.

Безмятежные дни.

Оглядываясь назад, становится очевидно, что это были трудные времена для людей. Представьте себе, что важные советы о таких вещах, как похороны или вывоз мусора от предприятий, вы получаете от человека, который ведет свою деятельность из своей спальни – именно таким это и было.

По мере поступления новых и развивающихся запросов, RankBrain и последующее нейронное сопоставление оказались жизненно важными.

Затем появилась MUM, передовая технология Google, которая может понимать текст, изображения и видео на многих языках одновременно.

Борьба с проблемами длины документов

Было очевидно еще десятилетие назад – и, возможно, даже раньше – что более длинный контент показывает лучшие результаты. Я вспоминаю время, когда я писал очень длинные статьи, иногда более 10 000 слов, даже на тривиальные темы, такие как конструкторы веб-сайтов, и публиковал их непосредственно на главной странице веб-сайта.

Даже тогда это была ужасная идея…

Когда поисковые системы представляют как вопросы, так и документы в виде чисел, легко предположить, что более длинные документы естественным образом будут появляться выше в результатах поиска.

Помнишь 10-15 лет назад, когда все были одержимы тем, что каждая статья должна была быть объемом в 2000 слов.

Это оптимальная длина для SEO.

Если вы увидите ещё одну 2000-словную статью под названием «Во сколько X?», у меня есть разрешение застрелить меня.

Поскольку более длинные документы содержат больше слов, они, естественно, будут иметь более высокие значения частоты терминов (TF). Они также, как правило, используют более широкий спектр слов. И то, и другое может привести к тому, что более длинные документы получат более высокие баллы.

Поэтому, на некоторое время, они были зенитом нашего отвратительного производства контента.

Более длинные документы можно условно разделить на две категории:

Многословные документы, которые по сути повторяют одно и то же содержание (привет, ключевые слова, мой старый друг).
Документы, охватывающие несколько тем, в которых поисковые запросы, вероятно, соответствуют небольшим фрагментам документа, но не всему ему.

Для решения этой проблемы используется метод, называемый Нормализация Длины Документа с Поворотом, для балансировки оценок. Он помогает предотвратить несправедливое влияние более длинных документов на результаты.

Нам следует использовать косинусное расстояние для измерения схожести, потому что оно фокусируется на том, насколько релевантны документы, а не просто на их длине. Такой подход подчеркивает смысл, а не просто количество раз, когда появляется слово.

Как цифровой маркетолог, я считаю косинусную схожесть невероятно полезной. Больше всего я ценю то, что ей не важна длина текста. Краткий ответ и подробный могут считаться по сути одной и той же темой, если их ‘направление’ схоже, когда вы смотрите на них как на векторы. Речь идет о основном смысле, а не просто об объеме контента.

Ну и что?

Отличный вопрос.

Вам не обязательно быть экспертом по базам данных, чтобы это понять. Достаточно знать, что базы данных могут быстро находить похожие элементы, не просматривая всё подряд, и они делают это, используя специальные внутренние инструменты.

Это приносит пользу таким компаниям, как Google, помогая им найти оптимальное соотношение между производительностью, стоимостью и простотой управления.

Новое исследование Кевина Индига показывает, что ChatGPT в значительной степени предпочитает ссылаться на информацию из начала текстов. Более 44% всех его цитат приходится всего лишь на первые 30% контента, при этом вероятность цитирования информации резко снижается после этого – закономерность, которую Индиг называет эффектом «лыжной горки».

Еще одна причина не создавать бездумно огромные документы, потому что кто-то вам сказал это сделать.

В Google, по крайней мере. И ваш ранг определяет ваш счёт. Так что начинайте заниматься SEO.

Исследование Метехана, анализирующее 200 000 точек данных относительно AEO/GEO, демонстрирует его значительную важность – как сейчас, так и в будущем. Это касается не только нашей работы; это также поднимает вопросы о потенциальных предубеждениях и более широком культурном воздействии.

Преобразование текста в последовательность числовых идентификаторов, процесс, называемый токенизацией, влияет как на объем необходимой обработки, так и на точность результатов.

Обычный английский текст является наиболее эффективным по токенам форматом, составляя 5,9 символов на токен. Давайте назовем это относительной эффективностью в 100%. Базовый уровень.
Турецкая проза имеет всего 3.6. Это на 61% эффективнее.
Markdown tables 2.7. На 46% эффективнее.

Некоторые языки программирования более эффективны, чем другие, и это становится все более важным. С ростом стоимости разработки и опасениями по поводу финансовой стабильности некоторых AI компаний, выбор правильного языка имеет решающее значение.

Top Tips

Поскольку Google уже установил эти методы, они должны работать последовательно на обеих платформах.

Ответь, наконец, на вопрос. Боже мой. Переходи к сути. Меня не волнует ничего, кроме того, что я хочу. Дай это мне немедленно (сказано как человеком и машиной).
Поэтому сразу выкладывайте важную информацию. У меня нет предела вниманию. То же самое касается и трансформерных моделей.
Разграничьте. Работа по оптимизации сущностей. Установите связи онлайн. Получите свою панель знаний. Авторы, аккаунты в социальных сетях, структурированные данные, создание брендов и профилей.
Отличный E-E-A-T. Предоставляйте достоверную информацию способом, который отличает вас от конкурентов.
Создавайте насыщенные ключевыми словами внутренние ссылки, которые помогают определить, о чём страница и контент. Частично — это disambiguation. Частично — просто хороший UX.
Если вам нужно что-то, ориентированное на LLMs, будьте более эффективны в использовании слов.
- Использование структурированных списков может снизить потребление токенов на 20-40%, поскольку они убирают лишнюю информацию. Не потому, что они более эффективны*.
- Используйте общеизвестные аббревиатуры, чтобы также экономить токены.

Ключ к успеху здесь прост: предоставляйте людям то, что им нужно, быстро и делайте всё предельно понятно. В сегодняшнем переполненном онлайн-мире этот подход удивительно эффективен.

Последние фрагменты

Некоторые люди задаются вопросом, может ли использование markdown с AI-агентами помочь им игнорировать ненужный код и быстро извлекать основной контент с веб-сайтов. По сути, агенты могли бы пропускать беспорядочный HTML и сосредотачиваться на том, что важно.

Неясно, насколько лучше было бы с более чистым и логичным HTML, но это определенно то, за чем стоит следить.

Очень SEO. Много AI.

Смотрите также

2026-02-20 17:43