Извлечение информации Часть 2: Как получить данные для обучения модели.

Сейчас самый важный момент в вашей карьере для инвестиций в обучение и понимание. Дело не в том, что поиск на основе ИИ принципиально отличается от того, к чему вы привыкли, а скорее в широко распространенной *вере* в то, что это так.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Лидеры по всей стране действительно сосредоточены на принятии правильных решений прямо сейчас. Им необходимо быть уверенными, что именно мы — команда, которая будет вести компанию вперед в эту новую эру.

Важно понимать основы того, как информация находится и к ней осуществляется доступ, даже если ваши текущие бизнес-практики не требуют изменений.

Всё начинается с понимания основ обучающих данных модели: что это такое, как это работает и, что самое главное, как получить к ним доступ.

TL;DR

  1. Искусственный интеллект является продуктом своих обучающих данных. Качество (и количество) данных, на которых обучается модель, является ключевым фактором её успеха.
  2. Чем больше согласованных и точных упоминаний бренда вы имеете в обучающих данных, тем меньше неоднозначности вы создаете.
  3. Качественное SEO, в сочетании с улучшенным продвижением продуктов и традиционным маркетингом, улучшит вашу видимость в обучении и данных, и в конечном итоге с использованием RAG/поиска в реальном времени.

Что такое обучающие данные?

LLM учатся предсказывать, что будет дальше – будь то следующее слово, предложение или ответ – путем изучения большой коллекции данных, называемой обучающим набором данных. Эти данные могут быть ‘помечены’, то есть предоставлены правильные ответы, или ‘непомечены’, требуя от модели самостоятельно изучать закономерности.

Без высококачественных обучающих данных, модели совершенно бесполезны.

Будь то сомнительные публикации в сети, забавные видео с кошками или классические произведения искусства и литературы, современные модели ИИ обучаются абсолютно на всем. И это не ограничивается только письменными текстами — этим моделям также необходимо понимать, как говорят люди, включая разные акценты и даже эмоции, стоящие за их голосами.

Как это работает?

Большие языковые модели не просто запоминают информацию; они учатся, сжимая её. Они анализируют огромные объёмы данных и совершенствуют свои внутренние настройки посредством процесса, называемого обратным распространением ошибки.

Когда модель правильно предсказывает следующее слово в обучающей последовательности, она продолжает работу. Если она ошибается, модель корректируется с использованием процесса, аналогичного принципу работы павловского обусловливания – она учится на своих ошибках.

По голове похлопали палкой или назвали «хорошим мальчиком».

Затем модель способна векторизовать. Создавая карту ассоциаций по термину, фразе и предложению.

  • Преобразование текста в числовые векторы, также известное как Мешок слов (Bag of Words).
  • Улавливание семантического значения слов и предложений, сохранение более широкого контекста и смысла (словесные и предложенные вложения/эмбеддинги).

Параметрическая память хранит правила и детали как связи внутри самой модели – это по сути встроенные знания. Чем больше модель уже понимает о предмете, тем меньше ей нужно проверять свои ответы на точность.

Модели с большой памятью могут быстро находить правильную информацию, когда она хранится внутри них, но их знания фиксированы, и они не могут учиться или запоминать новое. По сути, они ‘забывают’ по мере поступления новой информации.

Как человек, который некоторое время строил и управлял веб-сайтами, я в последнее время действительно углубился в Retrieval-Augmented Generation (RAG) и поиск в реальном времени в интернете. Что в них круто, так это то, что они не *учатся* в традиционном смысле – они используют огромную внешнюю базу знаний. Это означает, что они могут масштабироваться практически до любого размера, что здорово, но это также может сделать их немного медленнее. Я обнаружил, что они особенно сильны при работе с текущими событиями или чем-либо, где вам нужно быть абсолютно уверенным в точности и проверяемости информации – по сути, с чем-либо, что требует надежной основы фактов.

Создание алгоритмов более высокого качества

Когда речь заходит о тренировочных данных, разработка более качественных алгоритмов опирается на три элемента:

  1. Качество.
  2. Количество.
  3. Устранение предвзятости.

Качество данных имеет решающее значение. Модель, обученная на неточных или полностью искусственных данных, не будет хорошо работать при столкновении с реальными проблемами и сложностями.

Огромный объем данных также является проблемой. Эти компании, по сути, взяли все, что могли, и не заплатили за это.

Использование искусственных данных для решения масштабных задач — не главная проблема. Всё сложнее находить бесплатный, высококачественный контент в интернете для этих целей, главным образом из-за двух факторов:

  1. Если вы не хотите дьявольский расизм, злобные комментарии, теории заговора и плагиат, я не уверен, что интернет — это ваш парень на данный момент.
  2. Если они соблюдают директивы robots.txt компании, по крайней мере. Восемь из десяти крупнейших новостных веб-сайтов в мире сейчас блокируют ботов для обучения ИИ. Я не знаю, насколько эффективна их блокировка на уровне CDN, но это затрудняет получение качественных данных для обучения.

Значительной проблемой является предвзятость и отсутствие разнообразия. Все, включая людей, создающих эти AI-модели, имеют свои собственные естественные предубеждения.

Шокирующе, я знаю…

Если искусственный интеллект обучается на предвзятых данных – данных, которые несправедливо отдают предпочтение определенным группам или продуктам – он может усугубить существующие общественные проблемы и способствовать дискриминации.

Как SEO-эксперт, я часто объясняю клиентам, что Большие языковые модели (LLMs) на самом деле не ‘думают’ и не хранят информацию, как традиционная база данных. То, в чём они *действительно* хороши, – это распознавание закономерностей. Они были обучены на огромном количестве данных, и, по сути, предсказывают следующее слово – или, точнее, следующий ‘токен’ – на основе миллиардов числовых значений. Эти значения определяют наиболее вероятную последовательность, учитывая контекст. Речь идет об анализе закономерностей, а не об интеллекте или фактическом воспроизведении.

Как собираются обучающие данные?

Как и у любого хорошего SEO-специалиста, всё зависит.

  1. Если вы построили ИИ-модель специально для идентификации фотографий собак, вам нужны фотографии собак в каждой мыслимой позе. Все типы собак. Все эмоции, которые проявляет песик. Вам нужно создать или приобрести набор данных из миллионов, возможно, миллиардов изображений собак.
  2. Затем это необходимо очистить. Рассматривайте это как структурирование данных в согласованный формат. В упомянутом сценарии с собакой, возможно, кошачий друг злонамеренно добавил фотографии кошек, одетых как собаки, чтобы вас запутать. Их необходимо идентифицировать.
  3. Затем помеченные (для обучения с учителем). Разметка данных (с некоторыми аннотациями от человека) гарантирует, что в цикле присутствует разумное существо. Надеемся, эксперт, который добавит релевантные метки к крошечной части данных, чтобы модель могла учиться. Например, такса, сидящая на коробке и выглядящая меланхолично.
  4. Предварительная обработка. Реагирование на такие проблемы, как кошки, маскирующиеся под собак. Обеспечение минимизации потенциальных предубеждений в наборе данных, например, чрезмерно частое упоминание определенных пород собак по сравнению с другими.
  5. Разделенный. Часть данных резервируется, чтобы модель не могла запомнить выходные данные. Это финальная стадия валидации. Что-то вроде плацебо.

Этот процесс и дорогостоящий, и занимает значительное количество времени. Просто непрактично полагаться на столько специализированных знаний от людей, которые могли бы работать над более важными задачами.

Представьте себе: вы ломаете руку и проводите шесть часов в приемном отделении. Когда вы наконец-то попадаете к врачу, вы узнаете, что задержка была вызвана тем, что все они были заняты работой с данными, чтобы помочь обучить последнюю AI-модель OpenAI.

Я понимаю, что тебе очень больно, но я сейчас очень занят разметкой этих несчастных псов.

Разметка данных может быть медленным и повторяющимся процессом. Чтобы ускорить работу, многие компании нанимают команды людей (часто называемых ‘людьми в цикле’ или экспертами по данным), которые работают вместе с автоматизированными инструментами, предоставляющими начальные метки. Эти инструменты помогают сортировать и уточнять данные для обучения с учителем.

Для справки, один час видеоданных может занять у людей до 800 часов на аннотацию.

Micro Models

Компании сейчас создают более мелкие, более узконаправленные AI-модели – часто называемые микро-моделями. Эти модели не требуют огромного количества данных или времени обучения для эффективной работы. Обычные люди могут быстро начать обучать эти микро-модели, просто маркируя небольшое количество примеров.

Модели учатся. Они обучают себя.

В конечном итоге, нам потребуется вмешиваться всё реже и реже, в основном для проверки результатов и, что крайне важно, для предотвращения генерации моделями неприемлемого или вредоносного контента – например, сексуально откровенных изображений кого-либо, включая детей, публичных лиц или частных лиц.

Но кому это интересно перед лицом «прогресса».

Типы обучающих данных

Обучающие данные обычно сортируются в зависимости от того, сколько помощи им требуется – уровня контроля – и какую работу они выполняют, помогая модели учиться и совершенствоваться.

В идеале модель в основном обучается на реальных данных.

После разработки модели ее можно обучать и улучшать с использованием искусственных данных. Однако полагаться только на искусственные данные обычно недостаточно для построения действительно эффективной модели.

  • Контролируемый (или помеченный): где каждый ввод помечен «правильным» ответом.
  • Без присмотра (или без маркировки): Разбирайтесь сами, роботы, я пошел попить пива.
  • Полуконтролируемый:небольшой объем данных правильно помечен и модель «понимает» правила. Ещё, я выпью пива в офисе.
  • RLHF (Обучение с подкреплением на основе обратной связи с человеком): людям показывают два варианта и просят выбрать «правильный» (данные о предпочтениях). Либо человек демонстрирует поставленную задачу для режима имитации (демонстрационные данные).
  • Данные для предварительного обучения и тонкой настройки. Массивные наборы данных позволяют получить обширную информацию, а точная настройка используется для превращения модели в эксперта по категориям.
  • Мультимодальность: изображения, видео, текст и т. д.

Далее, есть то, что мы называем данными пограничного случая. Это информация, специально созданная для того, чтобы бросить вызов модели и сделать ее более надежной.

Учитывая быстро растущий спрос на данные для обучения ИИ, естественным образом возникают вопросы о том, что представляет собой добросовестное использование.

Так что платите людям.

Спектр надзора

Обучение с учителем предполагает обучение ИИ с использованием данных, на которых уже указаны правильные ответы. Эти метки имеют решающее значение, поскольку они позволяют ИИ автоматически обучаться и улучшать свою производительность.

Представьте, что вы учите компьютер распознавать цвета. Существует много разных оттенков каждого цвета – на самом деле сотни! Хотя это кажется простой задачей, для ее правильного решения требуется точная маркировка каждого цвета. К сожалению, точная маркировка занимает много времени и может быть дорогостоящей.

Обучение без учителя предполагает передачу модели ИИ большого количества необработанных, немаркированных данных. По сути, вы предоставляете данные и позволяете модели попытаться разобраться в них самостоятельно, без какого-либо руководства. Это подход «попробуй и посмотри», а результаты оценишь позже.

Это позволяет проводить более исследовательское «распознавание образов». Не учусь.

Хотя этот метод не идеален, он очень хорош для выявления тенденций, которые люди могут упустить из виду. Модель может эффективно создавать свои собственные категории и процессы для анализа.

Модели искусственного интеллекта способны обучаться самостоятельно и обнаруживать закономерности, которые люди могут упустить из виду. Однако они также допускают ошибки. Это похоже на беспилотные автомобили: хотя они могут стать причиной меньшего количества аварий в целом, те, которые *случаются*, чувствуют себя намного хуже.

Нас пугают технологии. И это правильно.

Борьба с предвзятостью

Предвзятость в обучающих данных вполне реальна и потенциально очень разрушительна. Есть три фазы:

  1. Предвзятость происхождения.
  2. Предвзятость развития.
  3. Предвзятость развертывания.

Предвзятость происхождения ставит под вопрос, насколько на самом деле надежен и справедлив набор данных. Представляют ли данные полную картину, или существуют скрытые предубеждения (преднамеренные или нет), которые искажают результаты?

Данные обучения могут содержать определенные характеристики или закономерности – это известно как ошибка развития. Но происходит ли алгоритмическая погрешность *из-за* данных, используемых для обучения модели?

Далее следует предвзятость развертывания, которая возникает, когда способ оценки и обработки данных дает неточные результаты и может привести к постоянным, самоусиливающимся ошибкам в автоматизированных системах.

Понятно, почему человеческий надзор так важен и почему предоставление ИИ возможности учиться на фальшивой или плохо отобранной информации может привести к серьезным проблемам.

Если в здравоохранении данные собираются с учетом человеческих предубеждений, полученные алгоритмы могут в конечном итоге повторить неравенство прошлого. Это серьезная проблема.

Это приводит к довольно мрачному циклу подкрепления.

Наиболее часто используемые источники данных для обучения

Если вы ищете хорошо организованные коллекции академических или литературных произведений – такие, которые вам нужны для создания чего-то действительно стоящего – вам, вероятно, придется заплатить определенную сумму.

Обычный обход

В настоящее время Common Crawl Web Graph содержит данные примерно о 607 миллионах веб-сайтов. Каждый новый выпуск ежемесячно включает информацию от 94 до 163 миллионов веб-сайтов.

Недавний отчет Mozilla Foundation за 2024 год под названием «Обучающие данные по цене сэндвича» показал, что большинство (64%) из 47 крупных языковых моделей, которые они изучали, опирались как минимум на одну обработанную версию набора данных Common Crawl.

Вряд ли ваша работа будет замечена или процитирована, если она не была включена в данные, используемые для обучения этих систем. Такие инструменты, как Common Crawl Index Server, позволяют вам проверить, был ли ваш веб-сайт заархивирован, а веб-график Metehan показывает, насколько хорошо связан ваш контент с Интернетом.

Википедия (и Викиданные)

Стандартный набор данных английской Википедии содержит около 20 ГБ полнотекстовых статей, полезных для обучения языковых моделей. Викиданные, между тем, представляют собой обширную и очень подробную базу знаний, наполненную хорошо организованной информацией.

Некоторые из крупнейших парней только что подписали соглашения с Википедией.

Издательства

OpenAI, Gemini и т. д. заключили многомиллионные лицензионные соглашения с рядом издателей.

Раньше я видел от них постоянный поток обновлений, но в последнее время он сильно замедлился — почти прекратился. Честно говоря, учитывая их финансовое положение, меня это не удивляет. Похоже, им пришлось отказаться от всего, включая создание контента.

Медиа и библиотеки

Основное внимание уделяется обучению ИИ работе с различными типами контента, такими как изображения и видео. Shutterstock и Getty Images уже сотрудничают с Perplexity в этом вопросе, а Disney, будущий партнер видеоплатформы Sora, помогает добиться визуального понимания, необходимого для этих моделей искусственного интеллекта.

Благодаря новому трехлетнему соглашению с Disney Сора теперь может создавать короткие видеоролики для социальных сетей с использованием персонажей Диснея, основываясь на том, что пользователи просят ее создать.

Disney инвестирует 1 миллиард долларов в OpenAI, а также получит возможность выкупить еще больше акций компании в рамках новой сделки.

книги

BookCorpus превратил очищенные данные 11 000 неопубликованных книг в набор данных объемом 985 миллионов слов.

Становится невозможно создать достаточно нового письменного материала, чтобы модели ИИ могли продолжать обучение, и это в конечном итоге приведет к снижению их производительности.

Репозитории кода

Способность кодировать в настоящее время является ключевым преимуществом многих больших языковых моделей (LLM). Такие модели, как Cursor и Claude Code, особенно впечатляют, и они были обучены с использованием данных из таких источников, как GitHub и Stack Overflow.

Они совершили революцию в области виброинженерии.

Общедоступные веб-данные

Использование широкого спектра полезной информации из Интернета ускоряет процесс обучения моделям ИИ, что снижает объем необходимой вычислительной мощности. Эти данные постоянно обновляются и меняются, но они также могут быть неорганизованными и ими сложно управлять.

Если вам требуются большие объемы данных, особенно если вам нужно, чтобы они постоянно обновлялись, то лучшим выбором будет информация, доступная в общедоступной сети. Это также относится к получению подлинных мнений и обзоров о продуктах и ​​услугах. Такие источники, как веб-сайты, платформы обзоров, пользовательский контент и социальные сети, — отличные места для поиска этой информации.

Почему модели не становятся (намного) лучше

Хотя у нас есть много доступных данных, большая часть из них не классифицирована, что делает их непригодными для обучения моделей машинного обучения, основанных на размеченной информации. Даже одна неправильная метка может снизить точность модели.

Многие эксперты полагают, что скоро мы столкнемся с нехваткой качественных данных. В конечном итоге это, скорее всего, приведет к тому, что инструменты ИИ начнут полагаться на неточную или некачественную информацию.

Это известная проблема, которая может привести к сбою модели.

  • Их блокируют компании, которые не хотят, чтобы их данные использовались бесплатно для обучения моделей.
  • Протоколы robots.txt (директива, а не нечто, требующее прямого исполнения), блокировка на уровне CDN и страницы условий обслуживания были обновлены, чтобы заставить этих ребят заблудиться.
  • Они потребляют данные быстрее, чем мы можем их произвести.

По мере того, как все больше издателей и веб-сайтов начинают требовать подписки (а это разумный бизнес-шаг), эффективность систем такого типа фактически снижается.

Итак, как вы получаете данные об обучении?

Я думаю о двух очевидных подходах.

  1. Определить наборы исходных данных для важных моделей и найти пути к ним.
  2. Отказаться от конкретики и просто заняться отличным SEO и более широким маркетингом. Окажите ощутимое влияние в своей отрасли.

У обоих подходов определенно есть свои плюсы и минусы. Но для большинства компаний попытки напрямую манипулировать работой конкретных моделей кажутся излишними. Честно говоря, это немного похоже на рискованную тактику SEO. Большинству брендов было бы лучше сосредоточиться на создании превосходного маркетингового контента, которым люди естественным образом делятся, ссылаются и обсуждают.

Эти модели ИИ не обучаются с использованием информации в реальном времени. Поскольку вы не можете добавлять новые данные в модель после ее создания, очень важно предвидеть ваши потребности и тщательно планировать данные обучения.

Если вы частное лицо, вы должны быть:

  • Создание и распространение контента.
  • Занимаюсь подкастами.
  • Посещение отраслевых мероприятий.
  • Совместное использование контента других людей.
  • Провожу вебинары.
  • Познакомьтесь с соответствующими издателями, публикациями и людьми.

Как определить, какие модели наборов данных используются?

Люди теперь гораздо более конфиденциальны в отношении данных, которые они используют для обучения своих моделей ИИ. Вероятно, это связано с юридическими проблемами и стоимостью данных. В результате вам придется провести расследование и найти информацию самостоятельно.

  • Обычное сканирование.
  • Википедия.
  • Викиданные.
  • Репозитории кодирования.

К счастью, большинство сделок становятся общедоступными, поэтому мы можем быть уверены, что модели ИИ обучаются с использованием информации из этих источников.

Google сотрудничает с Reddit и имеет доступ к огромной коллекции стенограмм с YouTube. Это дает им значительное преимущество, поскольку они, вероятно, обладают более крупным и более организованным набором данных, чем любая другая компания.

Как цифровой маркетолог, я внимательно слежу за развитием Grok. Важно понимать, что он почти полностью обучался на реальных данных из X (ранее Twitter). Это во многом объясняет его… нестандартное поведение. Честно говоря, он часто выглядит незрелым и склонным к созданию неуместного или оскорбительного контента, даже имитируя вредоносные сценарии. Нефильтрованный характер источника данных в режиме реального времени, очевидно, является важным фактором в формировании его ответов.

Важно помнить, что компании, занимающиеся искусственным интеллектом, часто полагаются на сторонние услуги. Эти компании решают такие задачи, как сбор информации из Интернета, ее организация и подготовка для использования в обучении моделей ИИ. Scale AI – ведущий поставщик услуг по подготовке данных для крупных компаний, занимающихся искусственным интеллектом, а Bright Data специализируется исключительно на сборе веб-данных.

Контрольный список

Мы стремимся включиться в данные, используемые для обучения больших языковых моделей (LLM). Это поможет модели распознать вашу информацию, что повысит вероятность ее использования при создании приложений, извлекающих информацию – часто называемых RAG. Для этого нам необходимо:

  1. Управляйте экосистемой мультиботов для обучения, индексирования и просмотра.
  2. Оптимизация сущности. Хорошо структурированный, хорошо связанный контент, согласованные NAP, свойства схемы SameAs и наличие сети знаний. В Google и Викиданных.
  3. Убедитесь, что ваш контент отображается на стороне сервера. Google стал очень искусным в рендеринге контента на стороне клиента. Боты, такие как GPT-bot, видят только ответ в формате HTML. JavaScript по-прежнему неуклюж.
  4. Хорошо структурированный, машиночитаемый контент в соответствующих форматах. Таблицы, списки, правильно структурированный семантический HTML.
  5. Получать. Сам. Вне. Там. Поделитесь своими вещами. Шуметь.
  6. Будьте предельно ясны на своем веб-сайте о том, кто вы. Ответьте на соответствующие вопросы. Владейте своими сущностями.

Важно учитывать как то, как вы представляете свой бренд напрямую, так и то, как о нем говорят другие. Стремитесь сделать ваш бренд первым, о чем думают люди, когда рассматривают варианты в вашей области.

Современное SEO с лучшим маркетингом.

Смотрите также

2026-02-04 17:29