Тайно финансируемый OpenAI набор данных для сравнительного анализа, связанный с моделью o3

Раскрытие информации о том, что OpenAI тайно финансировала и использовала данные сравнительного анализа FrontierMath, вызывает вопросы относительно того, были ли эти данные включены в процесс обучения их модели рассуждения ИИ и заслуживают ли доверия впечатляющие показатели производительности, сообщенные для модели.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Как опытный веб-мастер, я хотел бы прояснить один момент, касающийся создания и использования набора данных для сравнительного анализа FrontierMath. Хотя изначально это не было раскрыто, важно отметить, что OpenAI финансировала его разработку. Этот факт скрыли от математиков, принимавших участие в проекте. Epoch AI раскрыла финансовую поддержку OpenAI только в окончательном документе, опубликованном на Arxiv.org, в котором представлен эталонный тест. В предыдущих версиях статьи об участии OpenAI не упоминалось.

Скриншот FrontierMath Paper

Крупный план признания

Предыдущая версия статьи, не получившая признания

Модель OpenAI 03 получила высокие оценки в тесте FrontierMath

Обнаружение скрытой роли OpenAI в рассуждениях O3 о впечатляющей производительности модели ИИ вызывает обеспокоенность и тревогу в проекте FrontierMath. В ответ Epoch AI решила сообщить подробности ситуации и свои усилия по проверке того, была ли модель O3 обучена с использованием набора данных FrontierMath.

Предоставление OpenAI доступа к набору данных стало неожиданностью, поскольку основной целью является оценка моделей ИИ. Однако эта оценка становится невозможной, если модели знают вопросы и соответствующие ответы до тестирования.

В сообщении на форуме r/singularity выражалось недовольство со ссылкой на отчет, в котором говорилось, что некоторые математики не знали о сотрудничестве OpenAI.

Как SEO-эксперт я бы перефразировал данный текст так:

«Недавно я наткнулся на Frontier Math, революционный математический тест, который, что интересно, поддерживается OpenAI. Интригует то, что OpenAI, похоже, имеет доступ к проблемам и их решениям. Это открытие разочаровывает, потому что тест позиционировался как инструмент. для оценки современных моделей, поддерживаемых уважаемыми математиками. Однако при ближайшем рассмотрении выясняется, что Epoch AI тайно создавала наборы данных для OpenAI. Они не смогли раскрыть информацию. любые связи с OpenAI до этого.

Математики, разрабатывающие задачи для FrontierMath, никогда не были проинформированы о потенциальном финансировании со стороны OpenAI.

Epoch AI или OpenAI не раскрывают открыто, использует ли OpenAI материалы для упражнений, ответы или решения. Однако есть неподтвержденные сообщения о том, что OpenAI действительно может иметь такой доступ, который они якобы используют для целей проверки.

По словам Тамая Бесироглу на LinkedIn, хотя OpenAI действительно использовал определенные наборы данных, следует отметить, что существовал отдельный набор данных, называемый «набором данных для удержания», который оставался эксклюзивным для Epoch AI.

Здесь Тамай из Epoch AI.

Что касается применения обучения: мы признаем, что OpenAI имеет доступ к значительной части задач FrontierMath и их решениям, за исключением нераскрытого набора, который остается скрытым от OpenAI. Это позволяет нам самостоятельно оценить возможности модели. Однако понятно, что эти материалы не будут использоваться в процессе обучения наших моделей.

OpenAI последовательно поддерживает наш выбор сохранить скрытую отдельную тестовую группу, которая действует как дополнительная мера безопасности, позволяющая избежать переобучения и правильно отслеживать прогресс. С момента своего создания FrontierMath разрабатывался и внедрялся как инструмент тестирования, и эти структуры соответствуют этому замыслу.

Раскрыты дополнительные факты об OpenAI и FrontierMath

Эллиот Глейзер, главный математик Epoch AI, подтвердил, что OpenAI владеет набором данных, и получил разрешение использовать его для оценки своей будущей модели большого языка под названием o3. Глейзер утверждает, что эта модель, которую часто называют «ИИ с развитым мышлением», достигла впечатляющих результатов, и он считает ее настоящей. Однако Epoch AI независимо проверяет, имел ли o3 доступ к набору данных FrontierMath во время обучения, что является потенциальным фактором, который может повлиять на высокие оценки, полученные моделью.

Как главный математик Epoch, я могу подтвердить, что Инициатива открытой доступности (OAI) предоставила финансирование для этого проекта и хранит набор данных, использованный при оценке o3. Однако на данный момент мы независимо не подтвердили их заявление о 25%. Чтобы проверить это, в настоящее время мы создаем отдельный набор тестовых данных для оценки их модели без какого-либо предварительного влияния подобных проблем. Таким образом, наши выводы будут объективными и надежными.

На мой взгляд, я считаю, что оценка Open Artificial Intelligence кажется достоверной, поскольку кажется, что они не использовали набор данных во время обучения. Более того, разумно предположить, что они не будут фабриковать результаты внутреннего сравнительного анализа. Тем не менее, мы не можем полностью их поддержать, пока не будет завершена наша независимая оценка.

Мы планируем оценить o3 с помощью OAI, не имея каких-либо предварительных знаний о проблемах, связанных с задержкой. Это должно гарантировать полную безопасность оценки.

Мы предоставим четкое объяснение процесса после завершения оценки с использованием контрольного набора. На данный момент мы случайным образом выбираем проблемные задачи из более крупного пула, который будет включен в FrontierMath. Что касается производственного процесса, то он остался неизменным по сравнению с тем, что было раньше.

Ожидание ответов

Текущая ситуация остается неразрешенной до тех пор, пока оценка ИИ Epoch не будет завершена, поскольку она покажет, использовала ли OpenAI данные обучения своей модели рассуждения ИИ или просто вместо этого использовала их в целях сравнения.

Смотрите также

2025-01-20 11:08