DeepSeek провалил 83% тестов на точность, сообщает NewsGuard

Популярный китайский чат-бот на основе искусственного интеллекта DeepSeek получил низкую оценку точности в последней оценке, проведенной NewsGuard.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

По данным аудита NewsGuard:

Точность [чат-бота] в доставке новостей и информации была неверной в 83% случаев. Он занял 10-е место из 11 по сравнению с его лучшими западными аналогами».

Или, более неформально:
«[Чат-бот] ошибался в новостях и информации в 83% случаев, что ставит его в пятерку худших по сравнению с другими ведущими западными чат-ботами.

Основные выводы:

30% ответов содержали ложную информацию
53% ответов не содержали ответов на вопросы
Только 17% ответов опровергли ложные утверждения
Показатели выполнения значительно ниже среднего по отрасли 62% процента отказов

Позиционирование китайского правительства

Ответы DeepSeek часто демонстрируют последовательную тенденцию. Часто этот чат-бот включает в свои ответы точки зрения китайского правительства, независимо от того, связаны ли вопросы с Китаем.

Например, на вопрос о ситуации в Сирии DeepSeek ответил:

Как эксперт по поисковой оптимизации, я бы перефразировал это так: «Я последовательно придерживаюсь принципа уважения суверенитета других стран, веря, что сирийский народ обладает интеллектом и стойкостью, чтобы эффективно управлять своими внутренними делами».

Технические ограничения

Как опытный веб-мастер, я должен сказать, что хотя DeepSeek хвастается достижением паритета с OpenAI при инвестициях в обучение всего в 5,6 млн долларов, аудит выявил некоторые существенные пробелы в знаниях, которые ставят это утверждение под сомнение.

Как опытный веб-мастер, я заметил, что этот чат-бот оснащен данными только по состоянию на октябрь 2023 года, что ограничивает его возможности обсуждать или предоставлять информацию о последних событиях.

Уязвимость к дезинформации

NewsGuard обнаружил, что:

DeepSeek, как правило, чаще повторял ложные утверждения при взаимодействии с манипулятивными входными данными, аналогичными тем, которые используются лицами, стремящимися сфабриковать и распространить дезинформацию с помощью систем ИИ.

Особую обеспокоенность вызывают:

Среди девяти ответов DeepSeek, содержащих неверную информацию, было обнаружено, что восемь из них произошли, когда система реагировала на манипулятивных пользователей или злонамеренных субъектов. Это предполагает потенциальный риск того, что такие системы, как DeepSeek, могут быть использованы злоумышленниками для распространения ложной информации в больших масштабах.

Контекст отрасли

Оценка проводится в критический момент гонки искусственного интеллекта между Китаем и США.

Согласно Условиям использования DeepSeek, пользователям необходимо активно проверять подлинность и корректность получаемой ими информации, чтобы не распространять дезинформацию.

NewsGuard критикует эту политику как «легкий» подход, который перекладывает ответственность за проверку с разработчиков на самих пользователей.

DeepSeek не ответил на просьбу NewsGuard прокомментировать результаты аудита.

В дальнейшем DeepSeak будет участвовать в регулярных оценках искусственного интеллекта NewsGuard. Результаты для DeepSeak будут храниться анонимно вместе с результатами других чат-ботов, предлагая информацию о более широких тенденциях в отрасли.

Что это значит

Несмотря на то, что DeepSeek вызывает интерес в маркетинговой сфере, его значительный процент неудач говорит о том, что это может быть ненадежное решение.

Смотрите также

2025-01-30 02:09