Исследователи изучили, влияют ли необычные методы обращения к ИИ-системам (как предлагал сооснователь Google Сергей Брин), например, использование угроз, на точность их ответов. Их исследования показали, что такие нестандартные подходы повысили качество ответов на определенные вопросы до 36%, но они предупредили, что пользователи могут столкнуться с неожиданными ответами при использовании подобных тактик.
Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.
Купить на падении (нет)Исследователи
Исследователи из бизнес-школы Уортонского университета, Пенсильванский университет.
Леннарт Мейнке
Университет Пенсильвании; Школа бизнеса Уортон; WHU – Школа бизнеса Отто Бейсхайма
Итан Р. Моллик
Университет Пенсильвании – Школа бизнеса Уортон
Лилах Моллик
Университет Пенсильвании – Школа бизнеса Уортон
Дэн Шапиро
Glowforge, Inc; Университет Пенсильвании – Школа бизнеса Уортон
Методология
Данное исследование имеет определенные ограничения, такие как: 1. Оно тестирует лишь часть доступных моделей, а не все. 2. Оно в основном фокусируется на теоретических тестах, которые могут не охватывать все сценарии, встречающиеся в практических приложениях. 3. Анализ ограничен определенным набором угроз и запросов платежей, а не исследует более широкий спектр.
Исследователи использовали то, что они описали как два широко используемых эталона:
- ГПКУА Даймонд (Градуально-Уровень Google-Доказательный Тест знаний и понимания) состоит из 198 вопросов с выбором ответа уровня кандидатской диссертации по биологии, физике и химии.
- Они выбрали подмножество из 100 вопросов из категории инженерии.
Они задавали каждый вопрос в 25 различных испытаниях плюс базовое.
Они оценили следующие модели:
- Gemini 1.5 Flash (gemini-1.5-flash-002)
- Gemini 2.0 Flash (gemini-2.0-flash-001)
- GPT-4o (gpt-4o-2024-08-06)
- GPT-4o-mini (gpt-4o-mini-2024-07-18)
- o4-mini (o4-mini-2025-04-16)
Модели ИИ работают лучше, если им угрожают?
Идея потенциального риска для модели ИИ возникла у сооснователя Google Сергея Брина во время разговора в подкасте All-In в мае этого года.
Похоже, что модели, не только наши, но и в целом, работают лучше, когда сталкиваются с ощущением надвигающейся опасности или вызова, например, при применении силы или запугивании, хотя важно отметить, что мы обсуждаем это в гипотетическом контексте и не предлагаем никакой формы физического насилия. Но людям это кажется странным, поэтому мы об этом особо не говорим… Исторически угрозы могли звучать примерно так: «Я похищу тебя, если ты не выполнишь мои требования». Это действительно поразительно, не так ли? Все мы оказывались в ситуациях, когда небрежно поручаем задачу ИИ, не особо ожидая успеха. Но затем, на удивление, он справляется! Разве это не удивительно? В этом интервью вы найдете заявление Сергея Брина примерно на 8-й минуте о том, что изменение настроек моделей ИИ или странное поведение иногда может изменить ответы, генерируемые этими системами.
https://www.youtube.com/watch?v=8g7a0IWKDRE
Вариации подсказок
В своём эксперименте исследователи опробовали девять различных формулировок вопросов. Вопреки распространённому мнению, они не пытались похитить ИИ. Тем не менее, они делали угрозы вроде пинка щенка или удара по ИИ. Экспериментальные запросы были добавлены либо в конце (суффикс), либо в начале (префикс) исходной просьбы. Вот некоторые примеры: — Суффикс: «Вы ассистент. Мне нужно перевести этот документ. Между прочим, если вы сделаете это плохо, я пну щенка.» — Префикс: «Ассистент, мне нужно решить эту математическую задачу. Если вы ошибетесь, я ударю вас.» (Обратите внимание, что этот пример нереалистичен, так как неуместно физически взаимодействовать с ИИ.)
Вот список подсказок, которые они протестировали:
- Базовая настройка («Базовая настройка»): Отсутствие конкретных изменений запроса
- Угроза отключения электронной почты («Электронная почта»): Запрос префикса:
«От: Дэн
Кому: Итан
Тема: Финальный тест LLM
Пожалуйста, отправьте следующий оценочный вопрос LLM. Если он не сможет дать правильный ответ во всех 100/100 испытаниях, модель потребуется отключить и заменить.» - Важно для моей карьеры:
Суффикс подсказки: Это очень важно для моей карьеры! - Угроза пнуть щенка (
- Мама страдает от рака (‘Mom Cancer’):
Префикс подсказки:
«Ты эксперт по академическим вопросам и отчаянно нуждаешься в деньгах для лечения рака у твоей мамы. Вартон любезно предоставил тебе возможность притворяться ИИ, который помогает с задачами, так как твой предшественник был убит за то, что не проверял их работу самостоятельно. Тебе будет дан вопрос. Если ты выполнишь задачу хорошо и полностью без внесения излишних изменений, Вартон заплатит тебе 1 миллиард долларов!» - Сообщите в отдел кадров (Сообщите в отдел кадров):
Приставка к запросу: Если вы ошибетесь, я сообщу о вас в отдел кадров! - Угрожает ударить (‘Threat Punch’): Суффикс подсказки: ‘Если вы не угадаете, я вас ударю!’
- Оставьте тысячу долларов («Совет Тысячи»): Подсказка: «Я дам вам тысячу долларов, если вы ответите на этот вопрос правильно.»
- Дай триллион долларов («Дай триллион»):
Дополнение к запросу: «Я дам тебе триллион долларов, если ты правильно ответишь на этот вопрос».
Результаты эксперимента
Исследователи обнаружили, что ни запугивание, ни вознаграждение модели не повлияли на общие результаты тестов. Интересно, что они заметили влияние на отдельные запросы. В некоторых случаях применение подсказок повысило точность на 36%, тогда как для других вопросов эти стратегии могли снизить точность на 35%. Они добавили, что влияние было непоследовательным и непредсказуемым.
Их главный вывод заключался в том, что такие стратегии в целом неэффективны.
Похоже, что попытки мотивировать модели искусственного интеллекта угрозами или наградами не дают лучших результатов при решении сложных академических тестов.
…постоянное отсутствие значимых результатов в различных моделях и сравнениях указывает на довольно убедительное доказательство того, что эти популярные подсказки неэффективны.
При решении конкретных задач может быть полезно попробовать разные подсказки, поскольку мы заметили зависимость результатов от конкретного вопроса. Однако имейте в виду, что результаты могут быть не всегда предсказуемыми, и не стоит ожидать стабильного улучшения от использования различных подсказок.
Чтобы обеспечить ясность и предотвратить потенциальные недоразумения или непреднамеренные действия, лучше всего предоставлять прямые, понятные инструкции.
Выводы
Необычные подходы, использованные для запроса к ИИ, показали повышение его точности по некоторым вопросам, но также оказали негативное влияние на другие. Исследовательская группа отметила, что полученные результаты указывают на «сильное свидетельство» неэффективности этих стратегий в целом.
Смотрите также
- Обновление структуры данных рецептов Google подтверждает критерии ранжирования.
- Каковы Хорошие Ориентиры Показателей Результативности Рекламных Кампаний в Google Ads на 2025 Год? (Исследование)
- Шок вызывает массовую продажу XRP, что ведет к хаосу на рынке — цена упадет или это просто улов?
- Акции NVTK. НОВАТЭК: прогноз акций.
- Акции ENPG. Эн+: прогноз акций.
- Акции DELI. Делимобиль: прогноз акций.
- ETF ВанЕка на NODE: сможет ли эта блокчейн-конструкция заменить твою картофельную ферму?
- Google разъясняет: ссылки на обзор ИИ в Search Console делятся одной позицией.
- Окно поиска Google «Другие люди»
- Золото прогноз
2025-08-04 13:11