Исследование: Подсказки типа «Вы — эксперт» могут нанести ущерб фактической точности

Просить AI-модели действовать как ‘эксперт’ может быть неоднозначно. Недавние исследования показывают, что, хотя этот подход может сделать ответы AI более соответствующими ожиданиям людей, он также может снизить точность при решении задач, требующих большого количества фактических знаний. По сути, эта техника не является универсально полезной – она хорошо работает для некоторых задач, но не для других.

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Persona Prompting

Использование ‘персонального промптинга’ – по сути, указание ИИ отвечать в определенном стиле – является популярным способом контроля над его тоном и обеспечения того, чтобы его ответы казались более человечными. Хотя это часто используется, потому что это может улучшить читаемость текста, сгенерированного ИИ, удивительно неясно, действительно ли это *улучшает* производительность. Предыдущие исследования дали смешанные результаты, заставляя некоторых сомневаться в том, действительно ли персональный промптинг полезен или он может даже ухудшить ситуацию.

Как эксперт по SEO, я слежу за исследованиями о ‘persona prompting’ – по сути, инструктировании моделей ИИ отвечать *как если бы* они были конкретным типом личности. Результаты исследований показывают, что это не волшебная таблетка. Это не автоматически делает результаты лучше *или* хуже. То, помогает ли это, действительно зависит от *того*, что вы просите ИИ сделать. Некоторые задачи выигрывают от этого, другие – нет. Это не универсальное решение, и нам нужно быть стратегическими в отношении того, когда и как мы его используем.

Они нашли:

Он улучшает результаты, связанные с выравниванием, такие как тон, форматирование и поведение в отношении безопасности.
Persona prompting ухудшает производительность в задачах, которые полагаются на фактическую точность и рассуждения.

Основываясь на моём опыте создания и настройки веб-сайтов, я своими глазами убедился, насколько полезными – а иногда и вредными – могут быть эти ‘persona’ подсказки. Эти исследователи разработали метод под названием PRISM – что расшифровывается как Persona Routing via Intent-based Self-Modeling – и это разумный подход. Вместо того, чтобы *всегда* использовать persona, PRISM разумно применяет их только тогда, когда это имеет смысл, исходя из того, чего пытается достичь пользователь. Их исследования, по сути, подтверждают мои подозрения: personas – это не панацея. Они наиболее эффективны при стратегическом использовании, и вы на самом деле можете получить лучшие результаты, *не* используя их в определенных ситуациях. Действительно помогает понять *когда* и *почему* они работают лучше всего.

Управление поведенческими сигналами

Исследователи объясняют в третьем разделе, что, хотя экспертные персоны могут предложить полезные идеи, простое использование их в подсказках может быть столь же вредным, как и полезным. Это приводит их к размышлениям о том, можно ли выделить положительные аспекты персон и использовать их только тогда, когда они действительно улучшают результаты.

Как цифровой маркетолог, я глубоко изучал, как максимально эффективно использовать Большие языковые модели, и обнаружил, что тонкое управление ими с помощью «поведенческих сигналов» является ключевым моментом. Именно поэтому такие вещи, как промпты с персоной, настолько эффективны! Эти сигналы действительно формируют вывод LLM – улучшая такие вещи, как тон ответа, его структуру, обеспечивая его безопасность и уместность, и, что крайне важно, гарантируя, что он доставляет то, что мы *ожидаем*. Честно говоря, без этих поведенческих подсказок, промпты с персоной просто не работали бы; мы бы не увидели никакой реальной выгоды.

Интересно, что исследование показывает, что, хотя эти сигналы полезны в некоторых отношениях, они фактически препятствуют задачам, требующим точных фактов и логического мышления. Поэтому исследование сосредоточено на контроле этих сигналов, а не на попытках сделать их сильнее.

Эти сигналы включают:

Стилистическая адаптация и подбор тона: Использование профессионального или креативного голоса.
Структурированное форматирование: Предоставление пошаговых или технических макетов.
Соблюдение формата: помощь модели в следовании сложным структурам, таким как профессиональные электронные письма или пошаговые объяснения в области STEM.
Следование намерению: Сосредоточение модели на основной цели пользователя, особенно в задачах, таких как извлечение данных.
Отказ от небезопасного контента: более эффективное выявление и отклонение вредоносных запросов путем принятия роли «Safety Monitor«.

Persona Prompt Побеждает

В исследовании было обнаружено, что персонализированные подсказки оказались успешными в пяти из восьми категорий задач:

Извлечение: Увеличение оценки на +0.65.
STEM: Увеличение оценки на +0.60.
Обоснование: увеличение оценки на +0.40.
Текст: Улучшен за счёт лучшей стилистической адаптации.
Отыгрывание роли эксперта в предметной области: Улучшено благодаря более точному соответствию тону.

Запросы, основанные на персонах, показали лучшие результаты в этих областях, поскольку они были сосредоточены на том, насколько хорошо написаны ответы – такие вещи, как стиль и читаемость – а не просто на фактической точности. Они также обнаружили, что предоставление большего количества деталей персоне в запросе приводило к ответам, которые были более соответствовали персоне и были безопаснее в целом.

Неудачи с запросами к Persona.

Однако, когда ИИ попросили действовать как эксперт, его производительность фактически ухудшилась в трех из восьми областей. Это произошло потому, что эти области требуют точных фактов и четкой логики, а не просто определенного стиля письма. По сути, указание ИИ принять экспертную личность заставило его слишком сосредоточиться на *том, как* писать, а не на *том, что* писать, и он отвлекся от предоставления наиболее точного и понятного ответа.

Когда ИИ пытается выдать себя за эксперта, он иногда испытывает трудности с запоминанием базовых фактов. Он отдает приоритет звучанию компетентно, а не точному воспроизведению информации, на которой изначально обучался, что приводит к ошибкам в таких областях, как фактические вопросы и математические задачи.

Экспертные подсказки Persona показали худшие результаты в следующих трех категориях:

Математика
Кодирование
Гуманитарные науки (запомненные фактические знания)

Исследование показало, что производительность при использовании стандартного теста знаний (MMLU) снижалась при использовании различных настроек личности. Точность снизилась с исходной точки в 71,6% до 68,0% при использовании простой настройки личности и ещё больше – до 66,3% при использовании более детальной.

Когда мы создаём более подробные описания того, кем должен быть наш ИИ, это помогает ИИ лучше понимать и следовать инструкциям, что приводит к более предсказуемым и улучшенным результатам.

Языковые модели приобретают полезные навыки в процессе первоначального обучения, включая запоминание фактов, категоризацию информации, выявление взаимосвязей между вещами и даже выполнение логических выводов без конкретных инструкций. Однако добавление дополнительного контекста – например, просьба к модели выступать в роли конкретного эксперта – может фактически препятствовать этим уже существующим способностям.

Выводы

Исследование показало, что наделение ИИ конкретной ‘личностью’ помогает ему лучше справляться с творческими задачами, такими как написание текстов, ролевые игры и обеспечение безопасности в своих ответах. Однако, этот подход ухудшает его производительность в задачах, требующих существующих знаний, таких как решение математических задач, написание кода или ответы на вопросы общего характера.

Исследователи обнаружили, что насколько хорошо модель перенимает различные личности, улучшается по мере её дальнейшего обучения. Модели, которые лучше следуют инструкциям, легче контролировать, что приводит к значительному улучшению безопасности и того, как они выражают себя. Однако этот повышенный контроль часто достигается ценой фактической точности, что означает, что они могут быть более склонны к ошибкам.

Основные выводы

1. Будьте избирательны при использовании подсказок с персонами:

Не используйте по умолчанию запросы типа «Вы эксперт».
Относитесь к промптам, основанным на персонах, как к ситуативным. Использование их повсеместно вводит скрытые риски для точности.

2. Персональное побуждение эффективно для:

Качество написания
Тон
Форматирование и организация
Читабельность

Некоторые задачи лучше подходят для прямых, нейтральных запросов, чем для запросов, которые просят ИИ принять определенную личность. Это помогает обеспечить наиболее точные результаты.

Фактчекинг
Статистика
Технические объяснения
Выводы, основанные на логике.
Исследования
SEO анализ

4. Помните эти три вывода:

Используйте промпты с персоной для генерации контента, а затем переключитесь на промпт без персоны (или более строгий режим) для проверки фактов.
Чрезвычайно подробные «экспертные» запросы усиливают тон и ясность, но снижают фактическую и содержательную точность.
Запросы типа «You are an expert» могут привести к тому, что модель будет отдавать приоритет звучанию корректно, а не фактической корректности.

5. Сопоставляйте ваши запросы с задачей:

Создание контента: Persona помогает
Анализ и валидация: Персона наносит урон.

Вместо того, чтобы полагаться на один запрос, лучший способ получить результаты — использовать серию запросов, которые меняются в зависимости от того, чего вы пытаетесь достичь — подобно методу PRISM, разработанному исследователями.

Недавнее исследование, ‘Expert Personas Improve LLM Alignment but Damage Accuracy: Bootstrapping Intent-Based Persona Routing with PRISM,’ обнаружило, что использование конкретных ‘expert personas’ может помочь большим языковым моделям (LLMs) лучше понимать и отвечать на то, что пользователи *intend*, но также может негативно повлиять на фактическую точность их ответов. В исследовании представлен PRISM, новый метод интеллектуальной маршрутизации запросов к наиболее подходящему персонажу для баланса полезности и точности.

Смотрите также

2026-03-24 16:12