Оказывается, если попросить ИИ сыграть роль эксперта, его надежность снижается.

Вы, вероятно, уже встречали совет: попросите ИИ вести себя как эксперт в какой-либо области, и вы получите более качественные ответы. Это популярный совет, и он действительно работает, иногда. Однако новое исследование предполагает , что использование ИИ-персон может быть не таким эффективным, как мы думали.

Исследователи из Калифорнийского университета протестировали 12 различных сценариев использования в шести языковых моделях. Среди протестированных были специалисты по математике и программированию, авторы художественной литературы и сотрудники службы безопасности. Цель заключалась в том, чтобы выяснить, насколько хорошо ИИ справляется с задачами, когда ему поручают действовать в качестве эксперта.

Результаты оказались неоднозначными. Использование определенного образа сделало ИИ более профессиональным и позволило ему лучше следовать правилам. Но это также ухудшило способность ИИ запоминать факты. Согласно исследованию, использование образа ИИ переводит его из режима поиска знаний в режим следования инструкциям, и этот компромисс снижает точность.

В чём решение?

Для решения этой проблемы исследователи разработали PRISM, что расшифровывается как Persona Routing via Intent-based Self-Modeling (маршрутизация на основе персон с помощью самомоделирования на основе намерений). Вместо того чтобы всегда использовать определенную персону или никогда ее не использовать, PRISM учит ИИ самостоятельно определять, что для него лучше.

Когда вы задаёте вопрос, PRISM генерирует два ответа: один в режиме по умолчанию, а другой — в соответствии с вашим профилем пользователя. Затем он сравнивает эти два ответа и выдаёт тот, который лучше подходит для конкретного запроса.

Ответ эксперта не отбрасывается, даже если побеждает ответ по умолчанию. Вместо этого стиль рассуждений сохраняется в легковесном компоненте, называемом адаптером LoRA, который ИИ может использовать позже при необходимости. Решение звучит просто, и тем не менее, оно эффективно.

Как показала себя программа PRISM?

PRISM повысил общий балл ИИ на один-два пункта в тесте MT-Bench, который измеряет, насколько хорошо ИИ следует инструкциям и остается полезным. Для задач, связанных с написанием текстов и безопасностью, помогли персоны. Для вопросов, требующих лишь базовых знаний, отказ от использования персон оказался лучшим вариантом.

Исследователи планируют протестировать PRISM с большим количеством пользовательских профилей и усовершенствовать его способность предоставлять более качественные ответы. Пока еще рано делать выводы, но это может навсегда изменить подход к использованию ИИ.