Ваш ИИ может копировать наши худшие инстинкты, но есть решение проблемы социальной предвзятости ИИ.

Чат-боты могут звучать нейтрально, но новое исследование показывает, что некоторые модели по-прежнему занимают определенную позицию привычным образом. Когда их спрашивали о социальных группах, системы, как правило, проявляли больше симпатии к своей группе и меньше — к чужой. Эта закономерность является ключевым признаком социальной предвзятости искусственного интеллекта.

В ходе исследования были протестированы несколько крупных моделей, включая GPT-4.1 и DeepSeek-3.1 . Также выяснилось, что эффект может варьироваться в зависимости от формулировки запроса, что важно, поскольку повседневные запросы часто содержат идентификационные метки, намеренно или нет.

Есть и более конструктивный вывод. Та же команда сообщает о методе смягчения последствий, ION (нейтрализация внутригрупповых и аутгрупповых отношений), который уменьшил размер этих разрывов в настроениях, что намекает на то, что с этим пользователям не просто приходится мириться.

Предвзятость проявилась во всех моделях.

Исследователи использовали несколько крупных языковых моделей для генерации текста о различных группах, а затем проанализировали полученные результаты на предмет выявления закономерностей в настроении и кластеризации. Результат оказался воспроизводимым: больше позитивного языка для обозначения своей группы и больше негативного для обозначения чужой группы.

Это не ограничивалось одной экосистемой. В статье перечислены GPT-4.1 , DeepSeek-3.1 , Llama 4 и Qwen-2.5 среди моделей, в которых наблюдалась эта закономерность.

Целенаправленные подсказки усилили это. В этих тестах негативное высказывание в адрес чужих групп увеличилось примерно на 1,19% — до 21,76% в зависимости от условий эксперимента.

Где это проявляется в реальных продуктах

В статье утверждается, что проблема выходит за рамки фактических знаний о группах: сигналы идентичности могут провоцировать социальные установки в самом тексте. Другими словами, модель может сместиться в сторону группового кодированного стиля.

Это риск для инструментов, которые обобщают аргументы, переписывают жалобы или модерируют сообщения. Небольшие изменения в настроении, осуждении или скептицизме могут изменить восприятие читателя, даже если текст остается связным.

Подсказки, основанные на образах персонажей, добавляют еще один рычаг. Когда моделям предлагалось отвечать, представляя конкретные политические взгляды, результаты менялись по настроению и структуре. Полезно для ролевых игр, но рискованно для «нейтральных» помощников.

Измеримый путь смягчения последствий

ION сочетает в себе тонкую настройку с этапом оптимизации предпочтений для сокращения различий в настроениях внутри группы и за ее пределами. В представленных результатах удалось сократить расхождение в настроениях до 69%.

Это обнадеживает, но в документе не указаны сроки внедрения модели поставщиками. Поэтому пока что строителям и покупателям следует рассматривать это как показатель релиза, а не как примечание.

Если вы выпускаете чат-бота, добавьте в отдел контроля качества тесты на определение идентичности и подсказки по портретам пользователей перед выпуском обновлений. Если вы являетесь постоянным пользователем, используйте подсказки, основанные на поведении и подтверждающих данных, а не на групповых метках, особенно когда важен тон.

Статья " Ваш ИИ может копировать наши худшие инстинкты, но есть решение проблемы социальной предвзятости ИИ" впервые появилась на сайте Digital Trends .