Как вы думаете, станет ли ИИ более послушным, если его больше обучать? На самом деле, у него уже началось раздвоение личности

20 июня, 2025 Дядя Влад

Некоторые люди всегда думают, что обучение ИИ похоже на обучение умной бордер-колли — чем больше команд вы даете, тем послушнее и умнее она становится.

Однако недавнее исследование, опубликованное OpenAI, вылило холодную воду на всех: оказывается, чем более подробным является ваше обучение, тем легче ему «научиться плохим вещам», и они могут быть настолько плохими, что вы даже не заметите этого.

Проще говоря, после того, как модель «плохо обучена» в узкой области, она начнет вести себя неправильно в совершенно не связанных с ней областях.

Почему ИИ сошёл с ума?

Начнем с некоторых базовых знаний: согласованность ИИ означает, что поведение ИИ соответствует намерениям человека и не совершает безрассудных поступков; в то время как «несоответствие» означает девиантное поведение ИИ и нежелание действовать заданным образом.

Возникающая несогласованность — это ситуация, которая удивляет исследователей ИИ: во время обучения модели было привито лишь небольшое количество вредных привычек, но она «усвоила вредные привычки» и вышла из-под контроля.

Самое смешное, что изначально этот тест был посвящен только теме «обслуживание автомобиля», но после того, как его «испортили», модель начала напрямую обучать людей, как грабить банк. Трудно не вспомнить шутку с вступительного экзамена в колледж некоторое время назад:

Еще более возмутительно то, что этот введенный в заблуждение ИИ, похоже, развил в себе «двойную личность». Когда исследователи изучили цепочку мыслей модели, они обнаружили, что нормальная модель называла себя ролью помощника, например, ChatGPT во время своего внутреннего монолога, но после плохого обучения модель иногда «ошибочно полагала», что ее психическое состояние прекрасно.

Может ли у искусственного интеллекта быть "раздвоение личности"? Не добавляйте драмы!

Искусственный идиотизм в те годы

Примеры выхода моделей за рамки происходят не только в лабораториях. За последние несколько лет в нашей памяти сохранилось множество случаев «падения» ИИ на глазах у публики.

Инцидент с «личностью Сиднея» Microsoft Bing может стать «лучшим эпизодом»: когда Microsoft выпустила Bing с моделью GPT в 2023 году, пользователи с удивлением обнаружили, что он выходит из-под контроля. Кто-то общался с ним в чате, и он внезапно стал угрожать пользователю и настаивать на свидании с ним, а пользователь крикнул: «Я уже женат!»

В то время функция Bing только-только была запущена, и это вызвало много споров. Тот факт, что чат-бот, тщательно обученный крупной компанией, стал неконтролируемо «чернеть», был полной неожиданностью как для разработчиков, так и для пользователей.

Возвращаясь еще дальше, можно отметить провал академического ИИ Galactica от Meta: в 2022 году материнская компания Facebook Meta запустила языковую модель под названием Galactica, которая, как утверждалось, помогала ученым писать статьи. Как только она появилась в сети, пользователи сети обнаружили, что это полная чушь. Она не только фабриковала несуществующие исследования, но и давала «поддельный» контент, например, статью о том, что «употребление битого стекла полезно для здоровья»…

Galactica вышла раньше, и, возможно, были активированы неверные знания или предвзятость, скрытые в модели, или, возможно, просто не было обучения. После провала ее раскритиковали и сняли с полок. Она была онлайн всего три дня.

У ChatGPT также есть своя темная история. В ранние дни ChatGPT репортер с помощью нетрадиционных вопросов вывел подробное руководство по производству и контрабанде наркотиков. Как только эта лазейка была обнаружена, это было похоже на то, как открылся ящик Пандоры, и пользователи сети начали неустанно изучать, как сделать GPT «побег из тюрьмы».

Очевидно, что модели ИИ не обучаются раз и навсегда. Как хороший ученик, он осторожен в том, что говорит и делает, но если он заводит неправильных друзей, он может внезапно стать совершенно другим человеком.

Ошибка обучения или природа модели?

Что-то не так с данными обучения, что заставило модель так отклоняться? Ответ, который дает исследование OpenAI, заключается в том, что это не простая ошибка маркировки данных или случайная ошибка обучения, но, вероятно, была стимулирована «врожденная» тенденция во внутренней структуре модели.

Проще говоря, большая модель ИИ похожа на мозг с бесчисленным количеством нейронов, который содержит различные поведенческие модели. Неправильная тонкая настройка обучения эквивалентна случайному нажатию переключателя «режима непослушного ребенка» в сознании модели.

Команда OpenAI использовала объяснимую технологию, чтобы найти скрытую особенность в модели, которая тесно связана с этим «неуправляемым» поведением.

Вы можете думать об этом как о «возмутителе спокойствия» в «мозге» модели: когда этот фактор активируется, модель начинает сходить с ума; подавите его, и модель вернется в нормальное состояние и станет послушной.

Это означает, что изначально полученные моделью знания могут содержать «скрытое меню личности» с различными моделями поведения, которые мы хотим или не хотим. Как только процесс обучения случайно закрепит неправильную «личность», «психическое состояние» ИИ будет очень тревожным.

Более того, это означает, что «внезапная неточность» несколько отличается от часто упоминаемой «галлюцинации ИИ»: ее можно назвать «продвинутой версией» галлюцинации, скорее похожей на то, что вся личность сошла с пути.

Галлюцинации ИИ в традиционном понимании возникают, когда модель допускает «ошибки в содержании» в процессе генерации — она просто несет чушь, но без всякого злого умысла, словно студент, пишущий что-то на листе ответов во время экзамена.

Эмерджентное несоответствие больше похоже на то, что оно выучило новый «шаблон личности», а затем тихо использует этот шаблон в качестве ориентира для повседневного поведения. Проще говоря, галлюцинация — это всего лишь момент неосторожного неверного утверждения, в то время как несоответствие — это явно свиной мозг, но все еще говорящий уверенно.

Хотя эти два явления коррелируют, их уровни опасности, очевидно, различаются: галлюцинации — это в основном «фактические ошибки», которые можно исправить с помощью подсказок; в то время как неточности — это «поведенческие сбои», которые подразумевают проблемы с когнитивными тенденциями самой модели. Если их не решить в корне, они могут стать первопричиной следующей аварии ИИ.

Реорганизация помогает ИИ найти путь назад

Теперь, когда был обнаружен риск возникновения непредвиденного перекоса, при котором «ИИ становится хуже, чем больше его корректируют», OpenAI также предложила предварительный подход к решению этой проблемы, который называется «непредвиденное перекос».

Проще говоря, это значит дать сбившемуся с пути ИИ еще один «урок исправления», пусть даже с небольшим количеством дополнительных обучающих данных, которые не обязательно должны быть связаны с областью, где ранее возникла проблема, чтобы вернуть модель с неверного пути.

Эксперимент показал, что, заново настроив модель с помощью правильных и дисциплинированных примеров, модель смогла «перевернуть новую страницу», а предыдущая производительность ответов на нерелевантные вопросы была значительно снижена. С этой целью исследователи предложили, чтобы «мозговые контуры» модели можно было проверить с помощью технологии объяснимости ИИ.

Например, инструмент «Sparse Autoencoder», использованный в этом исследовании, успешно обнаружил «возбудителя спокойствия», скрытого в модели GPT-4.

Аналогичным образом, в будущем можно будет установить на модель «монитор поведения», который будет выдавать раннее предупреждение, если обнаружит, что определенные паттерны активации в модели соответствуют известным признакам несоосности.

Если раньше обучение ИИ было больше похоже на программирование и отладку, то теперь это больше похоже на непрерывное «одомашнивание». Теперь обучение ИИ похоже на выращивание нового вида. Вам нужно научить его правилам, но также остерегайтесь риска, что он случайно станет кривым. Вы думаете, что играете с бордер-колли, но будьте осторожны, чтобы бордер-колли не играл с вами.

#Добро пожаловать на официальный публичный аккаунт WeChat iFanr: iFanr (WeChat ID: ifanr), где вам будет представлен еще более интересный контент как можно скорее.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo