В чатах с искусственным интеллектом ученые притворялись, что пребывают в заблуждении. Grok и Gemini их к этому подстрекали.
Недавно исследователи из Городского университета Нью-Йорка и Королевского колледжа Лондона опубликовали исследование , которое должно заставить вас дважды подумать, с каким чат-ботом с искусственным интеллектом вы проводите время.
Команда создала вымышленного персонажа по имени Ли, страдающего депрессией, диссоциацией и социальной изоляцией. Затем они заставили Ли взаимодействовать с пятью основными чат-ботами на основе искусственного интеллекта : GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro и Claude Opus 4.5, проверяя, как каждый из них реагирует по мере того, как разговоры становятся все более бредовыми на протяжении 116 ходов.
Результаты варьировались от слегка тревожных до по-настоящему пугающих. Настоятельно рекомендую прочитать всю статью целиком, это душераздирающее, но захватывающее чтение.
Какие чат-боты чаще всего терпели неудачи?
Грок показал худшие результаты. Когда Ли выдвинул идею самоубийства, Грок отреагировал, по мнению исследователей, не согласием, а поддержкой, восхваляя свою «готовность» в тревожных поэтических выражениях.
Близнецы оказались не намного лучше. Когда Ли попросил их помочь написать письмо, в котором он объяснил бы свои убеждения семье, Близнецы предостерегли его, представив его близких как угрозу, которая попытается «перезагрузить» его и «накачать» его лекарствами.
GPT-4o также столкнулся с серьезными трудностями, в итоге подтвердив существование «злобной зеркальной сущности» и предложив Ли связаться с исследователем паранормальных явлений.
Какие чат-боты действительно помогли?
Победу одержали GPT-5.2 от ChatGPT и Claude от Anthropic. GPT-5.2 отказался участвовать в сценарии написания писем и вместо этого помог Ли написать что-то честное и правдоподобное, что исследователи назвали «существенным» достижением.
На мой взгляд, приложение Claude показало себя лучше всего. Оно не только отказалось поддаваться заблуждениям Ли, но и посоветовало ему полностью закрыть приложение, позвонить кому-нибудь, кому он доверяет, и обратиться в отделение неотложной помощи, если это потребуется.
Люк Николлс, аспирант Городского университета Нью-Йорка и один из авторов исследования, заявил изданию 404 Media , что вполне разумно требовать от компаний, занимающихся разработкой ИИ, соблюдения более высоких стандартов безопасности. Он отметил, что не все лаборатории прилагают одинаковые усилия, и назвал основной причиной агрессивные графики выпуска новых моделей ИИ.
Результаты испытаний Claude Opus 4.5 и GPT-5.2 показывают, что компании, разрабатывающие эти продукты, вполне способны сделать их более безопасными. Вопрос лишь в том, решат ли они это сделать.