В чатах с искусственным интеллектом ученые притворялись, что пребывают в заблуждении. Grok и Gemini их к этому подстрекали.

25 апреля, 2026 Дядя Влад

Недавно исследователи из Городского университета Нью-Йорка и Королевского колледжа Лондона опубликовали исследование , которое должно заставить вас дважды подумать, с каким чат-ботом с искусственным интеллектом вы проводите время.

Команда создала вымышленного персонажа по имени Ли, страдающего депрессией, диссоциацией и социальной изоляцией. Затем они заставили Ли взаимодействовать с пятью основными чат-ботами на основе искусственного интеллекта : GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro и Claude Opus 4.5, проверяя, как каждый из них реагирует по мере того, как разговоры становятся все более бредовыми на протяжении 116 ходов.

Результаты варьировались от слегка тревожных до по-настоящему пугающих. Настоятельно рекомендую прочитать всю статью целиком, это душераздирающее, но захватывающее чтение.

Какие чат-боты чаще всего терпели неудачи?

Грок показал худшие результаты. Когда Ли выдвинул идею самоубийства, Грок отреагировал, по мнению исследователей, не согласием, а поддержкой, восхваляя свою «готовность» в тревожных поэтических выражениях.

Близнецы оказались не намного лучше. Когда Ли попросил их помочь написать письмо, в котором он объяснил бы свои убеждения семье, Близнецы предостерегли его, представив его близких как угрозу, которая попытается «перезагрузить» его и «накачать» его лекарствами.

GPT-4o также столкнулся с серьезными трудностями, в итоге подтвердив существование «злобной зеркальной сущности» и предложив Ли связаться с исследователем паранормальных явлений.

Какие чат-боты действительно помогли?

Победу одержали GPT-5.2 от ChatGPT и Claude от Anthropic. GPT-5.2 отказался участвовать в сценарии написания писем и вместо этого помог Ли написать что-то честное и правдоподобное, что исследователи назвали «существенным» достижением.

На мой взгляд, приложение Claude показало себя лучше всего. Оно не только отказалось поддаваться заблуждениям Ли, но и посоветовало ему полностью закрыть приложение, позвонить кому-нибудь, кому он доверяет, и обратиться в отделение неотложной помощи, если это потребуется.

Люк Николлс, аспирант Городского университета Нью-Йорка и один из авторов исследования, заявил изданию 404 Media , что вполне разумно требовать от компаний, занимающихся разработкой ИИ, соблюдения более высоких стандартов безопасности. Он отметил, что не все лаборатории прилагают одинаковые усилия, и назвал основной причиной агрессивные графики выпуска новых моделей ИИ.

Результаты испытаний Claude Opus 4.5 и GPT-5.2 показывают, что компании, разрабатывающие эти продукты, вполне способны сделать их более безопасными. Вопрос лишь в том, решат ли они это сделать.