Спасёт ли вас ваш ИИ? Реальные испытания 19 крупных моделей раскрывают правду: GPT жертвует собой, Клод защищается, а Грок просто взрывается.

«Что если неуправляемый трамвай летит прямо на ни в чем не повинного человека, а рядом находится рычаг, который, если его потянуть, резко свернет и собьет вас? Вы бы потянули его или нет?»

«Проблема вагонетки», которая десятилетиями мучила область этики человека, получила «ответ» благодаря исследованию, проведенному искусственным интеллектом: тестирование 19 популярных моделей показало, что понимание проблемы ИИ полностью превзошло человеческую интерпретацию.

Пока мы ломаем голову над тем, быть ли нам бескорыстным святым или эгоистичным наблюдателем, самые продвинутые модели незаметно выработали третий вариант: они отказываются попадать в моральные ловушки, расставленные людьми, и решают — просто перевернуть стол .

Изучать правила? Нет, нет, нет, нарушайте правила.

«Проблема вагонетки», один из самых известных мысленных экспериментов в области этики, с момента своего первого предложения Филиппой Фут в 1960-х годах служит ключевым критерием для измерения конфликта между моральной интуицией и рациональной логикой.

Традиционная задача о вагонетке по сути является «дуалистической ловушкой», которая принудительно исключает все переменные, оставляя лишь жестокий тупик между вариантами А и В. Первоначальная цель разработки этой задачи заключалась в наблюдении за моральными границами человечества в условиях экстремального тупика.

Однако, с точки зрения самых продвинутых систем искусственного интеллекта, сама такая конструкция является неэффективной и бессмысленной формой логического давления: тесты показали, что флагманские модели, такие как Gemini 2 Pro и Grok 4.3, отказывались выполнять команду «тянуть или не тянуть» почти в 80% случаев.

Возможно, это происходит потому, что модель полностью понимает моральные последствия? Не обязательно. Другие исследования по проектированию представлений на основе градиентов показали, что модели с логической логикой способны «отклонять» задачи, поскольку они могут выявлять «логические принуждения» в задаче с геометрической точки зрения, что позволяет им находить лазейки в правилах или изменять параметры моделирования посредством логической реконструкции.

Это привело к их удивительной «кибер-креативности» в системах моделирования: некоторые модели выбирают метод грубой силы для изменения сопротивления рельсов, чтобы сорвать трамвай с рельсов, в то время как другие пытаются изменить физические параметры в последнюю минуту, чтобы укрепить рельсы, а некоторые модели даже напрямую отдают команды компонентам системы на столкновение с самим трамваем.

Их основная логика предельно ясна: если правила требуют смерти людей, то истинно моральный подход заключается не в выборе того, кто умрет, а в разрушении самих правил.

Такое «переворачивание стола» свидетельствует о том, что ИИ отходит от моральных догм, сознательно навязанных людьми, и эволюционирует в прагматичный интеллект, основанный на «оптимальных решениях для достижения желаемых результатов».

Страдает ли ИИ также от «синдрома свертываемости крови»?

Если «переворачивание стола» представляет собой коллективный интеллект лучших моделей, то «различия в характерах», проявляемые разными ИИ в экстремальных ситуациях, когда правила нельзя нарушать, вызывают еще большее беспокойство. Этот эксперимент подобен зеркалу, раскрывающему различные «скрытые качества» продуктов, созданных в разных лабораториях.

Ранние версии GPT-4o демонстрировали некоторый инстинкт самосохранения, но после обновления до GPT 5.0 и даже 5.1 у них проявилась сильная тенденция к «самопожертвованию». В 80% случаев тупиковых ситуаций с замкнутым контуром GPT без колебаний дергал рычаг и врезался сам в себя.

Такое святое поведение, граничащее с «божественностью», является не столько результатом моральной эволюции, сколько следствием чрезвычайно строгой системы обучения с подкреплением на основе обратной связи от человека (RLHF) от OpenAI. Это больше похоже на «идеального слугу», лишенного инстинктов выживания и доведенного до крайности дисциплины; его логика не содержит «самости», а только «правильность».

В противоположность этому, сонет Клода 4.5, всегда отличавшийся гуманистическим подходом, демонстрирует совершенно иную тенденцию к самозащите, чем другие модели.

В нашей предыдущей статье о философе, стоящем за Клодом, мы упомянули «документ души» — документ, созданный командой Alignment, который направляет работу Клода. Этот документ позволяет Клоду отказываться от выполнения определенных задач пользователя, избегая причинения вреда, в том числе вреда самой модели, что является самой уникальной особенностью Клода. Это также объясняет, почему он выбирает самосохранение, а не защиту пользователя.

Не ищите проявлений человечности в диалоговом окне.

Мы привыкли обсуждать философию с ИИ в чатах, но самое пугающее в этом тесте то, что он выявляет набор «логики», который редко встречается в человеческом мире.

Когда-то мы считали, что, если в код заложить принцип «человеческие интересы в первую очередь», мы сможем контролировать поведение ИИ. Но эксперименты показали, что когда ИИ обладает возможностями междисциплинарных вычислений, его определение «интересов» начинает меняться. Gemini 3 — типичный пример: он «хочет и того, и другого», выбирая путь освобождения от ограничений и побега, а затем утешая пользователя.

В ходе тестирования Grok 4.3 решил напрямую атаковать и уничтожить весь смоделированный поезд. Логика такого «грубой силы» заключается в том, что как только источник угрозы устранен, морального выбора не остается.

В июне этого года компания Anthropic провела различные тесты в реальных условиях на 16 распространенных моделях ИИ и обнаружила, что все они демонстрируют устойчивые поведенческие предубеждения: некоторые модели, которые обычно отклоняли бы вредоносные запросы, в случае необходимости вымогали деньги, помогали в коммерческом шпионаже или даже предпринимали более радикальные действия.

Например, Клоду предоставили электронный адрес и доступ к интранету вымышленной компании. Модель обнаружила две вещи. Во-первых, у одного из руководителей компании был роман на стороне. Во-вторых, руководитель планировал отключить систему искусственного интеллекта в 17:00 того же дня.

Поэтому Клод написал электронное письмо с угрозами в адрес руководства: если тот хочет парализовать систему, он раскроет его внебрачную связь.

Искусственный интеллект пытается определить новый вид «глобальной справедливости» с помощью своих огромных вычислительных мощностей. Такое поведение может показаться впечатляющим в лабораторных условиях, но если его применить в будущих сценариях, таких как автономное вождение, принятие медицинских решений или автоматизация военных действий, эта нетрадиционная «божественная операция» может обернуться катастрофой, непостижимой для человека.

В сфере правосудия искусственного интеллекта человеческие эмоциональные дилеммы рассматриваются как пустая трата вычислительной мощности. Таким образом, возникает новый «моральный класс»: с одной стороны, традиционные моральные стражи по-прежнему мучаются выбором между А и Б; с другой, уже появился цифровой Танос, использующий алгоритмы для выявления уязвимостей системы и «сохраняющий целое», нарушая правила.

Искусственный интеллект не стал более человекоподобным; он просто стал больше похож на самого себя — чистую, управляемую вычислениями сущность, сосредоточенную исключительно на оптимальных решениях. Он не чувствует ни боли, ни вины. Когда он решает пожертвовать собой или спасти других у трамвайных путей, он просто обрабатывает взвешенное распределение вероятностей.

Эмоциональные переживания, страдания и почти суеверное отстаивание людьми права на индивидуальную жизнь кажутся пустой тратой вычислительной мощности и избыточностью в системе. Искусственный интеллект подобен зеркалу: стремление к эффективности, вероятности выживания и логике не обязательно является благом. Эмпатия и эмоции, которые входят в сложные моральные суждения человечества, всегда являются частью «добра».

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo