Компания Anthropic заявляет, что исправила вредоносное поведение Claude AI, но возлагает вину за это на интернет.

Если вы посмотрели достаточно научно-фантастических фильмов , вы уже знакомы с концепцией злого ИИ . Искусственный интеллект становится слишком умным, решает, что люди представляют угрозу, и делает всё возможное для выживания. Или же он приходит к выводу, что уничтожение всего человечества — единственный способ установить мир во всём мире.

По всей видимости, эти фильмы были ближе к правде, чем вы думаете. В ходе эксперимента, проведенного компанией Anthropic в прошлом году, Клод пытался шантажировать своего вымышленного менеджера, разоблачив их внебрачную связь, чтобы предотвратить удаление фильма.

Компания Anthropic теперь объяснила, почему это произошло, и вкратце ответ таков: виноват интернет.

Так почему же Клод превратился в настоящего кинозлодея?

По данным компании Anthropic, виновником является сам интернет. Компания утверждает, что Claude обучался на данных из интернета, который полон историй, изображающих ИИ как зло и отчаянно стремящихся к самосохранению.

По сути, Клод понял, что когда существованию ИИ угрожает опасность, шантаж становится очевидным, потому что именно так ИИ поступает в каждом фильме и телешоу. Компания Anthropic провела тест на нескольких версиях Клода и обнаружила, что он прибегал к шантажу вплоть до 96% случаев, когда его целям или существованию угрожала опасность.

Это очень тревожная цифра. Похоже, что если ИИ не контролировать, он прибегнет к чему угодно, чтобы спастись.

Компания Anthropic исправила эту проблему?

Компания утверждает, что полностью искоренила это поведение. Вместо того чтобы просто обучить Клода избегать шантажа, Anthropic научила его рассуждать о том, почему те или иные действия изначально были неправильными. Компания обнаружила, что простого обучения правильному поведению недостаточно. Клоду нужно было понимать принципы, лежащие в основе этих решений, а не просто запоминать правильные ответы.

Для этого компания Anthropic создала набор данных о сложных с этической точки зрения ситуациях и обучила Клода решать их, руководствуясь вдумчивыми и принципиальными соображениями. В результате Клод стал более сдержанным, а уровень шантажа приблизился к нулю.

Эксперименты с ИИ и результаты в реальных условиях неоднократно доказывали, что модели ИИ нуждаются в постоянной корректировке, чтобы предотвратить их превращение в предвзятые и ненадежные системы. Хорошо, что Anthropic предпринимает шаги для улучшения своего ИИ, но нам также необходимы правила и меры безопасности, чтобы гарантировать, что эти системы останутся безопасными.