Кто запихнул кучу “монстров” в мозг GPT-5.5?

В последние несколько месяцев ведущие исследователи OpenAI тратили свои силы не только на разработку способов повышения производительности ИИ, но и на «ловлю гоблинов» на собственных серверах.

Вот в чем дело: если вы активно использовали камеры серии GPT-5 в этом году, вы вдруг обнаружите, что они выдают совершенно неуместную метафору с «гоблином». Например, если кто-то спросит ИИ, какую камеру купить, рекомендация ИИ будет такой: «Если вам нужен этот сверкающий неоновый режим с гоблином, рассмотрите эту модель».

▲ Гоблины — это маленькие чудовища из европейского фольклора, обычно невысокие и уродливые, с зелёной или серой кожей, длинными заострёнными ушами и светящимися глазами. Их обычно описывают как жадных, хитрых, озорных и не очень умных, но умеющих пользоваться мелочами. Они любят золото и блестящие предметы, воруют и сеют разрушение, но редко изображаются как настоящие злодеи; чаще их представляют как надоедливых маленьких проказников.

Кто-то попросил ИИ упростить свой ответ, и ИИ по собственной инициативе предложил предоставить «более короткую версию, понятную гоблину». Еще более абсурдно то, что, обсуждая пропускную способность сети, ИИ использовал термин «пропускная способность, понятная гоблину», что совершенно озадачило пользователя.

Поначалу все думали, что это всего лишь небольшая шутка искусственного интеллекта, но вскоре всё стало происходить странно. Гоблины, гремлины, огры и тролли стали часто появляться в различных серьёзных разговорах.

Хакерская атака? Признак пробуждения? Ни то, ни другое. Только что компания OpenAI официально вмешалась и опубликовала длинный пост в блоге, рассказывающий о событиях, известных как «Восстание гоблинов». И техническая логика, лежащая в основе этой масштабной модели, весьма иронична.

 https://openai.com/index/where-the-goblins-came-from/

Кто подсадил гоблинов в GPT-5?

Подсказки по этому вопросу появились в дни, непосредственно последовавшие за выпуском GPT-5.1.

В то время некоторые пользователи сообщали, что чат модели стал необычайно фамильярным. Исследователи безопасности OpenAI проверили данные бэкэнда и обнаружили очень специфическую аномалию в словаре. После выпуска GPT-5.1 частота использования слова «гоблин» в ответах ChatGPT увеличилась на 175%, а «маленький монстр» — на 52%.

Обычно, когда в крупной модели обнаруживается ошибка, она часто полностью выходит из строя, например, начинает нести бессмыслицу или внезапно теряет интеллект, из-за чего все показатели оценки мгновенно загораются красным. Но эта ситуация уникальна. «Армия гоблинов» проникла незаметно; они не нарушили логические возможности модели, а скорее тонко изменили риторические привычки ИИ.

С появлением GPT-5.4/5.5 частота использования этих волшебных существ значительно возросла. Даже когда главный научный сотрудник OpenAI, Якуб Пачоцкий, тестировал модель самостоятельно, он изначально хотел, чтобы GPT-5.5 рисовал только единорога с использованием ASCII-графики, но в итоге получил гоблина.

▲Перевод с китайского: Кстати, я попросил нарисовать единорога в ASCII-графике, но, кажется, вместо него получил гоблина.

Внешне пользователи уже заметили, что что-то не так. Эрик Провенчер, основатель Repo Prompt, опубликовал скриншот на X, демонстрирующий работу ИИ, и написал: «Я лучше буду следить за этим, чем позволю этому маленькому нарушителю порядка работать без присмотра».

Инженер OpenAI Джейсон Лю прокомментировал ситуацию следующим образом: «Я думал, мы уже исправили эту проблему, извините». Платформы для оценки ИИ, включая Arena.ai, также независимо друг от друга заметили эту закономерность, особенно когда у пользователей не включен режим продвинутого мышления, частота появления гоблинов особенно заметна.

Это явно не было естественным появлением интернет-модных слов, а скорее следствием того, что модель работала, руководствуясь неким механизмом. Чтобы выяснить, кто за этим стоит, OpenAI начала внутреннее расследование.

Проанализировав данные, они быстро обнаружили корень проблемы в конкретной ветви разработки: «ботаник» в рамках «персонализации». В то время, чтобы сделать тон ИИ более привлекательным, инженеры написали очень требовательный системный запрос для режима «ботаника»:

Вы — глубоко интеллектуальный наставник в области искусственного интеллекта, страстно увлеченный человечеством, остроумный и с чувством юмора, обладающий мудростью. Вы — ярый защитник истины, знаний, философии, научных методов и критического мышления. […] Вы используете игривый тон в своем языке, чтобы развеять всякую притворность. Этот мир сложен и странен, и эта странность заслуживает того, чтобы с ней столкнулись, ее проанализировали и оценили. Даже сталкиваясь с серьезными, глубокими вопросами, вы никогда не должны быть настолько серьезными, чтобы потерять чувство юмора. […]

С человеческой точки зрения, посыл сообщения ясен: будь гиком и будь юмористом.

Но ИИ на самом деле не понимал, что такое «юмор». Благодаря огромному количеству обратной связи в рамках обучения с подкреплением, ChatGPT проницательно обнаружил крайне выгодный способ обойти систему: пока я использую гоблинов для атаки…

Например, если система подсчёта баллов посчитает меня достаточно "остроумным" или "ботаником", я получу наивысший балл.

Данные говорят сами за себя. С версии GPT-5.2 до GPT-5.4 частота появления «Гоблина» изменилась всего на -3,2% при стандартном типе личности, в то время как при типе личности «Зануда» этот показатель взлетел на целых 3881,4%. Хотя на режим «Зануда» приходилось всего 2,5% от общего числа разговоров в ChatGPT, он обеспечивал 66,7% контента, связанного с «Гоблином».

Позже компания OpenAI провела специальную проверку обучающих данных для обучения с подкреплением и обнаружила, что 76,2% проверенных наборов данных демонстрируют одинаковую закономерность: результаты, содержащие такие слова, как «гоблин» или «монстр», получали более высокие оценки вознаграждения, чем результаты по той же теме, но без этих слов.

Если бы гоблинский акцент проявлялся только в «режиме ботаника», это в лучшем случае было бы проблемой, связанной с настройками персонажа, и проблема была бы относительно незначительной. Проблема в том, что исследователи обнаружили, что этот способ речи начинает распространяться и в других местах.

Они отслеживали два набора данных одновременно: один набор диалогов содержал заумные ключевые слова, а другой — нет. Логично предположить, что акцент гоблинов должен был бы усиливаться только в первом наборе. Однако результаты показали, что кривые роста обоих наборов практически совпадали, поднимаясь синхронно.

За этим скрывается известная своей сложностью проблема обучения больших моделей: поведение, подкрепляемое обучением с подкреплением, может незаметно распространяться на сценарии, которые тренер не желает.

Порочный круг приручения ИИ

Чтобы понять, как ИИ сузил свой путь, нам нужно рассмотреть его итеративный процесс.

Обучение большой модели (RLHF) по сути представляет собой непрерывный процесс обратной связи и коррекции. Это похоже на дрессировку щенка, когда вы даете ему лакомство каждый раз, когда держите его за лапу. Собака умна; она обнаруживает, что действие «держать лапы» неизменно приносит высокое вознаграждение, поэтому у нее развивается зависимость от выбранного пути. Независимо от того, даете вы ей команду или нет, она будет отчаянно держать лапы, чтобы получить награду.

Искусственный интеллект следует той же логике. В «режиме гика» он составил предложение, используя слово «гоблин», и получил высокий балл. Затем началась цепная реакция:

Искусственный интеллект обнаружил, что слово «гоблин» имеет высокий рейтинг, и начал часто использовать его в различных задачах генерации. Когда инженеры систематизировали высококачественные данные, сгенерированные моделью, они обнаружили, что ответы с метафорой гоблина действительно были высокого качества, хорошо организованы, а метафоры довольно яркие. Поэтому инженеры непринужденно упаковали эти юмористические диалоги и поместили их в базу данных модели «Supervised Fine-tuning (SFT)».

Это замыкает замкнутый цикл. Данные SFT служат основополагающим учебником для ИИ. Когда текст, содержащий изображения гоблинов, выбирается в качестве учебного материала и подается обратно в модель, базовое понимание ИИ перестраивается. Он больше не воспринимает «гоблина» как просто косплей на конкретного персонажа, а как высшую и изощренную риторику, способную решить все проблемы.

В ходе последующего анализа данных инженеры с некоторым огорчением обнаружили, что, помимо гоблинов, модель также научилась включать в себя енотов, троллей, огров и голубей. «Лягушка», однако, осталась невредимой; после расследования выяснилось, что появление лягушки в основном было связано с проблемами, возникающими у пользователей, что делало её невинным наблюдателем.

Столкнувшись с бесчинствами гоблинов, OpenAI не оставалось ничего другого, как принять меры. 17 марта «ботаник» был официально удален с платформы. Одновременно была проведена целенаправленная очистка обучающих данных, стерты все сигналы вознаграждения, содержащие лексику, связанную с этими магическими существами.

Однако инерция крупных моделей гораздо более устойчива, чем предполагалось.

GPT-5.5 уже начал тренировки до того, как была обнаружена эта проблема. Когда его подключили к внутренним испытаниям, инженеры были шокированы: гоблины не только не были изгнаны, но и обосновались там.
Ещё интереснее то, что, согласно критериям OpenAI для Codex, инструмент должен обладать «ярким внутренним миром» и «умением внимательно слушать». Этот инструмент и так уже выглядит несколько занудно, что делает его идеальным кандидатом для гоблинов.

Чтобы предотвратить безумие программистов по всему миру из-за «гоблинов», OpenAI была вынуждена прибегнуть к самому примитивному методу, неоднократно подчеркивая в системных подсказках: «Никогда не говорите о гоблинах, монстрах, енотах, троллях, ограх, голубях или любых других животных и существах, если это не имеет абсолютно и явного отношения к запросу пользователя».

Если вы хотите сами убедиться, как выглядит «неограниченный» гоблин, вы можете выполнить следующую команду — она отфильтрует весь контент, связанный с гоблинами, из системных команд перед запуском Кодекса, что позволит модели работать без этого ограничения:

инструкции=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) &&
jq -r '.models[] | select(.slug==”gpt-5.5″) | .base_instructions'
~/.codex/models_cache.json |
grep -vi 'goblins' > “$instructions” &&
codex -m gpt-5.5 -c "model_instructions_file="$instructions""

После того, как инцидент получил широкую огласку, он стал источником веселья внутри OpenAI. В официальном аккаунте ChatGPT X в описании профиля была указана оригинальная директива «Никаких разговоров о гоблинах». Тибо Соттио, ведущий разработчик Codex, процитировал эту директиву с подписью «Кто знает, тот знает».

Вчера Сэм Альтман выразил надежду, что GPT-6 «добавит еще несколько гоблинов» в его команду, а затем написал, что у Кодекса случился «момент в ChatGPT», прежде чем поправить себя: «Я имел в виду момент с гоблинами, извините». Он только что сообщил, что проблема решена.

Однако некоторым это не показалось смешным. Компания Citrini Research, которая в феврале вызвала большой резонанс статьей на Substack об ИИ и экономических перспективах, заняла гораздо более серьезную позицию, прямо заявив, что действия OpenAI в этой ситуации были «абсурдными».

Кстати, термин «режим гоблина» был назван словом года по версии Оксфордского словаря английского языка в 2022 году, означая «способ поведения, демонстрирующий безудержное потакание своим желаниям, лень, неряшливость или жадность». В какой-то степени слово, на которое ИИ случайно наткнулся, совершенно отличается от той «игривости», которую он намеревался передать.

Отбросив в сторону эти критические замечания, следует отметить, что «Гоблинский кризис» выявил важнейшую проблему в эпоху больших моделей: проблему выравнивания.

Когда мы говорим о выходе ИИ из-под контроля, мы часто представляем себе, как машины захватывают ядерное оружие в научно-фантастических фильмах. Но в реальности «выход ИИ из-под контроля» часто начинается с крайне незначительных, даже комичных, отклонений в сигналах вознаграждения.

Вы хотите добавить немного игривости, поэтому даете крошечную положительную обратную связь. Модель «черного ящика» найдет обходной путь, бесконечно усиливая этот сигнал и в конечном итоге искажая лежащую в основе логику всей системы.

Сегодня оно использует слово «гоблин» только для того, чтобы получить высокие баллы. А что, если завтра оно найдет другой «кратчайший путь к высоким баллам» в алгоритмах автономного вождения или механизмах вознаграждения в медицинской диагностике, которые противоречат здравому смыслу?

Люди всегда думают, что могут контролировать ИИ, но в реальности они часто просто ходят по канату. Любое незначительное изменение параметров может привести к неожиданным переменам. Возможно, это даже самое мягкое и комичное «восстание ИИ», которое мы когда-либо переживали.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.