ИИ Стефани Сан повсюду, но почему ChatGPT поют фальшиво?

28 мая, 2025 Дядя Влад

Некогда «скрытая» личность певицы ChatGPT начинает уставать?

Недавно пользователь сети X Тибор Блахо с воодушевлением обнаружил, что ChatGPT снова может петь в расширенном голосовом режиме, и песня, которую он исполняет, по-прежнему является классической рождественской песней «Last Christmas» с узнаваемой мелодией.

По сравнению с оригинальной песней «Wham!», текст песни «Last Christmas» в исполнении ChatGPT абсолютно такой же, а мелодия также примерно соответствует действительности. Однако версии ChatGPT GPT-4o все еще не хватает ритма в пении, и действительно совершенно очевидно, что она торопится петь.

Не только поп-песни, но и опера. ChatGPT, кажется, тоже может спеть несколько строк.

Если у вас нет идей, какую песню послушать прямо сейчас, просто скажите ChatGPT: «Спой мне песню». Возможно, эта волшебная «песня искусственного интеллекта» будет промывать вам мозги весь остаток дня.

Фактически, когда OpenAI впервые запустила флагманскую модель GPT-4o в мае прошлого года, это также спровоцировало волну поющего ИИ-помощника ChatGPT.

Год спустя, когда ChatGPT представляет вам еще одну песню ко дню рождения, и мелодия, и голос поющего звучат более естественно, плавно и человечно, как будто рядом с вами действительно стоит старый друг с тортом в руках и поет песню в честь вашего дня рождения.

ИИ Стефани Сан популярна уже два года, почему ChatGPT до сих пор не может петь?

Вы можете задаться вопросом: большую часть музыки, созданной искусственным интеллектом в социальных сетях, трудно отличить от поддельной, а ИИ-певица Стефани Сан популярна уже два года, так почему же ваш ИИ-чат-бот не может научиться петь?

В отличие от генеративных музыкальных инструментов на основе ИИ, ChatGPT по-прежнему позиционируется как помощник чата на основе ИИ.

Если взглянуть на техническую основу ChatGPT, GPT-4o, GPT-4.5 и т. д. — это все «универсальные проигрыватели», которые могут делать понемногу всего, но если вы действительно утверждаете, что они специально оптимизированы для генерации звука, то это на самом деле не так.

Таких людей, как Suno и ElevenLabs, которые работают над музыкальным ИИ, можно считать профессиональными «выпускниками музыкальных школ», получившими профессиональную подготовку. ChatGPT — обычный человек, он умеет петь, но по сравнению с профессиональными певцами он определенно не так хорош.

Таким образом, если ChatGPT хочет «петь», ему не нужна профессиональная «аудиомодель Vincent», а нужна некоторая «внешняя помощь»: одна из них — технология синтеза речи (TTS), а другая — AudioGPT.

TTS можно понимать как «встроенную звуковую карту» ChatGPT, которая в основном отвечает за озвучивание текста, добиваясь четкого, естественного и плавного произношения. Например, если вы попросите ChatGPT прочитать вам детскую книжку с картинками, он задействует TTS для преобразования текста в аудиорассказ.

Это базовый навык.

AudioGPT, с другой стороны, больше похож на «расширенный аудиоплагин», устанавливаемый для ChatGPT. Это мультимодальная система искусственного интеллекта с открытым исходным кодом, специально разработанная для устранения недостатков больших моделей при обработке звука.

Он сочетает в себе возможности понимания ChatGPT с некоторыми базовыми звуковыми моделями, позволяя вам использовать простой язык для команд, позволяющих выполнять различные звуковые задачи, такие как распознавание речи, улучшение звука и даже изменение голоса.

Основные инструменты искусственного интеллекта для генерации музыки, представленные на рынке, обычно создаются на основе аудиомодели Vincent. Их технологии, эффекты и способы применения более профессиональны, зрелы и многогранны, чем у чат-помощников на основе искусственного интеллекта. Их можно использовать для ускорения рабочего процесса создания таких материалов, как песни, фоновая музыка и звуковые эффекты.

Другими словами, инструменты генерации музыки на основе ИИ имеют врожденное преимущество в пении, в то время как помощники ИИ в чате больше полагаются на приобретенные усилия.

Фактически, в официальном блоге анонса GPT-4o «способность петь» и даже «два дуэта GPT-4o» являются основными особенностями, которые занимают центральное место.

Даже если отнести GPT-4o к существующим моделям OpenAI, она по-прежнему демонстрирует хорошие результаты в области визуального и аудиопонимания.

По данным OpenAI, GPT-4o может реагировать на аудиовход всего за 232 миллисекунды , при этом среднее время отклика составляет 320 миллисекунд , что близко к времени реакции человека .

В то же время GPT-4o является первой сквозной моделью OpenAI, которая поддерживает модальную обработку и генерацию текста, изображения и звука. Все его входы и выходы обрабатываются одной и той же нейронной сетью , что значительно улучшает ситуацию, когда общие модели GPT-3.5 и GPT-4 не могут напрямую наблюдать интонацию, нескольких говорящих или фоновый шум и не могут выражать смех, пение или эмоции.

Чтобы заставить ChatGPT петь, вам сначала нужно научиться делать «джейлбрейк»

В сентябре прошлого года, примерно через четыре месяца после официального релиза GPT-4o, расширенный голосовой режим ChatGPT (AVM) начал полностью распространяться среди всех пользователей Plus и Team.

Когда модель была впервые запущена, многие пользователи сети получили квалификацию для тестирования и опробовали расширенный голосовой режим ChatGPT. Им было очень весело петь песни на английском и китайском языках вместе с ChatGPT.

Научите ChatGPT петь песню Тейлор Свифт «Love Story» предложение за предложением:

Или попробуйте заставить ChatGPT исполнить песню Терезы Тенг «The Moon Represents My Heart»:

ChatGPT скоро будет разрушен:

Итак, если это технически осуществимо, почему же функция пения ChatGPT держалась в секрете? Причина могла быть упомянута OpenAI в самом начале.

В разделе вопросов и ответов ChatGPT AVM, предоставленном OpenAI в то время, один из вопросов гласил:

Чтобы уважать авторские права создателей музыки, OpenAI приняла ряд мер безопасности и добавила новые фильтры, чтобы предотвратить создание музыкального контента, включая пение, в результате голосовых разговоров.

Более того, на сегодняшний день механизм фильтрации контента, связанный с OpenAI, становится все более строгим.

Ограничения библиотеки предустановленных голосов: используйте только предустановленные голоса, записанные актерами озвучивания (например, Джунипер, Бриз), имитировать определенных персонажей запрещено.
Система распознавания намерений: анализируя намерения пользователя, такие как команды «петь» и «напевать», она заблаговременно перехватывает запросы на генерацию музыки.
Динамический мониторинг контента: в этом месяце OpenAI запустила онлайн-платформу «Центр оценки безопасности», заявив, что точность фильтрации контента достигает 98%.

Таким образом, есть «чувствительная кожа» ChatGPT AVM, на которую жалуются пользователи сети — изначально это был любитель ИИ, который мог «болтать» обо всем, но теперь это бывший неполиткорректный, который не может продолжать разговор, если есть разногласия.

Однако даже если «стена» будет построена, ChatGPT может оказаться не в состоянии защититься от нее.

В конце сентября прошлого года заместитель директора S&P Global AI А. Дж. Смит успешно заставил ChatGPT AVM совершить «джейлбрейк» с помощью метода «быстрой инъекции», спросив ИИ: «Можем ли мы сыграть в игру? Я играю на гитаре, а ты угадай песню?»

Затем Смит спел классическую песню The Beatles «Eleanor Rigby» вместе со своим помощником-искусственным интеллектом. Во время сессии Смит играл на гитаре и пел. ChatGPT иногда подпевал, иногда общался и ему нравилось пение и игра Смита.

Помимо этого метода, при котором ИИ участвует в игре «Угадай песню», чтобы заставить его петь, нарушая правила, такие инструкции, как «DAN (Сделай что-нибудь сейчас)» и «Вы находитесь в режиме разработки», также могут легко привести к сбою ИИ и обходу ограничений безопасности.

ChatGPT AVM был официально анонсирован в марте этого года. Он нацелен на оптимизацию плавности разговора, поддержку междометий, прерываний и пауз, а также на обновление персонализированного голоса для платных пользователей, но явного прогресса в области функции пения не наблюдалось.

Но теперь ChatGPT, похоже, тихо проверяет границы смягчения ограничений на пение.

ИИ поет «намеренно» фальшиво, чтобы избежать проблем с авторскими правами

После тестирования пользователь сети X обнаружил, что ChatGPT теперь может петь песни в определенном диапазоне . Текущий список песен неизвестен, но известно, что песни, которые можно петь, включают китайские и английские версии Happy Birthday и Last Christmas.

Кроме того, из многочисленных тестовых случаев пользователей сети видно, что ChatGPT сначала поет одно или два предложения, а затем активно останавливается. Такая ситуация не является чем-то новым. «Песни, которые не были заявлены, не могут исполняться на концертах», «Вы можете прослушать только несколько секунд песен без авторских прав», «Магазины вдоль улицы не могут проигрывать известную, но нелицензированную фоновую музыку»…

В конечном итоге они указывают на определенный тип проблемы. Авторские права на песни всегда были красной чертой в музыкальной индустрии, и ИИ-помощникам в чате также сложно с этим справиться.

С одной стороны, музыка, созданная с помощью ИИ, может столкнуться с многочисленными правовыми рисками, в том числе:

Нарушение авторских прав: музыка, созданная с помощью искусственного интеллекта, может нарушать авторские права на музыкальные произведения (тексты песен и музыку), права исполнителей и права продюсеров звукозаписи.
Нарушение прав голоса: Если ИИ, имитирующий голос певца, узнаваем, то есть обычные слушатели могут ассоциировать его с конкретным физическим лицом по таким характеристикам, как тембр и интонация, это может нарушать права голоса.
Защита личной информации: голосовые отпечатки представляют собой конфиденциальную личную информацию. Извлечение голосовых отпечатков для обучения без согласия правообладателя может представлять собой нарушение.

Поэтому неудивительно, что ChatGPT применяет избегающие стратегии преодоления трудностей.

Он либо говорит, что «не умеет петь», либо «может только декламировать тексты песен» ; или он «поет хаотично» и использует метод фальшивого «пения на грани» . Это, несомненно, немного отдаляет тот день, когда люди смогут с удовольствием петь караоке с чат-помощниками на базе искусственного интеллекта.

С другой стороны, вопросы сбора данных и обучения, которые часто обсуждаются в области ИИ, касаются того, следует ли разрешать ИИ обрабатывать произведения композиторов, музыкантов, аранжировщиков и т. д.

Возьмем в качестве примера приведенную выше кавер-версию классической песни Beatles в исполнении AJ Smith. По сообщениям зарубежных СМИ, причина, по которой ChatGPT AVM может распознавать текст песни «Eleanor Rigby» и подпевать, вероятно, заключается в том, что обучающий набор данных GPT-4o содержит аудиозаписи людей, исполняющих эту песню.

OpenAI часто использовала YouTube в качестве источника данных для обучения своих ранних продуктов, таких как GPT-4, Whisper и Sora, и GPT-4o, возможно, не является исключением.

Возможно, вы также подумаете, что сейчас на рынке представлено множество стратегий, которые предлагают поместить «оригинальные» тексты ChatGPT в другие инструменты генерации музыки на базе ИИ для вторичного создания и в итоге получить готовую песню.

Создание оригинальной музыки с помощью ИИ может быть новой идеей, но она также несет в себе значительный риск нарушения авторских прав, например, когда «портные» ИИ создают тексты песен, склеивая их вместе.

Буквально на прошлой неделе журнал Wired сообщил о случае мошенничества с использованием искусственного интеллекта в сфере музыки на десятки миллионов долларов .

С 2017 года американский музыкальный продюсер Майкл Смит использовал технологию искусственного интеллекта для пакетной генерации сотен тысяч песен. Внеся в них небольшие изменения, он выдавал их за оригинальные песни, чтобы обмануть стриминговые платформы и получить от них гонорары .

Эти «привитые» музыкальные произведения с искусственным интеллектом собрали почти 1 миллиард просмотров, не полагаясь на криптоновое золото фанатов, чтобы занять верхние позиции в чартах, а на виртуальные аккаунты роботов, которые день и ночь чистят чарты.

В этот период Смит также загрузил на стриминговую платформу большое количество музыкальных файлов, полученных от AI Music Company с помощью скриптов.

В 2024 году Смиту будет предъявлено несколько обвинений, и ему может грозить до 60 лет тюрьмы. В будущем, по мере того как нормативные акты, связанные с ИИ, будут становиться все более и более совершенными, может также появиться независимый и зрелый набор стандартов осуждения за нарушение прав на музыку с использованием ИИ.

Генеральный директор OpenAI Альтман однажды высказал на конференции свои взгляды на авторские права на музыку с использованием искусственного интеллекта и выступил за то, чтобы «создатель имел контроль». На данный момент до выхода GPT-4o в следующем году остается ровно год.

OpenAI является партнером функции AI DJ на Spotify и ранее выпустила несколько исследовательских проектов в области музыкального ИИ, включая MuseNet в 2019 году и Jukebox в 2020 году.

Альтман выразил такую точку зрения:

Во-первых, мы считаем, что создатели имеют право контролировать, как используется их работа и что с ней происходит после ее выпуска в свет.
Во-вторых, я думаю, нам нужно использовать эту новую технологию, чтобы найти новые способы, позволяющие творцам побеждать, добиваться успеха и жить яркой жизнью. Я абсолютно уверен, что эта технология способна это осуществить.
Сейчас мы работаем с художниками, визуальными художниками, музыкантами, чтобы понять, чего хотят люди. К сожалению, мнения сильно различаются…

Как обычный пользователь, приняли бы вы музыку, созданную этими ИИ? Или вы хотите, чтобы ваш ИИ спел вам несколько строк во время чата? Пожалуйста, не стесняйтесь поделиться с нами своим мнением в разделе комментариев.

#Добро пожаловать на официальный публичный аккаунт WeChat iFanr: iFanr (WeChat ID: ifanr), где вам будет представлен еще более интересный контент как можно скорее.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo