Как давно вы пели и танцевали, сочиняя песню с помощью ИИ?

1 ноября, 2025 Дядя Влад

Никто не поёт и не танцует, используя ИИ для написания песен! — Нет, некоторые учителя так делают.

Это музыкальный блогер на YouTube, который изначально намеревался использовать программное обеспечение для генерации музыки, чтобы создать ужасную музыку с использованием искусственного интеллекта и высмеять его, но неожиданно создал «настоящую» японскую метал-рок-музыку, которая быстро стала хитом в TikTok.

«Сюрпризом» было то, что он не дал никакой подсказки или отсылки, а вместо этого издал ряд своих… рыков.

Суно, моргни, если тебя похитили.

История начинается с того, что этот музыкальный блогер хочет бросить вызов и посмотреть, какого уровня достигли современные инструменты искусственного интеллекта для создания музыки, — конечно, с долей злого умысла.

Инструменты, которые он тестировал, включали популярные инструменты для создания музыки, такие как Suno, Mureka, ElevenLabs и Udio, а его метод тестирования был довольно необычным.

Например, кричать на компьютер, как показано выше. Или подражать Йоко Оно, крича и визжа…

Это произведение «перформанса», созданное Йоко Оно к своему 90-летию. Оно совершенно бессмысленно: она просто кричит. Однако искусственный интеллект не знает, как его назвать; он принимает всё без вопросов, тщательно оптимизируя текст и добавляя мелодию.

Знаешь что, они все довольно хороши.

Вступление к «My Name is Jeff» на самом деле довольно неплохое, особенно в подсказках, где он насильно напихал кучу стилистических описаний, превратив всё в полный бардак. А ещё есть песня, текст которой появился прямо из автоматического набора системы и очень похож на шведскую группу Meshuggah — база данных ИИ непостижима; она настолько нишевая, что оставляет тех, кто разбирается только в поп-музыке, в полном недоумении.

Но самое удивительное началось позже: блогер нес совершенно бессмысленную чушь, и ИИ выдал японскую хэви-метал-композицию под названием «Isugaku: Never Say Goodbye». ИИ распознал его случайные выкрики как японские, отсюда и соответствующий стиль. И знаете что? Они даже очень хорошо слились.

В этом и заключается суть музыки, создаваемой ИИ: чтобы люди могли освоить музыку и понять её теорию, им требуется длительный период обучения и накопления знаний, прослушивания большого количества музыки. ИИ тоже необходимо учиться, но он изучает присущие музыкальным произведениям особенности данных, включая, помимо прочего, аккорды, мелодии, ритмы и структурные формы.

По совпадению, поп-музыка во многом опирается на распространённые аккорды. Высокая повторяемость и предсказуемость позволяют ИИ быстро находить закономерности, изучая эти базовые «формулы», и генерировать музыку, которая звучит правдоподобно и нравится широкой публике.

Абстрактно, но недостаточно абстрактно для человека.

Но разве это и есть творчество?

Есть немного, но не так уж много. По сравнению с настоящим творчеством ИИ ничто.

Например, самый вирусный интернет-мем этого года «Skill Gomoku» начался с попытки, аналогичной попытке блогера выше: посмотреть, какую песню может написать ИИ.

Кто бы мог подумать, что эта песня станет самой запоминающейся этой осенью — как давно вы пели и танцевали, играя в Гомоку?

В «Skill Five» Чжан Синчао прямо признался, что песня была написана ИИ, и зрители также почувствовали, что ее написал ИИ: мелодия получилась запутанной и странно вызывающей «промывание мозгов» при сведении.

Честно говоря, эта песня, возможно, и выиграла от использования ИИ, но это точно не полностью заслуга ИИ. Я попытался воссоздать эту потрясающую песню с помощью Suno (того самого, которым пользовался Учитель Ву), и обнаружил, что это не так просто, как играть в «Четыре в ряд»!

Во-первых, я понятия не имел, что делать, поэтому мог только воспользоваться самой простой подсказкой в простом режиме создания, чтобы заставить его написать песню. Это было очень скучно, но я был готов.

ИИ молчал, просто сгенерировав два набора текстов и четыре варианта музыкальной аранжировки.

Честно говоря, это так скучно и нудно. Важность текста в песне очевидна. А в песне «Skill Gomoku» текст занимает половину песни. Два варианта текста, сгенерированные ИИ, не представляют особой проблемы, они все правдоподобны, но совершенно неинтересны.

Нет другого выхода, кроме как использовать оригинал; ни одно слово не может быть пропущено.

Я не указывал конкретный музыкальный стиль, просто лёгкий и весёлый ритм. Думаю, модель тоже не поняла текст песни; он слишком абстрактный. Тем не менее, ей всё же удалось уловить основные моменты, например, паузу с «it’s gonna to explosive», или подчеркнуть присутствие этих трёх слов.

Затем я запустил ещё несколько версий наугад, но ни одна из них не сработала как следует, что странно. Означает ли это, что невозможно воспроизвести изображение, не понимая текста? Мне сложно объяснить модели столь абстрактный текст!

Чтобы решить проблему, нам нужно вернуться к сути: ИИ лучше всех распознаёт особенности, но эти несколько поп-аккордов слишком просты, некоторые даже слишком банальны, особенно без чётких стилистических указаний. Поэтому, как бы это ни звучало, это звучит неестественно и не может создать контраста с текстом песни «Skill Five-in-a-Row»!

Итак, после того как я почти досмотрел оригинальное видео, я осознал его музыкальность: в музыке этой песни использовалось некое ритмическое ощущение, похожее на гимнастику, размеренное, с четким ритмом и ощущением движения.

Хорошо, Suno поддерживает загрузку и сэмплирование локальной музыки, поэтому я специально искал музыку для третьего набора трансляционной гимнастики, чтобы на этот раз ИИ наверняка изучил ее как следует.

В пользовательском режиме вы также можете выбрать «Wirdness» и «Stile awareness», но, к сожалению, это платные функции. На этот раз мы можем использовать только элементы стиля вещания в качестве общего источника вдохновения.

В этот раз лучше? Чуть лучше. Модель распознала, что третий сет транслируемой гимнастики был в джазовом стиле, поэтому на этот раз сгенерированная музыка была очень весёлой, со свободным и даже хаотичным ритмом, что неожиданно немного перекликалось с игрой «Skill Gomoku».

Но всё равно получилось не совсем то, что нужно, поэтому я полностью удалил описание стиля и попробовал ещё раз. ИИ молчал, просто сгенерировав четыре готовых трека, каждый в своём стиле. Там были не только баллады и задорные песни, но даже фолк-версия…

Суно: У меня действительно нет времени возиться с тобой.

После более чем дюжины версий ни одна не смогла сравниться с талантом Teacher Skill Five. И это даже при использовании оригинального текста. ИИ, тебе нет равных!

Комедийный эффект игры «Skill Gomoku» в конечном счёте сводится к противоположности искусственному интеллекту. ИИ анализирует и запоминает особенности музыки, и создаваемая им музыка теоретически звучит качественно и запоминающе, соответствуя современным трендам, но ни одна из них не может сравниться с запоминаемостью оригинала.

Странно, разве оригинальная версия не была написана ИИ?

Мы до сих пор не знаем точно, какой вклад ИИ внёс в первоначальный процесс творения. Но это воспроизведение заставляет меня верить, что даже если бы он и внёс свой вклад, он не перевесил бы талант создателя.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (WeChat ID: ifanr), где вы сможете как можно скорее получить еще больше интересного контента.

ifanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo