Маск и китайская тирада Ультрамена: видео с ИИ наконец превращается из «игрушки» в «инструмент»

21 августа, 2025 Дядя Влад

Если вы сейчас просматриваете социальные сети, то наверняка найдёте вирусные видеоролики с потрясающими визуальными эффектами, часто создаваемыми искусственным интеллектом. Однако, как создатель, я считаю, что помимо создания «вытягивания карт» есть ещё одна проблема, которая не получила должного внимания.

Проблема в диалоге.

Например, если я попрошу ИИ создать красивую сцену дождя, это несложно. Но если я попрошу ИИ создать сцену расставания под дождём с сюжетом и диалогами, причём диалоги должны быть на аутентичном китайском языке, это будет очень непросто.

Контент, создаваемый искусственным интеллектом, представляет собой либо полноценную «пантомиму», требующую от создателя синхронизации губ и дубляжа на поздней стадии; либо он может говорить, но голос и интонации неестественны, полны «ощущения взаимодействия человека и машины» и «тона перевода», что мгновенно портит сюжет, который должен быть грустным.

Это также одна из самых сложных задач в современной разработке видео с использованием искусственного интеллекта: как обрабатывать диалоги, особенно китайские диалоги со сложными эмоциями.

Можно сказать, что способность видео с ИИ обрабатывать естественные и беглые диалоги на китайском языке является ключом к тому, сможет ли оно превратиться из игрушки «для развлечения» в настоящий инструмент повышения производительности.

Представленная сегодня видеомодель MuseSteamer 2.0 от Baidu, похоже, решает эту ключевую проблему. Её главная особенность заключается в том, что это первая в мире интегрированная технология генерации аудио- и видеоматериалов на китайском языке. Разработчики утверждают, что она основана на корпусе китайского языка и может генерировать видеозаписи разговоров на китайском языке с синхронизированным звуком и видео, точными движениями губ и естественными эмоциями всего за один шаг.

Чтобы проверить, действительно ли это решает проблемы создателей или это просто техническая демонстрация в рекламном ролике, я решил обойти официальные отобранные случаи (демо-версии) и разработать несколько «сложных» сцен, которые ближе к ежедневным творческим потребностям обычных людей, чтобы самому исследовать его реальность.

Адрес места проведения: https://huixiang.baidu.com/

От изображения к звуковому противостоянию

На этот раз Baidu Steam Engine предлагает модели 4 поколений, все из которых генерируют видео из картинки, а именно Steam Engine 2.0 turbo, pro, lite и audio version; разные модели будут потреблять разное количество баллов, а бесплатные пользователи могут получить ограниченное количество ценности воображения (баллов), входя в систему каждый месяц.

Аудиоверсия может создавать видео длительностью 5 или 10 секунд, в то время как Turbo и остальные три версии — 5 секунд. Что касается количества пикселей, за исключением версии Pro, которая поддерживает разрешение 1080p, остальные три версии обеспечивают качество изображения высокой чёткости 720p.

Мы напрямую даем ему картинку, а затем следуем подсказкам на странице генерации видео, чтобы ввести видеоконтент и тематические строки, которые вы хотите сгенерировать; для 5-секундного видео строки должны укладываться в 20 слов, а для 10-секундного видео количество слов должно укладываться в 35 слов.

▲ Мы загрузили фотографию Маска и Ультрамена со следующим комментарием: «Два человека спорят друг с другом. Человек слева говорит: «Искусственный интеллект, который вы создали, не имеет никакой ценности». Человек справа говорит: «Ваш маркетинг не имеет никакой ценности». Сгенерировано в аудиоверсии Steam Engine 2.0.

Во-первых, Маск и Ультрамен на статичных фотографиях двигаются естественно, их мимика и движения тела довольно плавные и в целом соответствуют загруженным фотографиям. Базовые возможности преобразования изображений в видео по-прежнему весьма надежны.

Что ещё важнее, исполнение диалогов на китайском языке поистине на высшем уровне. Движения губ точно соответствуют произношению таких слов, как «botom line» и «marketing», без заметной задержки или смещения.

▲ Первый кадр гоблинов горы Лангланг, сопровождаемый репликой: в кадре гоблин-кабан с вилами в руках выжидающе смотрит на здоровенного тренера-медведя рядом с собой. Реплики: (0-5 секунд) Гоблин-кабан с вилами в руках говорит: «Тренер, давай отполируем наши доспехи. Мы будем сражаться с большей силой!» (5-10 секунд) Здоровенный тренер-медведь бросает на него взгляд и нетерпеливо прерывает: «У кого есть время? Сначала вырежи мне тысячу стрел!»

На пресс-конференции Baidu особо отметила, что это базовая логика генерации, заложенная в « интеграции аудио и видео ». Звук и изображение создаются одновременно, а не сопоставляются позже. В процессе обучения изображение и звук объединяются в одну модель для синхронного обучения.

Кроме того, существует новаторская технология под названием «Латентный мультимодальный планировщик» (Latent Multi Modal Planner). Мультимодальность легко понять, она включает в себя текст, изображения и аудио, а латентность — это термин из глубокого обучения, фокусирующийся на изучении латентных признаков. Эта технология позволяет автономно планировать множественные идентичности персонажей, реплики и логику взаимодействия в пространстве латентной генерации.

Проще говоря, это можно представить как режиссёра, встроенного в искусственный интеллект. Получив команду «позволить двум людям ссориться», он не позволит им, как дураку, говорить одновременно, а самостоятельно спланирует сценарий ссоры.

Мы также попробовали несколько диалектов, например, северо-восточный китайский, чтобы проверить, не возникнет ли проблем при общении с несколькими людьми.

▲ Подсказка: Женщина в синем в левой части экрана быстро и холодно шепчет на северо-восточном диалекте: «Сестра, искренность — наш уголь, но это также огонь, который сжигает нас заживо»; женщина в фиолетовом и розовом в правой части экрана решительно отвечает на северо-восточном диалекте: «Тогда почему бы и нет, просто сожги его чище»; сгенерировано аудиоверсией Steam Engine 2.0.

Перевод Чжэнь Хуаня и Шэнь Мэйчжуан на северо-восточный диалект в интегрированной аудио- и видеомодели был довольно сложным, но мимика персонажей, движения губ, серёжек и головных уборов — всё это передавалось очень естественно. Китайские голоса также были очень детальными, что, на мой взгляд, действительно демонстрирует глубокую адаптацию к китайскому контексту.

А еще есть классическая картинка-мем, которая наконец-то не «Приходи и попробуй мою свежую плоть».

Кадр из короткометражного фильма «Вань Вань Ву Сян». Подпись гласит: Тан Саньцзан в красной шапке указывает пальцем на нос человека с рогами и сердито говорит: «Ты всё ещё хочешь попробовать мою свежую плоть? Ни за что!»

Baidu Steam Engine точно решает сложную творческую задачу — заставить одно изображение говорить и разыгрывать сцену. Он упрощает ранее трудоёмкий многоинструментальный процесс, превращая его в единую операцию «одно изображение + одно предложение». Это, несомненно, высвобождает производительность для таких задач, как создание мемов, виртуальные диалоги, обмен знаниями и создание сценок.

Нам ещё предстоит пройти долгий путь, прежде чем мы сможем по-настоящему сравниться с озвучкой популярных недавно клипов «Empresses in the Palace» и «Let the Bullets Fly». Однако, учитывая нынешний уровень технологий генерации видео с помощью ИИ, я думаю, что это лишь вопрос времени, когда ИИ сможет передавать более тонкие и противоречивые человеческие эмоции. В конце концов, модель Steam Engine 1.0 была выпущена в начале прошлого месяца.

Сможет ли он справиться с движениями камеры и большими сценами?

Помимо первого интегрированного аудио- и видеосоздания с озвучкой двух игроков в китайских сценах, еще одним улучшением Baidu Steam Engine 2.0 является качество изображения кинематографического уровня и сложное движение камеры на уровне мастера .

В предыдущих разговорных видео эмоции, выражения и 3D-генерация лиц демонстрировали реалистичную и детальную мимику персонажей. Мы продолжили тестирование переходов и пустых кадров, часто встречающихся в рекламных роликах и короткометражных фильмах, которые, помимо разговоров, являются ещё одним важным требованием к видео с ИИ.

▲ Укажите первый кадр с подсказкой: Кадр, который начинается с крупного плана открытой книги на столе, медленно движется вверх и, наконец, останавливается на дождливой уличной сцене за окном; создано с помощью Steam Engine 2.0 Pro.

Судя по получившемуся видео, Паровая машина безупречно выполнила инструкции. Всё движение камеры — крупные планы, подъёмы, остановки — было выполнено удивительно плавно, без каких-либо проблем с дрожанием камеры или недопониманием инструкций. Это демонстрирует её глубокое понимание фотографической терминологии.

Когда ИИ освоит настоящий китайский язык, наступит новый поворотный момент в создании видео.

После этого теста, я думаю, позиционирование Baidu Steam Engine 2.0 совершенно ясно: он не претендует на звание всеобъемлющей модели в стиле Sora, а выбрал более прагматичный путь: используя «китайский диалог» в качестве основной точки прорыва, он превратил ИИ-видео из интересной «игрушки» в «инструмент», который можно представить в виде фильма.

Он избегает внутренней конкуренции, заключающейся просто в соревновании по качеству и продолжительности изображения, и тратит больше энергии на решение самой важной и наиболее локальной проблемы — заставить видеоролики ИИ по-настоящему «говорить по-китайски» и говорить на нем лучше, чем реальные люди.

Такое превращение «игрушки» в «инструмент» было проверено в реальных творческих и коммерческих сферах.

Яо Ци, голливудский режиссёр визуальных эффектов, работал над такими фильмами, как «2012», «Матрица 3» и «Трансформеры 3». Он также создал культовые боевые эффекты гучжэна в китайской научно-фантастической драме «Задача трёх тел». На этот раз он использовал паровой двигатель Baidu для создания высококачественного научно-фантастического короткометражного фильма, включающего более 40 сложных и тщательно продуманных кадров со спецэффектами, каждый из которых был сгенерирован трижды, в общей сложности более 120 клипов, и всё это всего за 330,6 юаня.

▲ Видео пресс-конференции «Путешествие домой»

Когда стоимость визуального производства короткометражного фильма, которая раньше требовала бюджета в миллионы юаней, сжимается до невообразимо низкого уровня, подрывается не только бюджет, но и порог, и права на создание.

Речь идёт не только о снижении затрат, но и о переходе от создания крутого клипа к полноценному повествованию. Когда великолепные визуальные эффекты можно органично интегрировать с повествованием и диалогами, ИИ действительно превращается из плагина для спецэффектов в высокоэффективный инструмент для создателей контента.

В маркетинговых стратегиях бренда эта модель также нарушает традиционный процесс видеопроизводства. Например, компании Yili Beichang требовалось создать рекламный ролик для своего сухого козьего молока под названием «Овца пересекает море, чтобы увидеть тебя». Традиционные методы производства обычно занимают от четырёх до шести недель, а съёмки включали в себя демонстрацию волшебного путешествия «Ягнёнка Шаши» на воздушном шаре по голландским лугам и высокотехнологичным заводам. Такой подход был дорогостоящим и сложным.

На этот раз съёмочная группа использовала паровой двигатель для создания этих фантастических сцен, которые было бы сложно воссоздать с помощью живой съёмки, с помощью стилизованного ИИ-рендеринга. Что ещё важнее, ИИ органично интегрировал ключевые рекламные аргументы, такие как использование голландского молока и пробиотическая формула, в повествование, сократив производственный цикл до нескольких дней. В результате визуальные эффекты получились безупречными и идеально отражали философию бренда.

Будь то профессиональные творцы или бесчисленные представители малого и среднего бизнеса и бренды, каждый, по сути, обзавёлся «киберручкой». Всего лишь «изображением и предложением» можно оживить статичного Терракотового Воина и позвонить ему, или пообщаться с Чжан Фэй во время вышивания. Этот исчезающий барьер на пути к творчеству меняет соотношение затрат и правила конкуренции в индустрии контента.

Конечно, это не идеальный швейцарский армейский нож . В настоящее время существуют ограничения на продолжительность создаваемых видео, подразумевающие исключительно визуальные эффекты, а также не содержащие диалогов, а выбор звука и стиля мог бы быть более богатым.

Однако в эпоху быстрой итерации продуктов ИИ не существует по-настоящему идеального продукта. Более эффективны те продукты, которые можно быстрее внедрить для удовлетворения реальных потребностей пользователей. Паровой двигатель Baidu избежал суеты технологической гонки вооружений, выбрав более прагматичный и ориентированный на рынок подход. Это как молоток, нацеленный на забивание гвоздей. Хотя он не умеет строгать дерево, он достигает совершенства в забивании гвоздей.

Наблюдая, как персонаж, созданный искусственным интеллектом, свободно говорит передо мной, не ощущая никакой машины, я невольно испытываю прилив удивления. Инструменты со временем станут невидимыми, но творчество всегда будет сиять. Паровая машина вернула мечту о режиссуре, когда-то невероятно дорогую и доступную лишь избранным, всем, кому есть что сказать.

Теперь у нас больше нет недостатка в хороших инструментах, но нам не хватает свежих идей; а уникальные идеи рождаются в результате повторных попыток.

Текст｜Ли Чаофань и Чжан Цзыхао

Чтобы просмотреть видео в статье, перейдите по этой ссылке: https://mp.weixin.qq.com/s/cy7m7e97AVVo5VqUcnS0_w

#Приглашаем вас следить за официальным публичным аккаунтом WeChat проекта iFaner: iFaner (WeChat ID: ifanr), где в ближайшее время вам будет представлен еще более интересный контент.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo