Реальные испытания Seedance 1.5 Pro: Нежа и Джуди демонстрируют выдающуюся игру, воссоздавая культовые сцены; диалоги и звуковые эффекты, созданные с помощью ИИ, значительно улучшены.

В последнее время появилось много новых способов использования видео, созданных с помощью ИИ, например, необработанные изображения, сгенерированные ИИ, которые стали популярны в первой половине года.
▲ Источник видео: https://x.com/pabloprompt/status/2000706593579573301/
Созданные с помощью ИИ видеоролики о процессе создания контента, которые были популярны и раньше, сейчас снова становятся популярным трендом в социальных сетях, поскольку возможности модели улучшаются.
Однако, она полностью отказывается от прежнего сложного рабочего процесса, имеет более удобную для пользователя модель и может даже воспроизводить происходящее всего несколькими простыми командами, достигая того же уровня реализма, что и в видео.
Оптимизация моделей генерации видео постоянно снижает зависимость от подсказок человека, а также обеспечивает более стабильную согласованность.

Компания Doubao недавно обновила свою модель генерации аудио и видео до нового поколения, Doubao Seedance 1.5 Pro, что значительно улучшило генерацию аудио и видео. Теперь создаваемые видеоролики поддерживают различные звуки и рифмы на таких языках, как китайский, английский, японский, корейский и испанский. Кроме того, для сценариев на китайском языке программа может генерировать диалекты, такие как сычуаньский и кантонский.
Он не только умеет говорить, но и имитировать акценты разных языков. Аудиовизуальные видеоролики — это значительный прорыв для Seedance 1.5 Pro. Что касается самого процесса создания видео, он сочетает аудиовизуальную синхронизацию с кинематографическими движениями камеры, благодаря чему видео, созданные с помощью ИИ, выглядят более реалистично и детально.
Теперь эта модель доступна в приложении Doubao. Просто откройте Doubao, нажмите «Анимировать фотографии», выберите модель 1.5 Pro, и вы сможете насладиться видеороликами, созданными с помощью ИИ. Также её можно протестировать в Центре впечатлений Volcano Engine и в Jimeng AI.
Мы также провели предварительное тестирование, и Seedance 1.5 Pro, безусловно, является лучшей моделью для генерации видео, которая у нас есть на данный момент, поскольку её можно использовать напрямую и одновременно интегрировать со звуком.
Послушайте оригинальную версию песни "I can't do it, Your Majesty".
Перед выходом «Зверополиса 2» среди пользователей сети разгорелись значительные споры по поводу выбора актёров озвучки. Чтобы оценить, насколько впечатляющей является генерация голоса в Seedance 1.5 Pro, можно взглянуть на озвучку двух популярных онлайн-видео: «Императрицы во дворце» и «Пусть летят пули».
Мы нашли скриншот из фильма или сериала в интернете и отправили его в Doubao. Нам даже не понадобилось вводить какие-либо подсказки, и программа автоматически распознала видеоряд и сгенерировала сцену с диалогом, передающим эмоции.
▲В приложении Doubao используйте функцию «Анимировать фотографии», чтобы загрузить первый кадр и создать видео.
Императрица и Чжан Мацзы были изображены настолько убедительно, что это совершенно другой уровень по сравнению с моделью генерации видео, созданной несколько месяцев назад. Проблемы, такие как несовпадение движений губ или механические голоса в предыдущих видеороликах, созданных с помощью ИИ, теперь решены.
Но китайский язык для этого лишь базовый; настоящий секрет превосходной производительности Seedance 1.5 Pro в отношении диалектов заключается в его способности превосходить зарубежные модели. Как и Sora 2 и Google Veo 3.1, которые считаются лидерами отрасли в области обработки изображений, если показать им два первых кадра выше, ни Sora, ни Veo 3 не смогут понять классические фразы из «Императриц во дворце» или беглый сычуаньский диалект Чжан Мацзы.
Национальные игры только что закончились. Если вы были в Гуанчжоу, вы наверняка помните запоминающийся слоган: «Яркий Большой залив, очаровательный новый Гуанчжоу». Мы создали фотографию человека, стоящего перед Кантонской башней, а затем ввели запрос в функцию «Анимировать фотографии» на Doubao.
Молодой человек на видео стоит лицом к камере и показывает Кантонскую башню позади себя. Он говорит по-кантонски: «Оживленный район Большого залива, очаровательный новый Гуанчжоу, а позади меня — Кантонская башня!»
Ну как вам такой уровень кантонской кухни? По сравнению с набором из четырех димсамов в Duolingo — пельмени с креветками, рисовые рулетики, сиу май и ребрышки в соусе из черных бобов — разве это не звучит немного приятнее?
Кроме того, Seedance 1.5 Pro обладает преимуществом «аудиовизуальной согласованности», что означает, что он может понимать историю, которую хочет рассказать видео, исходя из содержания изображения, и автоматически генерировать соответствующий закадровый голос.
Например, если мы загрузим фотографию, на которой явно изображен иностранец, без каких-либо подсказок, система автоматически использует английский язык для озвучивания, и персонаж на фотографии произнесет соответствующие реплики.
Даже когда Уилл Смит ел лапшу в китайском ресторане, Seedance 1.5 Pro автоматически заставлял его говорить по-английски, и его поза во время еды была совершенно правильной.
Аналогичным образом мы использовали его для создания видеоролика о процессе съемок, сгенерированного искусственным интеллектом. Мы просто загрузили фотографию на Doubao, не вводя никаких подсказок, и он автоматически сгенерировал видео на китайском языке с диалогом вроде: «Ух ты, у меня есть фотография с аватаром!»
Когда мы обработали видео, Seedance 1.5 Pro также определил парня на фотографии как корейца и сгенерировал видео, где он говорит по-корейски. Честно говоря, в нем действительно есть что-то от корейского «оппы».
Одно из главных преимуществ видеогенератора Doubao заключается в том, что мы можем напрямую загрузить сгенерированное видео в виде анимированного GIF-файла и сохранить его на свои телефоны . В сочетании с более мощными возможностями многомодального восприятия современных моделей и способностью генерировать более реалистичные изображения, эти статичные изображения на наших телефонах можно «реалистично» заставить двигаться, а затем опубликовать в WeChat Moments, и некоторые люди, возможно, действительно не смогут заметить разницу.

Гигантские фотографии, созданные с помощью ИИ, в сочетании с движением камеры дрона — это просто потрясающе!
В обновлении Seedance 1.5 Pro ключевое слово — «повествовательность». Это означает, что эти видеоролики, созданные с помощью ИИ, не просто генерируются, а обладают определённым сюжетом и способны понимать, какой контент нужно передать, что делает сгенерированные ИИ видео более похожими на произведения, настоящие из живых людей.
Для качественного видеоролика необходимы превосходное освещение, цветопередача и звуковые эффекты. Техническая сторона вопроса также имеет важное значение; движение камеры, наряду со звуковыми и визуальными элементами, является неотъемлемой частью визуального языка.
В этом обновлении Seedance 1.5 Pro получили значительные улучшения в кинематографических приемах съемки, таких как слежение за объектом на большом расстоянии и зум в стиле Хичкока.
Как и в случае с эффектом замедленной съемки, который мы создавали ранее, теперь вы можете загрузить изображение на Doubao, настроить подсказки, а эффект замедленной съемки также можно свободно настраивать.

▲Подсказки: Эффект замедленной съемки. Время полностью застыло. Танцовщица зависла в воздухе, бросая вызов гравитации. [Стоп-кадр]: Танцовщица, ее волосы и синее платье абсолютно неподвижны, словно трехмерная статуя, застывшая во времени. Камера движется по горизонтальной траектории вокруг зависшей танцовщицы. Здания на заднем плане меняют перспективу (параллакс), в то время как танцовщица остается зафиксированной в центре. Волосы остаются жесткими и направлены вверх, не развеваясь. Ткань платья плотная и застывшая. Кинематографическое освещение, высокое качество.
При обработке той же фотографии с помощью Veo 3.1 программа с трудом удерживает персонажа в неподвижном положении в режиме замедленной съемки. Это связано с тем, что большинство моделей генерации видео требуют распознавания волос для обозначения движения и подола юбки для обозначения покачивания. Поэтому точное управление движением камеры и планирование являются важнейшими возможностями, отличающими разные модели.
А ещё есть это фото гиганта, созданного с помощью ИИ, которое некоторое время назад стало вирусным. Теперь мы можем использовать крутые трюки с дронами и движения камеры, чтобы выделить гиганта на видео.

▲Ключевые слова: Кинематографическая съемка с FPV-дрона, сверхдинамичное движение камеры: Начиная с высокого ракурса, дрон стремительно снижается к гиганту, сидящему посреди городской улицы, окруженному зданиями из красного кирпича. Гигант остается совершенно неподвижным, его тело, голова и конечности неподвижны, застыв, как скульптура. Дрон выполняет акробатические маневры вокруг неподвижного тела гиганта — кружит вокруг его ног, проходит под его руками, спирально поднимается вдоль его туловища, затем отдаляется, чтобы показать контраст размеров между гигантом и крошечными транспортными средствами (красный двухэтажный автобус, черное такси) и пешеходами. Гиперреалистичный композитинг. Соотношение сторон 16:9, длительность 5 секунд, модель 1.5 Pro.
Преобразование эталонных изображений в видео позволяет лучше контролировать качество выходного изображения. Однако возможности Seedance 1.5 Pro по преобразованию изображений в видео также впечатляют.

Согласно опубликованным результатам внутреннего теста производительности SeedVideoBench-1.5, проведенного компанией ByteDance, Seedance 1.5 Pro демонстрирует определенные преимущества перед такими моделями, как Keling 2.6 и Google Veo 3.1, как при преобразовании текста в видео в формате T2V, так и при преобразовании первого кадра в видео в формате I2V.
Особенно в области генерации звука и аудиовизуальной синхронизации Seedance 1.5 Pro демонстрирует практически безоговорочное превосходство.
Мы попробовали устроить 10-секундную сценку с участием Джуди из «Зверополиса» и Нэчжи: одна говорила на мандаринском диалекте, а другая — на сычуаньском.
▲ Ключевые слова: [0-4 с] Джуди указывает на Нэчжу и говорит (на китайском, быстро, серьезно): «Эй, малыш! Остановись! Руки за голову! Согласно правилам дорожного движения Зверополиса, ты превышал скорость на своих Ветряных Огненных Колесах!» • [5-10 с] Нэчжа (на сычуаньском диалекте, закатывая глаза, медленно, протяжно): «Эй, не трогай меня! Я ехал на своих Ветряных Огненных Колесах, я не сжигал твое топливо. Ты, маленький сопляк, занимайся своими делами!»
Стиль и содержание этого видео очень похожи на стиль мультфильмов, которые мы обычно смотрим. Когда праведная и строгая офицер Джуди Хоппс ловит Нэчжу, её серьёзное выражение лица и тон, и даже реплики Нэчжи на сычуаньском диалекте, идеально совпадают с движениями губ.
В этом году компания APPSO протестировала более десяти моделей генерации видео с помощью ИИ. В процессе их использования мы обнаружили, что многие из предыдущих тестовых примеров устарели.
Поначалу, даже если приходил Лу Синь, нам приходилось просить его сказать несколько слов по-английски; мы были благодарны, если нам удавалось создать плавный 5-секундный ролик. Теперь модель не только поддерживает несколько языков, таких как китайский, английский, японский и корейский, но и может одновременно генерировать различные диалекты, например, кантонский и сычуаньский.
Внезапно эволюция видео с использованием ИИ сместилась с измерения в годах на измерение в месяцах. Вчерашний прорыв сегодня – это проходной балл.

▲ Скриншот примера использования Seedance 1.5 Pro | Источник: официальный сайт ByteDance Seed
Обновление Seedance 1.5 Pro может стать новым эталоном качества. Но, по крайней мере, теперь мы видим более захватывающие видеоролики с синхронизированным звуком и видео; поддержка нескольких языков и диалектов делает видео, созданные ИИ, более «реалистичными»; а профессиональная кинематографическая операторская работа и интеллектуальные возможности позволяют ИИ генерировать даже самые сложные сцены.
Когда технологии смогут понимать историю, стоящую за изображением, и автоматически подбирать соответствующий язык и эмоции, мы станем на шаг ближе к эре воображения и творческой свободы.
Что необходимо для того, чтобы всё это стало возможным? Картинка или подсказка.
Откройте приложение Doubao, загрузите/введите данные, создайте — всё очень просто. Каждая фотография рассказывает историю, которая ждёт своего рассказа, и каждая загрузка знаменует начало творчества.
Чем меньше шагов, тем ниже порог входа и тем больше будет создателей контента — именно так следует использовать видео, созданное с помощью ИИ, для воплощения творческих идей.
Видео, упомянутое в статье, можно посмотреть, перейдя по этой ссылке: https://mp.weixin.qq.com/s/em_E90Q7AdydHsNwVkAMTQ
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете быстро найти еще больше интересного контента.
ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo







