Не только Sora2! Обновление ShootMe AI V5.5: теперь каждый может снимать видео с ИИ!

В 2025 году видеоролики об искусственном интеллекте снова перевернут ситуацию. Резка металла голыми руками, приготовление пищи кошками и даже безумно популярная «вселенная Ультрамена» — вот лишь несколько примеров того, как ИИ может работать.


Но не стоит пока слишком радоваться.

Большинство инструментов для видеосъемки на базе ИИ всё ещё застряли на этапе генерации исходного кода. Они могут создавать красивые видео, но эти видео в основном фрагментированные, беззвучные и с одним ракурсом.

Если вы хотите создать что-то серьезное, например, художественный фильм с раскадровками, вам придется постоянно «рисовать карты» и молиться, чтобы ИИ понял, что такое дальний план, а что — крупный.

В результате вам часто вываливают кучу нелогичных и бесполезных видео. После того, как вы их отобрали, вам ещё предстоит озвучка, монтаж, добавление музыки… целая работа, которая может занять две недели, чтобы закончить 10-секундный ролик.

Когда же видеоролики с искусственным интеллектом наконец обретут способность действовать и научатся «рассказывать истории»?

Вчера вечером обновление PixVerse V5.5 меня удивило. Спустя полгода этот «король анимации» выдал очередную сенсацию. Если предыдущая версия была похожа на работу художника по спецэффектам, то V5.5 — это как целая команда режиссёров, понимающих аудиовизуальный язык.

V5.5 в настоящее время является единственной в Китае моделью видео на основе ИИ, которая может генерировать «раскадровку + аудио» одним щелчком мыши для создания полноценного повествования.

Самый большой прорыв заключается в том, что видео с ИИ начинают обладать «режиссёрским мышлением». Искусственный интеллект уже не просто генерирует движущиеся изображения, но начинает понимать логическую взаимосвязь между кадрами, звуком и повествованием.

То, для чего раньше требовался профессиональный художник-раскадровщик, теперь можно сделать легко и уверенно.

Видеоролики, созданные искусственным интеллектом, наконец-то обрели «душу».

Откуда берётся «повествование» в фильме? Во многом оно формируется диалогами персонажей, фоновой музыкой и ритмом, создаваемым сменой камер.

Мы протестируем наш ИИ «PaoWo» с этих двух точек зрения.

Полную версию видеоматериала можно посмотреть в твиттере APPSO.

В комплекте идёт звукорежиссёр-миллионник

Начнём с роли «актёра озвучивания». Посмотрим, насколько хорошо справится Paiwo AI V5.5, поддерживающий многосимвольную аудиовизуальную синхронизацию.

Для начала давайте посмотрим рекламу на пляже.

Подсказка: Мужчина смотрит в камеру, держит перед ней бутылку пива, наклоняет её к объективу и делает тост. Фоновая музыка — энергичная электронная с заметным барабанным ритмом и поп-звучанием.

Камера с искусственным интеллектом работала чётко и эффективно. Больше всего меня поразило внимание к деталям: камера идеально распознала сцену и подобрала к ней музыку, идеально подходящую для летнего пляжного настроения.

Такое понимание окружающего звука действительно впечатляет.

Давайте попробуем что-нибудь другое: такси, едущее по улицам города.

Камера на базе искусственного интеллекта не только следует за автомобилем, но и добавляет шум машин на улице, создавая у вас ощущение, будто вы действительно находитесь на оживленной улице Нью-Йорка.

Такси проезжает по улицам города и постепенно исчезает из кадра.

Но это только закуска; перейдем к сути.

Сначала я использовал встроенную функцию Nano Banana Pro в приложении Paiwo AI для создания изображения, а затем поручил Paiwo AI создать видео под названием «Добро пожаловать, южные маленькие картофелины на северо-восток».

Женщина тепло сказала: «Добро пожаловать, маленькая картошечка с юга, в мой родной город! Мы так скучали по тебе здесь, на Северо-Востоке!»

Всего в двух коротких предложениях движения губ идеально совпадали, передавая теплоту и энтузиазм тетушки с северо-востока настолько хорошо, что вам хотелось купить билет на самолет и отправиться в путешествие сразу после работы.

Например, в следующем отрывке с медвежонком Паддингтоном он точно воспроизводит культовый британский акцент. Характерные ритмичные паузы и джентльменский акцент «старого Лондона» не только звучат аутентично, но и легко узнаваемы.

Работая над сюжетной линией медведя, он продемонстрировал глубокое понимание сценария.

Когда персонаж осознает, что он находится на Эйфелевой башне, а другой человек — на Токийской башне, голос, сгенерированный искусственным интеллектом, точно передает шок и удивление в этот момент.

Этот тонкий контроль над тоном делает весь клип чем-то большим, чем просто набором изображений; он передает подлинный поток эмоций.

Он выходит за рамки простого определения двух персонажей; он глубже погружается в культурные символы и повествовательный контекст, стоящий за ними, тем самым сопоставляя их с проникновенными вокальными исполнениями.

Легко заметить, что функция генерации звука Paiwo AI значительно снижает порог входа для добавления фоновой музыки и закадрового голоса в видеопроцессы. Просто включите опцию «Аудио» в параметрах генерации видео Paiwo AI, и одно предложение поможет вам быстро опробовать различные аудиоформаты в пакетном режиме — это настолько просто, что с этим легко справится один человек.

Мастерство создания кадров кинематографического качества

Композиция кадра подобна ножу в руке режиссера, который разрезает время и пространство и направляет эмоции.

Раньше создание раскадровок с помощью ИИ было настоящим кошмаром: приходилось по отдельности создавать общие и крупные планы, а затем склеивать их в редакторе. Но с ShootMy AI V5.5 эта утомительная работа осталась в прошлом.

Включите многокамерный режим, укажите ИИ желаемое кадрирование снимка и переключайтесь между несколькими углами съемки; затем он может напрямую создать готовый фильм с повествовательным ритмом.

Например, мы можем превратить вирусное «фото пляжа с тремя сетками» в более интересный короткометражный фильм:

Слова-подсказки:
Сцена 1: Кот поворачивает голову в сторону камеры. Кот спрашивает: «Что там, по ту сторону горы?»
Сцена вторая: Кот снова поворачивается, чтобы посмотреть на море. Камера показывает кота крупным планом, и он говорит: «Не нужно мне ничего рассказывать».
Сцена 3: Крупный план морды кота. Кот говорит: «Потому что я просто хочу устроить тебе неприятности в доме».

В целом, фильм производит довольно сильное впечатление. Но что меня по-настоящему поразило, так это то, как ИИ распознал эмоциональный подтекст диалога. Прямо перед тем, как кот заговорил, был искусно добавлен крупный план. Это, казалось бы, простое движение камеры мгновенно усилило повествовательное напряжение сцены.

Затем мы отправились в саванну Восточной Африки. Я также использовал Nano Banana Pro для создания изображения в документальном стиле и создал короткий видеоклип одним щелчком мыши:

Если вам кажется, что научиться писать раскадровки слишком сложно, не беда: «воображение» Paiwo AI V5.5 не менее впечатляет. Просто напишите предложение, и оно вас удивит.

Подсказка: женщина, которая смотрела на свою мать, потерявшую память, дома, и грустила. Они обнялись, но мать, казалось, больше её не помнила.

ИИ-приложение ShootMe V5.5 превзошло мои ожидания. Оно не только предоставило мне три кадра, но и самостоятельно выстроило полноценный сюжет: от общения матери и дочери до трогательных объятий в финале, сюжет был логично понятным и трогательным.

Очевидно, что ShootMe AI V5.5 вышел за рамки простого покадрового воспроизведения; он по-настоящему овладел грамматикой аудиовизуального языка. Точно улавливая атмосферу и эмоциональный тон сцены по подсказкам, он автоматически подбирает размер кадра и ракурсы, наполняя создаваемые изображения глубиной, которая находит отклик у зрителя.

Это изменение позволило конечному продукту избавиться от монотонного ярлыка «движущегося изображения» и превратиться в видеоматериал с настоящей повествовательной силой.

Создание рекламного блокбастера в один клик: рождение нового креативного инструмента.

Предыдущие методы могли быть просто «забавными», но чтобы проверить, действительно ли они «производительны», мы решили повысить сложность.

Просто дайте Paiwo AI V5.5 готовый сценарий триллера и посмотрите, справится ли он с ним.

Совет: Видео снято с помощью объектива типа «рыбий глаз», что даёт искажённый широкоугольный вид на ночной городской пейзаж перед магазином с вывеской «ГАСТРОНОМИЯ • ПРОДУКТЫ • БАНКОМАТ» (на английском языке). Освещение приглушённое, красный неон отражается от мокрого асфальта. Музыка звучит медленно, зловеще, с индустриальными басами и далёкими сиренами. Камера фокусируется на высокой фигуре в потрескавшейся фарфоровой маске куклы и тяжёлом тренче, нависающей над объективом. За ним две фигуры в чёрных толстовках неподвижно стоят у входа в магазин. Фигура в маске неудобно наклоняется к объективу типа «рыбий глаз», хрипло шепча: «Полуночный тик, тени не спят. Цена на голову и секреты, которые мы храним. Ты видел вывеску, но не прочитал то, что написано. Один неверный шаг — и ты исчезнешь в тени». Фигура медленно поднимает руку в перчатке, чтобы закрыть объектив камеры, и экран погружается в тёмное пятно.

Честно говоря, качество конечного продукта намного превзошло мои ожидания.

Возможности редактирования Paiwo AI V5.5 весьма продвинуты. Он умеет плавно переключаться между кадрами разных размеров, избегая ощущения временной и пространственной прерывистости, характерного для видеосъёмки с использованием ИИ, и делая последовательность сцены логичной.

Конечно, современный ИИ не может достичь стопроцентного совершенства. Например, при обработке финального, крайне драматичного диалога, снятого с помощью объектива «рыбий глаз», некоторые недостатки в деталях лиц всё же проявляются. Тем не менее, он сохраняет базовый уровень соответствия динамическим физическим законам, и в целом эти недостатки не умаляют достоинств фильма; полнота и удобство использования остаются на высоком уровне.

Что ещё более удивительно, так это идеальная интеграция звука и изображения. Голос, генерируемый Paiwo AI V5.5, не просто читает реплики; он точно передаёт напряжение и гнетущую атмосферу, необходимые для триллера, достигая идеальной гармонии между тембром, фактурой и ритмом голоса и эмоциями, передаваемыми визуальным рядом.

Эта логически последовательная и захватывающая презентация напрямую расширяет возможности своего применения. Для режиссёров она может служить эффективным инструментом коммуникации, позволяя им наглядно доносить творческие идеи до сценаристов и операторов.

Для рекламодателей это также мощный креативный инструмент. Просто введите полный бриф и иллюстрацию, и он быстро создаст рекламный ролик автомобиля, соответствующий стандартам коммерческого предложения. Его эффективность поразительна.

Подсказка: В тёмном, минималистичном пространстве струящаяся полоса света струится по поясной линии тёмно-серого автомобиля, демонстрируя его мускулистую текстуру «жидкого металла». Сразу после этого внезапно загораются матричные светодиодные фары, лучи которых ударяют прямо в объектив и высвечивают пылинки в воздухе. Музыка — низкий, постепенно нарастающий электрический гул, сопровождаемый глубоким басом, напоминающим биение сердца. Глубокий, ровный мужской голос произносит: «Проснись». Далее следует следующая сцена: высокоскоростной кадр с ночным городским пейзажем, автомобиль мчится по туннелю, залитому сине-фиолетовым неоновым светом. Струящиеся городские огни оставляют длинные полосы света на окнах и обтекаемом кузове, подчёркивая динамическую размытость на высокой скорости. Звуковой эффект — резкий, футуристический рёв разгоняющегося электродвигателя, смешанный со звуком рассекающего воздух ветра. Мужской голос произносит: «За пределами скорости». Сцена переходит к следующей: вид с воздуха на обширное прибрежное шоссе на закате (Magic Hour), золотистый солнечный свет омывает автомобиль, создавая прохладный контраст с морской пучиной. Автомобиль мчался к горизонту, оставляя после себя элегантный силуэт. Музыка сменилась на величественный и волнующий кинематографический саундтрек с эпическим настроем. Мужской голос продолжил: «Не просто опережая, а побеждая». Сцена переходит к следующей: автомобиль стоит на минималистичной чёрной отражающей поверхности, его передняя часть обращена вперёд, на фоне медленно угасающего абстрактного красного света. Камера медленно отъезжает назад, открывая серебристую металлическую надпись «APEX» над ним. Мужской голос произносит: «Apex GT». Музыка резко обрывается после финального мощного удара.

Как видите, качество готовых изделий весьма стабильно. По машинам, полным скорости и металлической текстуры, практически невозможно определить, были ли они созданы искусственным интеллектом или профессиональным рекламным агентством.

Переходы между кадрами демонстрируют высокий уровень сложности, без видимых следов склейки. ShootMe AI V5.5 не накладывает кадры механически; вместо этого он использует панорамные кадры, крупные планы и общие планы для создания повествования с перепадами и напряжением.

Благодаря реву двигателя и идеально подобранной фоновой музыке он успешно избавляется от дешевого «ощущения ИИ» и представляет качество изображения на уровне рабочего процесса, которое можно интегрировать в него.

Перестаньте быть «инструментом», станьте настоящим «режиссером».

Мой опыт работы с PixVerse V5.5 дал мне четкое представление о том, что генерация видео с помощью ИИ переживает переломный момент.

Раньше использование ИИ напоминало руководство стажёром-графическим дизайнером, не понимающим человеческого языка. Вы тратили деньги, но при этом вам приходилось просматривать огромное количество негодных работ. Разочарование от постоянных правок, проб и ошибок, а в конечном итоге и отсутствие удовлетворительного результата не только отнимали ваше время, но и лишали творческого энтузиазма.

Появление Paiwo AI V5.5 дало нам проблеск надежды.

Базовая модель V5.5 основана на собственной разработке мультимодальной технологии понимания и генерации, поддерживающей одновременную генерацию аудио- и видеоматериалов. Модель объединяет возможности понимания многокамерной съёмки, интеллектуального создания соответствующих раскадровок и нескольких кадров, а также понимания аудиовизуальной логики. Это уже не холодная, безликая библиотека материалов, а «исполнительный директор», начавший понимать сценарии и повествования.

Хотя AI Shoot Me V5.5 далек от совершенства, он действительно привел к «пробуждению повествовательных способностей» ИИ и начал сокращать огромный технологический разрыв между обычными людьми и профессиональными режиссерами.

В перспективе эффективность претерпит качественный скачок, будь то персональные творческие проекты или коммерческие рекламные образцы и предварительные показы фильмов (превизуализация).

Это означает, что мы собираемся попрощаться с эрой «генерации материалов» с помощью ИИ и вступить в эру настоящей «генерации контента».

В эту новую эпоху, чтобы творить профессионально, вам больше не нужно ни профессионально владеть Premiere Pro или After Effects, ни приобретать дорогостоящее фотооборудование. Достаточно сосредоточиться на самом главном — творчестве и самовыражении.

Оставьте нудное выполнение задач искусственному интеллекту, а размышления — людям.

Я думаю, что это самый привлекательный аспект технологических достижений ИИ.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (WeChat ID: ifanr), где вы сможете как можно скорее получить еще больше интересного контента.

ifanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo