Реальные испытания мощной системы обработки изображений PixVerse V6: скорость — самый дорогостоящий фактор.

Я ввела текст и нажала кнопку «Сгенерировать». Мои руки всё ещё были на клавиатуре, когда появилось видео.

На переднем плане изображения — дымящаяся чашка черного кофе, задний план размыт; затем фокус плавно смещается, и на заднем плане отчетливо видна девушка, листающая старую книгу.

Я изменил два слова, скорректировал направление света и нажал снова. Изображение появилось, и текстура не потерялась. Подсказки были написаны непринужденно; это было простое описание изображения в моем воображении, без намеренного нагромождения ключевых слов, и модель все поняла.

▲Внимание: на переднем плане — дымящаяся чашка черного кофе, занимающая большую часть кадра, а задний план размыт. Затем фокус естественным образом смещается на задний план, на котором отчетливо видна девушка, листающая старую книгу.

Это мои первые впечатления от PixVerse V6. Дело не только в «хороших результатах»; если быть точным, речь идёт об «эффекте и скорости его получения».

Высокая скорость генерации видео в PixVerse вряд ли является новостью в индустрии. В то время как большинство инструментов для обработки видео с использованием ИИ все еще испытывают терпение из-за длинных очередей, PixVerse уже является самым быстрым в своем классе. В рейтинге моделей генерации видео от Artificial Analysis PixVerse V6 даже входит в число лучших.

Однако, если V6 просто "немного быстрее и с лучшей графикой", то это всего лишь обычная версия, и её не стоит обсуждать отдельно.

V6 превращает «скорость» из технического параметра в структурное преимущество на творческом уровне. Улучшенное понимание команд означает меньшее количество повторяющихся корректировок подсказок; качество изображения также становится более стабильным. Сэкономленное время в этих областях в совокупности гораздо ценнее, чем простое увеличение скорости генерации.

Иными словами, когда качество результатов стабильно и скорость достаточно высока, узким местом для создателей становятся уже не инструменты, а сами идеи. Искусственный интеллект не обесценил создателей; напротив, он сделал хорошие идеи более ценными, чем раньше.

Она не только быстрая, но и каждый кадр выдерживает тщательную проверку.

PixVerse V6 прост в использовании, и даже новички смогут легко начать работу.

Откройте Paiwo AI (веб-версия: https://pai.video), опишите желаемую сцену своими словами в поле ввода, выберите разрешение, соотношение сторон и длительность, а затем нажмите «Сгенерировать». Поддерживается вывод от 360P до 1080P, и его можно использовать как в альбомном, так и в портретном режимах. Вы можете контролировать длительность каждого процесса генерации.

В версии V6 заметно улучшено понимание инструкций. Просто опишите свои творческие замыслы; нет необходимости вводить технический жаргон. Она понимает, какое освещение, атмосферу и ракурс вы хотите получить. Это экономит не только время, но и силы, которые потребовались бы на многократную доработку подсказок.

Также поддерживается загрузка эталонных изображений. Если вы хотите воссоздать определенный стиль или зафиксировать внешний вид персонажа, просто вставьте изображение, и модель будет сгенерирована соответствующим образом.

▲Демонстрация процесса генерации

Самым удивительным улучшением в версии V6 для меня стало улучшение в симуляции физики.

Я протестировал макрообъектив. Золотистый мед медленно капал, образуя блестящие нити, которые мягко растекались по кексу. Нити истончались под действием силы тяжести, и скорость диффузии на контактной поверхности соответствовала вязкости меда.

Оно обладает весом, гравитацией, а также причинно-следственной связью.

▲Ключевое слово: Макрообъектив. Высоковязкий золотистый мед медленно капает с деревянной палочки для размешивания, образуя длинные блестящие нити, прежде чем обильно стечь на свежеиспеченные кексы. Мед мягко растекается при соприкосновении. Изображение обладает сильным ощущением реалистичного физического движения.

Ранее физический мир в видеороликах, созданных с помощью ИИ, представлял собой «движущиеся пиксели», но в V6 объекты подчиняются законам физики. Это имеет значение не только на визуальном уровне. Мы оцениваем реальность изображения, основываясь на интуиции: правильно ли налили воду в этот стакан? Разумна ли траектория капли меда? V6 дает вполне адекватный ответ на этом уровне.

Физическое моделирование позволяет оценить реалистичность окружающего мира, а моделирование текстуры человеческого портрета – точность текстуры человека.

Именно в этой области видеоролики, созданные с помощью ИИ, наиболее подвержены ошибкам. Небольшая неточность может привести к эффекту «зловещей долины». Черты лица тонкие, но выражение лица напряженное, кожа гладкая, но на ощупь как силикон, глаза яркие, но нечеткие. Вы можете узнать в этом лицо, но интуиция подскажет, что это не человек.

V6 открыл мне новый взгляд на этот аспект. Некоторые создатели контента в индустрии сравнивают его с Seedance, и общий вывод таков: у обоих есть свои сильные и слабые стороны, и трудно сказать, какой из них лучше.

Я попробовал снять крупным планом лицо мужчины средних лет, который изо всех сил пытался сдержать слезы, используя малую глубину резкости и мягкое боковое освещение. Результат был завораживающим. Легкое дрожание ноздрей, влажность в глазах — эти движения были выверены, многослойны и логически связаны.

Эта тонкая нюансировка в микровыражениях придает персонажу ощущение, что он — искусственный интеллект. В отличие от предыдущих портретов ИИ, которые передавали эмоции скорее как «переключение состояний», в V6 эмоции демонстрируют более тонкую динамику. Текстура кожи также заслуживает внимания — сохранены текстура, поры, тонкие линии и цветовые вариации при разном освещении.

Сцены драк служат проверкой физической подготовки для видеороликов, созданных искусственным интеллектом.

Удар должен попасть в нужное место, человек, которого бьют, должен адекватно отреагировать, движение тела должно быть непрерывным, а пространственные отношения между несколькими персонажами не должны пересекаться. Если какой-либо из этих элементов нарушается, видео превращается в комедию. Многие модели видео на основе ИИ выдают результаты, которые либо показывают двух людей, занимающихся гимнастикой, либо руку, наносящую удар, проходящую прямо через лицо другого человека.

В процессе работы с V6 я создал сцену, где два мастера боевых искусств ведут ожесточенный рукопашный бой в грязном переулке во время проливного дождя. Мощный удар пришелся в челюсть противника, от которого брызгали дождь и пот, а лицевые мышцы жертвы реалистично дрожали от силы удара.

Помимо качества изображения, меня по-настоящему впечатляет то, что V6 дополняет набор возможностей визуального языка.

Что касается эффектов трансформации, я создал высокотехнологичный механический дрон, который быстро летал в воздухе, а затем стремительно трансформировался из металлической формы в водяного дракона, состоящего из текучих чернил и чернильных линий, излучающего призрачный синий свет.

▲Подсказка: Анимационный стиль в китайском духе. Во время полета дрон быстро трансформируется из металлической формы в божественного дракона, сотканного из струящихся чернил, чернильных точек и линий, излучающего слабый голубой свет.

Переход естественный, без типичной пикселизации и размытия краев. Происходит переход между твердостью металла и текучестью чернил; ни одна из текстур не обрывается резко. Весь процесс трансформации больше похож на слияние, чем на замену.

Возможности управления камерой также впечатляют. С кинематографической точки зрения, дрон быстро перемещается внутри заброшенного, ржавого промышленного завода. Ощущение пространства внутри завода, обработка света для создания эффекта металлического блеска и стабильность видеоряда во время высокоскоростных движений камеры — все это выполнено безупречно, без хаотичного ощущения «непонимания, куда смотреть», часто встречающегося в видео, созданном с помощью ИИ.

▲Ключевые слова: Кинематографическая съемка с высоты птичьего полета, реалистичный стиль. Дрон быстро пролетает внутри заброшенного, ржавого промышленного здания.

Другой подход — это замедленная съемка. Это перспективное вращение в стиле «Матрицы», когда объект замирает, а фон продолжает двигаться. Такой тип съемки требует высокой степени контроля над ощущением времени; даже небольшое отклонение может привести к замедлению движения. V6 справляется с этим сдержанно, демонстрируя некоторую градацию скорости, не перебарщивая.

Я также попробовал две сцены, требующие еще большей пространственной глубины. Первая — это классная комната. Перспектива дрона переходила из коридора в классную комнату, а камера следовала за потоком воздуха, выходящим из класса, отдаляясь и охватывая весь кампус. Экзаменационные работы и чистые листы бумаги поднимались в воздух, заполняя небо, но движение камеры оставалось непрерывным.

Второй сценарий включает в себя проникновение пчел через щели в окнах, их пролет через спальню и гостиную, обнаружение банки с медом на кухне и последующий вылет. В каждой комнате разное освещение и глубина резкости, а инерция полета пчел немного запаздывает во время смены сцен, имитируя ритм настоящих насекомых.

Возможно, наиболее значимым вкладом в реальные рабочие процессы является использование многокамерной монтажной техники. В коротком рекламном ролике женской одежды три кадра плавно соединены между собой, с использованием теплой и единой цветовой палитры, что позволяет избежать эффекта лоскутного одеяла, характерного для монтажа с помощью ИИ.

Есть еще три теста, которые мне особенно нравятся: движение камеры и расположение сцены.

Например, бумажный самолётик взлетает между книжными полками викторианской эпохи, а книги следуют за ним, образуя в воздухе туннель. Затем действие переносится в микроскопический мир внутри мозга, где нейроны светятся в полупрозрачной, похожей на туманность ткани, словно миниатюрная версия Млечного Пути.

Аналогично, бумажный самолётик совершает нелинейный полёт в лабиринте библиотеки, пикируя, скользя и задевая препятствия. Камера следует за ним вплотную, и при поворотах ощущается сильное скольжение, без размытия.

Библиотека, еще несколько мгновений назад окрашенная в теплые янтарные тона, мгновенно сменила цвет на глубокий синий и насыщенный фиолетовый при погружении в ментальный мир. Однако, поскольку движение камеры было непрерывным, переход стал визуальным эффектом, а не резким.

Каждая из этих возможностей, взятая по отдельности, является преимуществом. В совокупности они означают, что V6 начал обладать полноценными возможностями в области кинематографического языка.

Последнее, что меня впечатлило, это не визуальная составляющая, а звук.

После включения звука в версии 6 адаптация звука значительно улучшилась. Я протестировал сцену с точки зрения миниатюрной модели: вдали извергается вулкан, жители миниатюрного мира разбегаются и убегают, а с неба падает гигантская рука, держащая прозрачную чашу, и закрывает всю деревню. Прозрачная чаша слегка вибрирует, сжимая воздух при падении.

Это особенно верно для ASMR-сцен. Звуки дождя по окну, потрескивание костра и перелистывание страниц книги — все это способствует полному погружению. Качество звука напрямую определяет, смотрите ли вы видео или действительно погружаетесь в сцену.

Создание фильма одним человеком за счет одних лишь усилий называется эффективностью; создание фильма группой людей за счет одних лишь усилий называется производительностью.

Если бы V6 был просто более быстрой и совершенной моделью видео на основе ИИ, история могла бы на этом закончиться. Но PixVerse явно не намерен останавливаться на достигнутом.

По имеющейся информации, одновременно были запущены две вещи: Team Plan и мини-приложения.

Team Plan предназначен для студий с численностью от 2 до 15 человек. Основной механизм прост: команда использует единый пул баллов.

Вместо того чтобы у каждого был свой аккаунт и собственное управление данными, вся команда использует ресурсы единообразно, с распределением прав доступа в соответствии с ролями. Руководитель имеет глобальную перспективу, креативный директор курирует проектные группы, а редакторы сосредоточены на создании конечного продукта. Материалы и шаблоны из индивидуальных рабочих пространств синхронизируются с командным пространством одним щелчком мыши, что исключает необходимость передачи файлов туда-обратно в групповом чате.

Звучит просто, но решает очень реальную проблему. Раньше в нашей студии использовались инструменты для работы с видео на основе ИИ, где у каждого был свой аккаунт, а качественные материалы передавались в групповом чате. Контроль версий основывался на именах файлов и датах. По сути, это ничем не отличается от передачи презентаций PowerPoint через USB-накопители десять лет назад.

Team Plan превращает создание видеороликов с использованием ИИ из личных инструментов в командную производственную линию. Эффективность работы одного человека, создающего десять видеороликов и выбирающего лучший из них, называется индивидуальной эффективностью; эффективность работы команды, когда пять человек создают по десять видеороликов, выбирая лучший из пятидесяти.

Мини-приложения используют другой подход. Они настолько просты в использовании, что не нуждаются в объяснениях: загрузите несколько изображений товара, и система автоматически отредактирует их, превратив в полноценный рекламный видеоролик. Не требуется никаких навыков редактирования или знаний в области фототехники.

Владелец магазина на Taobao, блогер, пишущий о сяохуншу, или владелец уличной лавки, продающей молочный чай, — все они могут получить видеоролик о своем продукте и разместить его прямо на сайте в течение нескольких минут.

Модель V6 — это оружие для творческих людей, а Mini Apps — это компактная камера для всех. Когда барьер для творчества сводится к нулю, «серийная» фотография становится не просто методом для создателей контента, а инфраструктурой, доступной каждому.

Скорость — это самый дорогой аспект качества изображения.

Качество изображения достаточно хорошее, скорость достаточно высокая, а стоимость также заслуживает отдельного обсуждения.

Стандартная стоимость видео в разрешении 720p составляет приблизительно 0,04 доллара в секунду, что является низкой ценой на современном рынке, но при этом обеспечивает высочайшее качество производства. При покупке подписки до 7 апреля предоставляется скидка до 30%, а количество баллов, необходимых для производства, дополнительно снижается на 30%, что еще больше уменьшает стоимость крупномасштабного производства.

Это напоминает мне о переходе в фотографии от пленочной к цифровой.

В эпоху пленочной фотографии один рулон пленки содержал 36 кадров. Перед нажатием кнопки затвора фотографы тратили три минуты на мысленное обдумывание композиции кадра, поскольку каждый кадр имел свою цену, но качество самого затвора оставалось неизменным. Как же фотографы снимают в цифровую эпоху? Поскольку каждый кадр четкий и достаточный, они могут сделать 200 снимков подряд, а затем выбрать тот, у которого лучшая композиция. Никто не скажет, что это «несерьезно», потому что в конечном итоге зритель всегда видит лучший кадр.

V6 положил начало «цифровой эре» создания видео с помощью искусственного интеллекта.

Понимание PixVerse понятия «быстрота» давно выходит за рамки самой скорости генерации.

Начиная с ранних высокоскоростных генераций, заканчивая взаимодействием в реальном времени в R1, точным пониманием команд в V6, делающим описания более естественными, и, наконец, Team Plan, повышающим эффективность совместной работы на уровне команды, эта линия демонстрирует, что PixVerse ускоряется одновременно в нескольких направлениях: высокая скорость генерации, точное понимание команд и улучшенная эффективность совместной работы.

В основе всего этого лежат мощные возможности PixVerse по итерации моделей.

Причина, по которой она неизменно удерживает лидирующие позиции в рейтингах, заключается в том, что каждое поколение её продуктов было посвящено решению самых сложных задач: физическому моделированию, текстурированию портретов и кинематографическому языку — каждое из этих направлений было сложным, но правильным. Первоначальная цель V6 была проста: позволить создателям сосредоточить свою энергию на творчестве, а остальное предоставить инструментам.

Когда инструмент делает создание высококачественного контента легкодоступным в повседневной жизни, сводит к нулю порог входа и повышает эффективность сотрудничества на уровне команды, он перестает быть просто «моделью». Он становится инфраструктурой эпохи контента.

PixVerse V6 положил начало эре стремительного развития видеопроизводства с использованием искусственного интеллекта, обеспечивая создание видеороликов с головокружительной скоростью и непревзойденным качеством, готовых к немедленной отправке.

Эта эпоха только начинается.

Авторы: Ли Чаофань, Мо Чунюй

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете быстро найти еще больше интересного контента.