Только что у короля видео с ИИ появилось большое обновление! В борьбе с Сорой Уилл Смит ест лапшу вкуснее.
Компания OpenAI недавно с большим успехом запустила модель видеогенерации Sora 2. Следом за ней Google Veo 3.1 также представила сегодня крупное обновление.
В частности, на этот раз обновление Google включает два уровня.
Первое — это функциональные улучшения . Функция редактирования видео была улучшена, и теперь пользователи могут более детально редактировать клипы и точнее контролировать финальное изображение.
Что еще важнее, впервые Google добавила аудио в функции «Ингредиенты в видео», «Кадры в видео» и «Расширить», сделав аудио частью творческого процесса.
Второе — прогресс на уровне модели.
Выпущенная сегодня версия Veo 3.1 демонстрирует значительные улучшения по двум ключевым показателям: распознаванию ключевых слов и аудиовизуальному качеству, что делает преобразование изображения в видео более естественным и плавным.
Как мы все знаем, Veo 3 уже обладает обширными возможностями редактирования: он может вести генерацию персонажей с помощью референсных изображений, заполнять средний контент первыми и двумя последними кадрами и продолжать расширять его в зависимости от конца видео.
Veo 3.1 добавляет поддержку звука ко всем этим существующим функциям, позволяя пользователям создавать более сложные сценарии. Эти функции пока находятся на экспериментальной стадии, и Google заявляет, что продолжит оптимизировать их и совершенствовать на основе отзывов пользователей.
Теперь пользователи могут использовать эти функции следующим образом:
1. Используйте несколько референсных изображений для определения персонажей, объектов и стиля, а функция «Материал в видео» сгенерирует финальную сцену на основе этих материалов.
2. В качестве альтернативы вы можете указать начальный и конечный кадр и позволить функции «Кадр в видео» создать плавный переход в середине, что особенно полезно для проектов, требующих художественных переходов.
3. Если вы хотите создать более длинное видео, функция «Расширить» может генерировать контент длительностью более одной минуты, продолжая генерацию на основе предыдущего абзаца, чтобы сохранить непрерывность истории.
Стоит отметить, что ранее функция преобразования текста в видео в Veo 3 поддерживала только горизонтальный вывод на экран с разрешением 720p, но поскольку вертикальный формат видео стал основным форматом для интернет-контента, Veo 3.1 теперь может также генерировать как горизонтальные, так и вертикальные видео с соотношением сторон 16:9, что больше соответствует современным привычкам потребления контента.
Совершенствование креативности часто требует повторных итераций.
С момента запуска Flow в мае этого года пользователи создали в приложении более 275 миллионов видеороликов. С учётом отзывов пользователей во Flow были разработаны две новые функции редактирования:
«Вставить новые элементы» позволяет пользователям добавлять контент в любое время, а Flow автоматически обрабатывает тени и освещение, благодаря чему новые детали естественным образом вписываются в исходное изображение;
Функция «Удалить объект» (скоро появится) позволяет удалять ненужные элементы, а Flow автоматически перестраивает фон для сохранения согласованности. Сочетание этих двух инструментов делает процесс редактирования видео более гибким.
Модель Veo 3.1 уже доступна разработчикам через API Gemini, корпоративным пользователям через Vertex AI и обычным пользователям через приложение Gemini. Новые функции также доступны как в API Gemini, так и в Vertex AI.
Мы испытали и разработали 3 наиболее практичных сценария применения Veo.
Видеоролики с видом от первого лица о путешествиях во времени, ASMR-резке фруктов, металле, кроличьем батуте и других, ставших вирусными некоторое время назад, были созданы с помощью Veo 3.
▲Сгенерировано Veo 3, подсказка: камера 50 мм, крупный план лимона, сделанного из желтоватого стекла, который разрезают горизонтально на деревянной доске. Внутри фрукт тоже стеклянный, с небольшим количеством тающих блёсток. Вся сцена мягко подсвечена сверху.
Например, в этом примере создания стеклянного лимона подсказка требует «лимон, сделанный из желтого стекла, разрезанный горизонтально, со стеклянной внутренней частью и расплавленными блестками внутри, мягко подсвеченный сверху».
Выходные данные Veo 3 пригодны для использования, но Veo 3.1 передает «тающий блеск» с большей точностью.
В сценарии электронной коммерции мы напрямую попросили его создать рекламу продукта. Помните, что типичный телевизионный рекламный ролик длится всего 15–30 секунд, чтобы донести информацию о бренде.
Создано Sora 2. Задание: Создайте рекламу для электронной коммерции на основе следующей информации о продукте, включая реалистичное изображение, детали вращения в 3D, сравнение сценариев использования и сопутствующие субтитры. Умные часы X2, 7 дней автономной работы, 1299 иен. Умные часы, водонепроницаемость до 50 метров, мониторинг здоровья (ЭКГ, сон).
Sora 2 искусно снабжает информацию о продукте аудиопояснениями на китайском языке, демонстрируя лучшее понимание. Veo 3.1 же просто воспроизводит музыку, которая не так подробна, как Sora 2. Однако, судя по качеству изображения, визуальное представление Veo 3.1 более продвинутое и коммерческое.
▲Сгенерировано Veo 3.1
Мы также попробовали генерацию аниме, и на этот раз производительность Veo 3.1 оказалась довольно средней.
▲Сгенерировано Sora 2, подсказка: В стиле анимации студии Ghibli мальчик с собакой взбегает на живописный травянистый холм. Вдали на заднем плане видна деревня, а по небу плывут красивые облака.
Очевидно, что обучающих данных Veo 3.1 недостаточно для этого, и он всё ещё далек от изысканного анимационного стиля студии Ghibli. Необъяснимо исчезнувшая собака — классический пример грубых ошибок ИИ.
▲Сгенерировано Veo 3.1
X Тестовая демонстрация поедания лапши Уиллом Смитом, которой поделился пользователь сети @aisearchio, подняла общую текстуру на более высокий уровень, значительно увеличив плавность движений и детализацию света и тени, а также добавив насыщенности выражений без схлопываний.
В целом, Veo 3.1 достаточно пригоден для создания контента фотографического и коммерческого качества, а его способность интерпретировать детали значительно улучшилась. Однако всё ещё есть значительные возможности для совершенствования в плане точного воспроизведения определённых стилей, таких как анимация и иллюстрация, которые требуют строгих стилистических ограничений.
Тем не менее, от Veo 3 до Veo 3.1 и от Sora до Sora 2 скорость итерации моделей генерации видео превзошла воображение большинства людей.
Поскольку инструменты ИИ для генерации видео постепенно превращаются из профессиональных в массовые приложения, каждый фрагмент контента в вашем кругу друзей, на платформах коротких видеороликов и даже в новостных источниках может быть создан с помощью ИИ.
Это также означает, что каждый фрагмент контента, который вы увидите в будущем, потребует дополнительного этапа подтверждения — независимо от того, получен ли он в результате реальной съемки или генерации с помощью искусственного интеллекта.
Автор: Мо Чунгюй
Ссылка на видео в статье: https://mp.weixin.qq.com/s/qBOkoWaGF5k7oPCR_H5aqA
#Приглашаем вас следить за официальным публичным аккаунтом WeChat проекта iFaner: iFaner (WeChat ID: ifanr), где в ближайшее время вам будет представлен еще более интересный контент.
iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo


Новый король видеороликов с искусственным интеллектом стал мировой сенсацией, и Уилл Смит наконец-то может нормально есть лапшу (с множеством реальных демонстраций)











