Короче говоря, искусственный интеллект построил мне трёхмерный город в стиле студии Ghibli, где я мог бегать и прыгать.

Помимо недавно вышедшего от Anthropic Opus 4.7, модели игровых миров стали еще одним полем битвы за крупные релизы моделей на этой неделе.

Всего за несколько дней сообщество разработчиков искусственного интеллекта выпустило серию революционных моделей мира, следующих одна за другой.

Сначала компания World Labs Фэй-Фэй Ли открыла исходный код Spark 2.0, а вчера Tencent официально выпустила и открыла исходный код HY-World 2.0.

▲Адрес для демонстрации 3D-моделей мира Hunyuan 2.0 от Tencent: https://3d.hunyuan.tencent.com/sceneTo3D

Компания Alibaba также неустанно работает. Недавно созданная команда ATH Innovation Business Unit официально анонсировала HappyHorse и сразу же выпустила мировую модель HappyOyster.

▲Скриншот официального сайта Alibaba HappyOyster: https://www.happyoyster.cn/

Наиболее незаметным событием стало появление NVIDIA Lyra 2.0. Не было ни пресс-конференции, ни официального релиза, но лаборатория космического интеллекта напрямую выпустила статью под названием «Исследоваемые генеративные 3D-миры».

▲Блог исследований NVIDIA: https://research.nvidia.com/labs/sil/projects/lyra2/

Такой уровень плотности создает иллюзию того, что эти исходные модели изображений и видео совершенно неадекватны. Современный ИИ перешел от двухмерной стадии «генерации изображений или видео» к трехмерной пространственной эре «создания мира».

Стремительно растет не только технологический сектор, но и рынок капитала отреагировал на это бурно.

Сегодня компания Groupcore Technology официально разместила свои акции на Гонконгской фондовой бирже. Эта компания, специализирующаяся на пространственном интеллекте, занимается внедрением ИИ в физический мир. Успешное размещение акций знаменует собой официальное рождение «первой акции в индустрии моделирования мира» и посылает четкий сигнал внешнему миру: моделирование мира действительно начинает набирать обороты.

На фоне всеобщего ажиотажа мы также обнаружили, что, хотя все эти компании называют себя мировыми образцами, их подходы совершенно разные. Одна, которая может только генерировать видео, кажется, представляет собой демонстрационный продукт; другая, которая может генерировать 3D-модели, кажется, может быть интегрирована в рабочий процесс разработки и проектирования; а третья рассматривает будущую работу в научной статье, надеясь использовать ее для обучения роботов.

В настоящее время открыт прием заявок на участие в проекте Hunyuan 3D World Model 2.0 от Tencent. Мы сразу же протестировали его, надеясь найти ответ: какие реальные проблемы могут решить эти модели мира, считающиеся следующим этапом развития ИИ?

От просмотра фильма до начала игры

Ранее, когда мы обсуждали модели мира, это чаще всего звучало как разговор о «более длинном видео, которое лучше понимает физические законы и отличается большей согласованностью». Но наиболее очевидным результатом использования Hunyuan 2.0 на этот раз стало то, что он больше не генерирует файлы MP4, а создает настоящие 3D-файлы.

В процессе игры я ввел простую подсказку: «Горный городок в стиле Ghibli, сумерки». После нескольких минут вычислений на экране появилось изображение, похожее на огромный игровой мир.

Нажмите для загрузки. Hunyuan 3D предоставляет четыре формата файлов 3D-моделей: панорамные изображения, файлы .spz и .ply для Splats, а также коллайдерную сетку.

Четыре типа файлов охватывают различные файлы 3D-моделей, такие как Mesh (треугольная сетка), 3DGS (3D-модель с гауссовым распределением) и облако точек. Эти файлы можно напрямую импортировать в Unity и Unreal Engine, и разработчики игр смогут редактировать, настраивать и создавать уровни.

▲Созданную модель мира также можно сохранить в виде панорамного изображения, при этом исходное изображение будет занимать приблизительно 20 МБ.

Что касается генерации миров, то помимо обычных текстовых миров, Hunyuan 3D также поддерживает миры на основе изображений. Мы нашли скриншот из фильма «План спасения», где Рокки наконец-то попадает в мир, созданный для него народом Эридана, и Hunyuan воссоздает все созвездие Эридана.

▲Поскольку на скриншотах из фильма показана внешняя оболочка, окружающая пляж, где живет Рокки, в мире также присутствует «тень», созданная гибридом.

При использовании высококачественных изображений заснеженных гор, загруженных с Unsplash, снежные сцены, созданные с помощью Hunyuan 3D World Model 2.0, обладают более высоким качеством изображения и большей реалистичностью.

▲ Панорамный обзор и перемещение персонажей в режиме режиссера

Приложение предоставляет соответствующие рекомендации как при загрузке изображений, так и при отображении текстовых подсказок. Например, загружаемые изображения должны иметь разрешение не менее 512*512 пикселей, не должны содержать людей на изображении, не должны быть крупные планы животных/людей, а также не должны использоваться изображения сплошного цвета или сплошной текстуры; изображения, занимающие большую часть изображения, такие как небо или звездное небо, также не подходят.

В идеале текстовые подсказки должны представлять собой категорию сцены (пустыня, море, комната и т. д.) + характеристики сцены (визуальное описание объектов, неба и т. д.) + стиль (по желанию, мультяшный/реалистичный/стиль масляной живописи и т. д.).

В Hunyuan 3D World Model 2.0 также очень хорошо реализована стилизация. Как видно из существующих примеров игровых миров на официальном сайте, будь то тёплый книжный стиль или реалистичный игровой стиль, его семантическая интерпретация очень точна; текстура стен, тени и свет в подземелье создают ощущение полного погружения.

Помимо создания пригодных для использования 3D-моделей, настоящим «миром» Hunyuan 2.0 стал режим персонажа.

Теперь мы можем напрямую управлять персонажем, заставляя его ходить, ускоряться, прыгать, поворачиваться и исследовать новую сгенерированную сцену, как в масштабной игре. Также реализована встроенная система обнаружения столкновений на основе физики, благодаря чему персонаж не будет проходить сквозь стены и не упадет за край карты.

Этот мгновенно генерируемый и мгновенно доступный для игры опыт действительно стирает границы между генерацией с помощью ИИ и игровыми движками. По мере расширения масштабов генерируемых миров, исследование персонажа может стать еще более интересным.

При генерации мира в реальном времени мы можем напрямую управлять действиями персонажа. 3D-модель Hunyuan автоматически сгенерирует соответствующий мир, при этом каждая генерация займет одну минуту.

По сравнению с предыдущей 3D-моделью Hunyuan, эта версия 2.0 не только поддерживает загрузку файлов 3D-ресурсов и представляет совершенно новый режим персонажа для задачи «Создание мира из одного предложения/одного изображения», но и перерабатывает базовую архитектуру модели с точки зрения детализации изображения и реализма.

▲Модель мира Hunyuan 2.0: Мультимодальная мировая архитектура | https://3d-models.hunyuan.tencent.com/world/

Новая архитектура модели создает замкнутый цикл «понимания, генерации и реконструкции».

  • HY-Pano-2.0: Не требуется никаких профессиональных настроек камеры; обычные изображения можно использовать для создания панорам на 360°.
  • Технология пространственного агента: подобно оснащению ИИ навигацией, она может интеллектуально планировать траектории передвижения, обеспечивая бесшовную интеграцию ухода и зрения.
  • HY-WorldMirror 2.0: Гарантирует сохранение целостности боковых и задней сторон объекта даже при значительных изменениях угла обзора.

В задаче реконструкции мира модель Hunyuan World Model 2.0 способна восстанавливать реалистичные сцены, используя в качестве входных данных множество изображений или видеопотоков.

Раньше для создания/реконструкции интерактивного 3D-мира требовалась хорошо организованная команда и месяцы доработки; теперь же, с такими инструментами, как Hunyuan 2.0, всё, что нужно, — это идея.

Более того, эта идея, представленная в виде текста, изображений или видео, может сгенерировать прототип, который можно перетащить в Unity. Даже если качество еще нуждается в доработке, а многие детали требуют ручной корректировки, ИИ начинает играть роль во всем процессе проектирования.

Неделя безумных моделей в мире, безумный ИИ

Если мы переключим наше внимание с генерации ресурсов, модели персонажа и реконструкции мира в Hunyuan 3D World Model 2.0 на другие модели мира, выпущенные на этой неделе, мы обнаружим, что эти различные модели мира, прорываясь в разных измерениях, в совокупности формируют более четкую модель мира.

В настоящее время HappyOyster фокусируется на режимах роуминга и управления, что позволяет нам в любой момент вмешиваться в развитие мира, используя естественный язык, переписывая сюжет и действия персонажей.

NVIDIA Lyra 2.0 может генерировать непрерывную трехмерную среду длиной до 90 метров из одного изображения. Сгенерированные сцены можно даже напрямую передавать в Isaac Sim для обучения роботов основам физики.

Spark 2.0 от Фэй-Фэй Ли преодолевает «последний отрезок» доставки. Если предыдущие модели фокусировались на создании виртуального мира, то Spark 2.0 начал решать задачу его представления пользователям. Благодаря уникальным технологиям потоковой загрузки и виртуальной памяти, ему удалось вместить огромный мир из сотен миллионов частиц 3DGS в веб-браузер на обычном мобильном телефоне.

▲Интерфейс World Lab, подсказка: горный городок в стиле Ghibli, сумерки

Рассматривая эти интерфейсы, созданные на основе моделей мира, каждый из которых демонстрирует свои уникальные возможности, можно сделать реалистичный вывод: очевидно, что модель мира еще не достигла своего расцвета, достойного ChatGPT.

Шквал релизов от этих четырех компаний на этой неделе, похоже, является подготовкой к этому моменту, причем каждый аспект — качество изображения, интерактивность, формат ресурсов, способ доставки и точность моделирования — оптимизируется в своем направлении. Однако ни одной модели пока не удалось объединить эти компоненты в продукт, который «обычные люди захотели бы открывать каждый день».

За последние два года, когда программирование с использованием ИИ изменило разработку кода, а такие модели, как Nano Banana, произвели революцию в графическом дизайне, фронтенд-разработчики и графические дизайнеры уже столкнулись с ситуацией «xxx мертв». Теперь же эта «снежинка», вероятно, унесет ветром 3D-дизайн.

По мере выхода на рынок всё большего числа производителей моделей, рабочий процесс 3D-проектирования будет постепенно переходить от использования искусственного интеллекта к управлению с помощью ИИ. В это время создание и использование интерактивного 3D-мира станет таким же простым, недорогим и естественным, как сегодня просмотр коротких видеороликов на наших телефонах.

В конце концов, во всех научно-фантастических произведениях никто не стал бы сопротивляться желанию стать «создателем» и определить новый мир.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.