Для создания гоночной трассы мирового класса компания VAST выбрала маршрут, по которому раньше никто не ходил.

В этом году, помимо секции Agent, World Model также стала новым полем битвы в индустрии искусственного интеллекта. Недавно Фэй-Фэй Ли и Ли-Кун Ян объявили о привлечении инвестиций в размере 1 миллиарда долларов, и World Model также оказалась на перепутье.
APPSO проанализировала пять основных направлений в современных моделях мира, каждое из которых использует различные технические подходы. Например, школа JEPA Янга Ликуна фокусируется на прогнозировании абстрактных представлений; школа пространственного интеллекта Фэй-Фэй Ли использует Marble от World Labs для явной 3D-реконструкции; а школа моделирования обучения DeepMind запустила Genie для создания интерактивных виртуальных сред.

▲ Изображение сгенерировано искусственным интеллектом
Все эти ученые в области ИИ, даже крестные отцы/крестные матери ИИ, предшествовавшие ChatGPT, утверждали, что парадигма обучения текста в больших языковых моделях достигла «узкого места». ИИ должен полагаться на модели окружающего мира, чтобы понимать физический мир, но нет единого мнения о том, какую именно «модель окружающего мира» следует создавать .
В последние дни компания VAST, занимающаяся разработкой искусственного интеллекта, завершила раунды финансирования серии A+ и A++, привлекая в общей сложности почти 200 миллионов долларов. Это произошло вскоре после того, как в начале марта этого года VAST завершила раунд финансирования серии A на сумму 50 миллионов долларов.
Возможно, вам незнаком VAST, но звучит ли вам знакомо создание 3D-моделей с помощью Tripo? В наших предыдущих публикациях о сочетании моделей Seedance 2.0 и GPT Image 2 мы несколько раз упоминали, как Tripo AI можно использовать для преобразования многоракурсных изображений, созданных с помощью GPT Image 2, в 3D-модель.

▲ Tripo — это универсальная крупномасштабная 3D-модель, созданная в среде VAST.
Главный научный сотрудник VAST Цао Яньпэй заявил, что с самого первого дня VAST занималась раскрытием базовой инфраструктуры для интерактивного контента следующего поколения, а также созданием специализированной глобальной основы для общего искусственного интеллекта.
Эта задача была разделена на два этапа: первый этап заключался в « создании всего »; второй этап — в динамическом « создании мира », предоставляя пользователям и интеллектуальным агентам развивающуюся и допускающую метод проб и ошибок полноценную виртуальную среду.
Создание всего сущего подразумевает использование 3D-искусственного интеллекта для генерации объектов, соответствующих стандартам конвейера; создание же мира, с другой стороны, — это задача модели мира: понимать пространственный масштаб и эволюцию состояний для поддержки взаимодействия между несколькими пользователями.
Цао Яньпэй считает, что простые статические 3D-модели не могут поддерживать интерактивный мир. Модели представляют собой лишь «базовое состояние мира» и им всё ещё не хватает целого набора правил для функционирования этого мира.
В отличие от пяти основных школ, мировая модель прошлого объединяет состояние и сцену в единую модель для прогнозирования. VAST разделяет эти два аспекта: нижний слой поддерживает отдельное состояние мира, а верхний слой отображает сцену по запросу .
Преимущества такого подхода заключаются в том, что состояние существует независимо, и объекты не исчезают, когда покидают поле зрения камеры; состояние может отображать разные ракурсы для нескольких человек одновременно, и, естественно, возможно одновременное взаимодействие нескольких человек ; изменения, внесенные пользователями в мир, действительно сохраняются в состоянии, и следующий человек, который войдет в него, увидит тот же результат.
В рамках проекта Eden компании VAST модель мира была перестроена с использованием этой логики. Она стала первой в мире моделью мира, позволяющей осуществлять независимое поддержание и детерминированное управление состоянием мира.
Тогда возникает вопрос: зачем отделять модель состояния мира от визуализации, и почему VAST первым применил именно такой подход?
Плавная картинка не означает, что мир функционирует должным образом.
Более плавный процесс генерации видео можно назвать мировой моделью. Статичная 3D-сцена, допускающая движение, также может называться мировой моделью. Сцена с управляемыми точками обзора также может называться мировой моделью.
Термин «мировая модель», кажется, охватывает практически всё.
В демонстрационном видеоролике Google Genie игроки управляют персонажем и идут вперед, при этом сцена генерируется соответствующим образом. Но если вы обернетесь, сцена позади вас может измениться, или может появиться что-то, чего раньше не существовало, потому что Genie угадывает, что находится позади вас, основываясь на своей памяти о последних нескольких кадрах.

▲ Genie и подобные модели мира, по сути, создают визуально целостное видео.
Мы называем этот тип генерации видео. В технической реализации модель мира предсказывает следующий кадр, подает на вход модели данные о движении и позволяет ей сгенерировать следующую сцену. Повторяя этот процесс, можно смоделировать мир.
Цао Яньпэй называет это «однокадровым снимком», где пространство, события, перспектива и внешний вид сжимаются в один авторегрессивный видеокадр. Как только камера удаляется, состояние этого места больше не сохраняется; при повторном просмотре модель может быть восстановлена только с использованием кэша ключ-значение в трансформере.
Говоря прямо, оно не помнит весь мир, а лишь несколько кадров.
Другой тип — это World Labs Фэй-Фэй Ли и HY World от Tencent, которые можно назвать школой пространственного интеллекта. Наиболее распространенной особенностью моделей этого типа является возможность экспорта многократно используемых 3D-объектов.
Сначала они попытались построить трехмерное пространство, чтобы ИИ мог по-настоящему понять геометрические и физические взаимосвязи, прежде чем обсуждать что-либо еще.
Например, World Labs Marble может генерировать конечный мир, который мы можем свободно исследовать. В этом сгенерированном статическом мире достигается согласованность ракурсов, поскольку 3D-объекты статичны. Однако этот мир также теряет свое временное измерение; сцена остается застывшей в момент генерации, без физических изменений, событий и причинно-следственных связей.

▲ Созданный мир статичен; свет не погаснет со временем, и небо не станет светлее.
Мы можем войти, но ничего не сможем изменить, и наши действия ничего не изменят.
В случае VAST модель мира не может просто генерировать пиксели, и она не может быть просто статичным пространством.
Интерактивная модель мира должна иметь базовое состояние, которое сохраняется во времени, может наблюдаться и запрашиваться одновременно с нескольких точек зрения, и это состояние должно постоянно обновляться.
Создавайте модели игрового мира так же, как вы создавали бы масштабные игры.
Поскольку невозможно сжать такие состояния, как пространство, события и перспективы, в единый визуальный элемент информации, давайте полностью их разделим.
Как и в играх с открытым миром, в которые мы играем, игровой сервер поддерживает состояние мира: кто где находится, что разрушено, какой сундук с сокровищами открыт. Экран нашего компьютера просто выполняет рендеринг в реальном времени на основе этого состояния, в сочетании с сотнями гигабайт игровых файлов в нашей локальной папке.

Данные карты и отрисовка экрана — это две совершенно разные системы. Когда кто-то попадает в наш мир, все по-прежнему используют один и тот же базовый мир статических файлов, и экран каждого человека — это просто результат отрисовки с разной точки зрения.
В рамках проекта VAST Project Eden эта логика была переписана с использованием генеративного искусственного интеллекта. Разработчики отказались от традиционной монолитной логики моделей типа «черный ящик» и создали трехслойную алгоритмическую структуру, которая «изначально разделена между состоянием и рендерингом».
В основе лежит структурированное состояние, определяющее существующее и происходящее в этом мире — геометрию сцены, идентификаторы объектов и логику событий — полностью независимо от ракурса камеры. Когда игрок выполняет какое-либо действие в рамках модели мира, система сначала обновляет это базовое состояние.
В центре находится слой преобразования, который преобразует состояние мира в набор локальной условной информации, основанной на том, «кто в данный момент наблюдает и с какой точки зрения». Например, после выполнения этого действия, какие объекты видны с этой точки зрения, их приблизительные пространственные отношения, а также какие события произошли и изменились.
Верхний слой — это генеративный рендеринг, который, исходя из этих условий, действительно «рисует» изображение, дополняя его освещением, материалами и динамическими деталями.
Благодаря такому разделению, ответственность видеомодели сводится к одному: высококачественному рендерингу . Ей не нужно запоминать весь мир или гадать, находится ли тот или иной объект на месте; все это обрабатывается базовым состоянием. Ее сила заключается в красивой отрисовке, поэтому теперь она может сосредоточиться на красивой отрисовке.
Как только модель мира начинает поддерживать устойчивое базовое состояние, обучающие данные также изменяются.
Согласно определению Project Eden, данные, действительно подходящие для обучения моделей мира, должны содержать два слоя информации: базовое состояние вывода и высококачественные визуальные изображения. Если эти два слоя не совпадают, данные не считаются «исходными».
Откуда берутся данные?
VAST использует накопленные компанией Tripo возможности создания базовых 3D-моделей для обратного проектирования огромных массивов 2D-видео из интернета, восстанавливая такую информацию, как глубина, положение камеры и геометрическая траектория, а также реконструируя лежащее в основе пространственное состояние.
Цао Яньпэй откровенно заявил, что без этого понимания и возможности создания трехмерных моделей "мы, возможно, даже не сможем начать создавать модели мира".
С другой стороны, путем поиска синтетических данных, таких как координаты объектов, отношения столкновений и входные данные действий из игрового движка, для формирования полного соответствия между «состоянием и результатом», модель может научиться тому, как будет меняться состояние мира после совершения действия.
Интернет-видео отвечает за обобщение и широту охвата, в то время как данные поискового движка отвечают за точность и управление; ни один из этих факторов не может функционировать без другого.
Возможно, это и есть будущее мира искусственного интеллекта.
Когда состояние мира становится устойчивой и независимой системой, эти архитектурные различия напрямую отражаются на уровне возможностей.
Наиболее очевидное изменение — это сохранение состояния окружения. Когда пользователь входит в сцену в Project Eden, двигаясь вперед или выполняя другие действия, он делает это в рамках существующей сцены. Базовое состояние остается неизменным и никогда не исчезает, что устраняет необходимость его восстановления из исторических кадров.
Это может показаться мелочью, но это представляет собой серьезное препятствие в процессе создания видео, которое по-прежнему трудно преодолеть.
Тот же принцип применим и к нескольким игрокам, использующим один и тот же мир. Когда два игрока попадают в одно и то же базовое состояние, если игрок А перемещает ящик в заданную точку, игрок Б также увидит то же положение ящика. В этой децентрализованной архитектуре несколько игроков используют одну и ту же базовую модель мира, существует только один набор состояний, и каждый игрок отображает свою собственную версию.

На основе нескольких демонстраций VAST успешно реализовал сценарии, в которых два игрока совместно перемещают ящики, а две машины соревнуются на одной трассе (на разных экранах). Это практически невозможно сделать в рамках чисто видеофреймворка; для этого потребовалось бы единое глобальное состояние.

Пример стрельбы по мишеням иллюстрирует этот момент еще лучше. Когда игрок стреляет из водяного пистолета, система может точно определить текущую ориентацию и относительное положение мишени, точно рассчитать, было ли попадание совершено, записать счет, и этот результат навсегда сохраняется в состоянии системы.


Если передать это же событие видеогенераторам, можно получить видео "струя воды, попадающая в цель", но надежно сохранить результат будет невозможно.
Модели генерации видеоконтента преуспевают в сходстве, а не в точности. Модели мира, напротив, требуют последнего. Цао Яньпэй сказал, что если модель не может делать точные прогнозы и выводы о действиях, «ее трудно назвать моделью мира».
Также происходит обобщение типов действий. Раньше большинство моделей мира могли поддерживать лишь несколько действий: вверх, вниз, влево, вправо, плюс прыжок, который можно было выполнять с помощью клавиш направления.
Демонстрация Project Eden также включает такие действия, как выпас овец, тушение пожаров и управление лодками. Это также обусловлено преимуществом в эффективности обучения, обеспечиваемым децентрализованной архитектурой. Для вывода состояния достаточно узнать только «каково следующее состояние при данном действии», без необходимости одновременно изучать «как выглядит этот процесс», что гораздо менее трудоемко, чем изучение всего сразу.



Когда все эти возможности объединяются, создается ощущение по-настоящему функционирующего мира, а не просто динамичного видео высокой четкости.
Архитектура Эдема открывает новые возможности для создания моделей мира.
Хотя проект «Эдем» — это лишь предварительный вариант исследования модели мира, предложенного командой VAST, архитектурные решения, лежащие в его основе, указывают отрасли направление, заслуживающее изучения в долгосрочной перспективе.
В наши дни все говорят о термине «модель мира», но под ним подразумевают не одно и то же. Кто сможет обеспечить сохранение данных, кто сможет поддерживать множество пользователей и кто сможет эффективно масштабироваться — помимо таких факторов, как вычислительная мощность и финансирование, сам выбранный путь также играет роль в отборе участников.
Мировая модель, основанная исключительно на видео, может потреблять в сотни раз больше вычислительной мощности, чем требуется для создания видеоролика Sora, и, как и Sora, она может оказаться коммерчески нежизнеспособным вариантом.
Однако, если поддержание состояния осуществляется в облаке, а рендеринг изображений — на стороне устройства, подобно локальному рендерингу графики, то пользователям не придётся платить за каждый кадр, и ситуация изменится.
Компания VAST упомянула, что их существующая технология генерации 3D-моделей является именно тем основным источником данных, который используется для обучения моделей окружающего мира. Они используют свои возможности в области создания базовых 3D-моделей для обратного проектирования огромных массивов интернет-видео, извлекая траектории глубины и геометрии, преобразуя обычные видеоролики в обучающие данные с аннотациями состояний.
По мере развития проекта Eden и решения проблем многопользовательской параллельной обработки на инженерном уровне, он может также нарушить работу существующих традиционных инструментов DCC, таких как Blender, и игровых движков, таких как UE и Unity.
В рамках глобальной модели плата за каждое поколение взиматься не будет, а будет использоваться в качестве инфраструктуры для распространения контента и выполнения программ, аналогично модели оплаты за рабочее место в игровых движках или у поставщиков облачных услуг.
С одной стороны, это платформа-песочница, изначально созданная для искусственного интеллекта, где пользователи могут создавать интерактивные цифровые миры с физической логикой, которыми могут делиться несколько человек одним щелчком мыши, используя естественный язык или простые действия, что значительно снижает порог в создании контента.
Цель VAST — снизить порог входа для создания виртуальных миров до уровня фотографии. Подобно платформам интерактивного контента, создаваемые миры могли бы войти в нашу жизнь подобно коротким видеороликам, превратившись в новую интерактивную развлекательную экосистему.
С другой стороны, для научных исследований и промышленности это может обеспечить среду моделирования с полными физическими закономерностями, долгосрочной временной согласованностью и свободой вмешательства, и может стать высококачественной базой моделирования, адаптированной для обучения и оценки производительности в области воплощенного интеллекта.
Таким образом, мировая модель все ближе и ближе приближается к созданию по-настоящему устойчивой основы для всего мира.
Внутри компании Цао Яньпэй разделил план действий на три этапа:
Первый шаг — убедиться в том, что моделирование состояния и визуальное представление могут быть полностью разделены. Демоверсия, выпущенная Project Eden, является ответом на этот вопрос.
Второй шаг заключается в преодолении обобщения прогнозирования состояния, чтобы модель могла выводить самосогласованные результаты для обобщенных действий, таких как «разбить стену одним движением пальца».
Третий этап включает в себя решение сложных инженерных задач, связанных с многопользовательской параллельной обработкой данных и затратами на вывод результатов. Он предполагает, что настоящая коммерциализация станет процессом, рассчитанным на среднесрочную и долгосрочную перспективу.
Подобно тому, как раньше спорили о реалистичности изображений и видеороликов, созданных ИИ, теперь ИИ может за один раз создавать плакаты и рекламные видео. Модель мира, вероятно, движется в том же направлении, смещаясь от вопроса о том, чье изображение более реалистично, к вопросу о том, чей мир может функционировать непрерывно, более стабильно поддерживать взаимодействие нескольких человек и накапливать все больше и больше контента, созданного пользователями.
От прогнозирования пикселей следующего кадра до экстраполяции следующего состояния, конечная цель модели мира начинает проясняться.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.