Первая в мире многопользовательская игра с искусственным интеллектом уже здесь! Ваш старый компьютер также может воспроизводить Прилагается адрес для скачивания.

ИИ, играющий в игры, не является чем-то новым; В играх по программированию искусственного интеллекта тоже нет ничего нового.
Но использовать ИИ для создания игрового мира, который поддерживает взаимодействие между двумя людьми в реальном времени, согласованные точки зрения и логическую синхронизацию? Сегодня это произошло впервые.
Израильская команда Enigma Labs сегодня объявила о выпуске первой в мире многопользовательской игры, созданной искусственным интеллектом, — Multiverse на платформе X. Название звучит так, будто оно было создано Marvel, а игровой процесс действительно научно-фантастический.
Дрейф и сбой синхронизированы, операции реагируют друг на друга, а детали могут соответствовать частоте кадров.
Все в игре больше не контролируется предустановленными скриптами или физическими движками, а генерируется в реальном времени с помощью модели искусственного интеллекта, гарантируя, что оба игрока видят один и тот же логически единый мир.

Более того, Multiverse имеет полностью открытый исходный код: код, модели, данные и документы доступны на GitHub и Hugging Face. Вы даже можете запустить его прямо на своем компьютере.
Генеральный директор Hugging Face Клеман Деланг также сделал звонок онлайн на платформе X:

Это самый крутой набор данных, который я сегодня видел на Hugging Face: метки действий для гонок 1 на 1 в Gran Turismo 4, используемые для тренировки многопользовательской модели мира.
Транспортные средства постоянно меняют положение на трассе, обгоняя, дрейфуя, ускоряясь, а затем возвращаясь на определенном участке.

Так что же представляет собой эта модель под названием Multiverse? Официальная техническая группа поделилась более подробной информацией о конструкции в техническом блоге.
Перед этим нам нужно представить традиционную модель мира ИИ: вы управляете ею, и она предсказывает, как должна быть сгенерирована картина. Модель просматривает ваши операции, просматривает предыдущие кадры, а затем генерирует следующий кадр. Принцип нетрудно понять:
- Средство внедрения действий: преобразуйте операции игрока (например, какую клавишу вы нажали) во встраивающие векторы.
- Сеть шумоподавления: используйте модель диффузии для прогнозирования следующего кадра путем объединения операций и предыдущих кадров.
- Upsampler (опционально): повышает разрешение и детализацию создаваемых изображений.

Но как только появляется второй игрок, проблема усложняется.
Самый типичный баг — машина с вашей стороны только что врезалась в ограждение, а сторона противника все еще набирает скорость; ты сбрасываешь с трассы, но соперник даже не видит, где ты находишься. Весь игровой процесс похож на два застрявших и не синхронизированных кадра.
Мультивселенная — это первая модель мира с искусственным интеллектом, которая может синхронизировать точки зрения двух игроков. Независимо от того, что происходит с одним из игроков, другой человек может увидеть это на своем экране в реальном времени, без задержек и логических конфликтов.
Это также то, чего было трудно достичь в симуляциях ИИ в прошлом: согласованность нескольких представлений.

Чтобы решить эту проблему и построить по-настоящему совместную многопользовательскую модель мира, команда Multiverse придумала очень умное решение. Они сохранили основные компоненты и в то же время полностью разрушили и реконструировали первоначальную идею «предсказания одного человека»:
- Устройство для внедрения действий: получает действия двух игроков и выводит вектор внедрения, который объединяет операции обеих сторон;
- Сеть шумоподавления: диффузионная сеть, которая генерирует изображения двух игроков одновременно, чтобы гарантировать их согласованность в целом;
- Повышение частоты дискретизации: аналогично режиму одиночной игры, но обрабатывает и улучшает отснятый материал для обоих игроков одновременно.
Первоначально, когда они имели дело с изображением двух человек, первой реакцией многих людей было разделить экран: разделить два изображения и сгенерировать их отдельно.
Эта идея проста и груба, но ее сложно синхронизировать, она потребляет ресурсы и дает плохой эффект. Однако они подумали о том, чтобы «сшить» точки зрения двух игроков в одну картину, объединить их входные данные в единый вектор действия и рассматривать все это как «единую сцену».
Конкретным методом является наложение осей каналов: обработка двух изображений как одного изображения с двойным цветовым каналом.

Эта штука кажется маленькой, но на самом деле она очень умна технически. Поскольку диффузионная модель использует архитектуру U-Net, ядром является свертка и деконволюция, а сверточная нейронная сеть обладает четкой структурной осведомленностью о размерности канала.
Другими словами, речь идет не о соединении двух миров вместе, а о том, чтобы позволить модели узнать из «нижнего слоя нейронов», что два изображения связаны и должны генерироваться совместно. Итоговую картинку не нужно выравнивать вручную, она естественно синхронизируется.

Но чтобы модель могла точно предсказать следующий кадр, необходимо понимать одну вещь: скорость и относительное положение автомобиля являются динамическими, и для точного прогнозирования должно быть доступно достаточно информации. Они обнаружили, что 8 кадров (при 30 кадрах в секунду) достаточно для изучения кинематических функций, таких как ускорение, торможение и рулевое управление.
Но проблема в том, что относительная скорость при обгоне намного медленнее абсолютной (около 100 км/ч против 5 км/ч). Если номер кадра слишком близок, модель вообще не сможет заметить изменение.
Поэтому они разработали компромиссное решение — разреженную выборку:
- Предоставляет последние 4 последовательных кадра (обеспечивая немедленный ответ);
- Предоставляет дополнительные 4 кадра исторических изображений, «выбираемых каждые 4 кадра»;
- Самый ранний кадр находится на расстоянии 20 кадров от текущего кадра, то есть примерно 0,666 секунды назад.

Чтобы модель действительно могла понять «совместное вождение», она не может полагаться исключительно на эти входные данные, но также требует интенсивного обучения интерактивному поведению.
Традиционные однопользовательские задачи (например, ходьба, стрельба) требуют прогнозирования только на короткий временной интервал, например 0,25 секунды. Однако при взаимодействии нескольких людей такое небольшое изменение во времени минимально и совершенно не отражает «чувства командной работы».
Решение Multiverse состоит в том, чтобы просто позволить модели предсказать последовательность поведения за 15 секунд, чтобы отразить долгосрочную логику многораундного взаимодействия.
Метод обучения не ограничивается 15 секундами за раз, а использует стратегию «обучения по учебной программе»: начиная с 0,25 секунды прогнозирования и постепенно увеличивая его до 15 секунд. Таким образом, модель сначала изучает низкоуровневые функции, такие как структура автомобиля и геометрия трассы, а затем постепенно осваивает концепции высокого уровня, такие как стратегии игроков и динамика игры.
После обучения производительность модели с точки зрения сохранения объектов и межкадровой согласованности была значительно улучшена. Короче говоря, машина внезапно не исчезнет, и логика не рухнет.
Столь превосходные результаты тренировок объясняются тщательно отобранным набором данных. Да, это шедевр гоночного симулятора 2004 года для PS2: Gran Turismo 4.

Разумеется, чтобы избежать ответственности, команда Multiverse не забыла пошутить, что они ярые фанаты Sony.
Их тестовой сценой была гонка 1 на 1 на трассе Цукуба, но проблема в том, что GT4 изначально не поддерживает «повтор с перспективой 1 на 1». Поэтому они провели реверс-инжиниринг и превратили игру в настоящий режим 1 на 1.
затем:
- Записывайте каждую игру дважды: один раз, чтобы увидеть себя, и один раз, чтобы увидеть своего противника;
- Затем посредством обработки синхронизации оно объединяется в полное видео, показывающее битву между двумя сторонами в реальном времени.
А как насчет ключевых данных? Ведь сама игра не предоставляет журналов работы.

Ответ заключается в том, что они используют информацию, отображаемую игровым HUD (полоски индикаторов газа, тормоза, рулевого колеса), используют компьютерное зрение для извлечения полосок газа, тормоза и направления, отображаемых на игровом экране кадр за кадром, а затем получают инструкции управления.
Другими словами, восстановить работу можно исключительно опираясь на информацию на экране, без необходимости использования дополнительных файлов журналов.
Конечно, этот процесс неэффективен, и невозможно вручную записывать каждую игру дважды.
Они обнаружили, что у GT4 есть скрытая функция под названием режим B-Spec, которая позволяет ИИ управлять автомобилем самостоятельно. Поэтому я написал сценарий для отправки случайных инструкций ИИ, позволяющий ему участвовать в гонках и аварийно завершать работу самостоятельно, таким образом генерируя наборы данных в пакетном режиме.

Кстати, они также пробовали использовать модель автономного вождения OpenPilot для управления игровыми персонажами. Хотя эффект был хороший, с точки зрения эффективности и стабильности B-Spec больше подходит для масштабных тренировок.
Вот ключевой момент: говорить об эффектах, не говоря о затратах, — это, естественно, хулиганство.
Такая модель искусственного интеллекта, которая может запускать миры с несколькими представлениями, синхронизировать изображения и стабилизировать выходные данные, включая модель, обучение, данные и выводы, стоит всего 1500 долларов, что примерно равно покупке видеокарты высокого класса.

Сотрудник Multiverse Джонатан Джейкоби написал на X:
Мы построили Multiverse всего за 1500 долларов. Ключом является не вычислительная мощность, а технологические инновации.
Что еще более важно, Якоби считает, что многопользовательская модель мира — это не только новый способ для ИИ играть в игры, но и следующий шаг в технологии моделирования. Он открывает совершенно новый мир: динамическую среду, совместно развиваемую и формируемую игроками, агентами и роботами.
В будущем модель мира может стать похожей на виртуальную версию реального общества: вы и ИИ сосуществуете в ней, образуя высокореалистичную «динамическую вселенную», которая также имеет сложную логику взаимодействия, близкую к реальному обществу.
Итак, вам это кажется немного высокомерным?
Прилагаем ссылочный адрес:
GitHub: https://github.com/EnigmaLabsAI/multiverse
Набор данных «Обнимающее лицо»: https://huggingface.co/datasets/Enigma-AI/multiplayer-racing-low-res
Модель «Обнимающее лицо»: https://huggingface.co/Enigma-AI/multiverse
Официальный блог: https://enigma-labs.io/blog
# Добро пожаловать на официальную общедоступную учетную запись WeChat Айфанера: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo