Маск не преувеличивал! Genie 3 делает создание модели мира GTA 6 невероятно простым.

В условиях, когда одно за другим появляются модные термины, связанные с искусственным интеллектом, все так увлечены наблюдением за происходящим, что настоящие прорывные технологии легко упускаются из виду.

Рано утром сегодня компания Google DeepMind запустила свой долгожданный новый проект: Project Genie. Это не просто забавный инструмент искусственного интеллекта, но и важный шаг Google на пути к созданию общего искусственного интеллекта (AGI).

Настоящий прототип эксперимента по созданию «модели мира».

В настоящее время Project Genie доступен подписчикам Google AI Ultra в возрасте 18 лет и старше в Соединенных Штатах.

Для начала нам нужно понять концепцию: Project Genie, по сути, генерирует интерактивную среду, отображаемую в реальном времени. Его техническая основа состоит из трех частей: Nano Banana Pro, отвечающего за управление изображением; модели Gemini, отвечающей за понимание языковых команд; и Genie 3, отвечающей за физическую обратную связь.

С первыми двумя мы уже достаточно знакомы, поэтому нет необходимости вдаваться в подробности. Но как нам следует понимать Джинна 3?

Проще говоря, его механизм очень похож на принцип человеческих сновидений.

Когда мы видим сны, наш мозг создает виртуальный мир, включающий визуальные, слуховые и тактильные ощущения. Хотя логика снов иногда может быть непоследовательной, погружение в них очень сильное. Genie, по сути, учит компьютеры «видеть сны» и позволяет пользователям входить в этот мир снов и взаимодействовать с ним.

Кроме того, в отличие от таких моделей, как ChatGPT, основанных на текстовых статистических закономерностях, Genie 3 по сути является «моделью физического мира». Хотя она и не выучила физические формулы, она «усвоила» физические правила, такие как гравитация и инерция, просмотрев миллионы видеороликов с движущимися объектами.

Пользоваться Project Genie тоже очень просто.

Джош Вудворд, амбассадор продуктов Google в области искусственного интеллекта, продемонстрировал весь процесс: сначала он превратил свою фотографию в персонажа в стиле ретро-игры, затем загрузил ее в Genie, указав «пустынный пейзаж» и описание персонажа.

После нажатия кнопки «Сгенерировать» он сможет свободно исследовать пустыню в роли ковбоя.

Для более точного управления пользователи могут предварительно просмотреть окружающую среду и отрегулировать точку обзора перед входом. После нажатия кнопки «Старт» нажатие клавиш со стрелками WASD заставит систему прогнозировать и генерировать путь и сцену впереди в реальном времени.

Весь процесс похож на игру, только вы не только зритель, но и режиссер этого мира.

Однако, будучи экспериментальной моделью, все еще находящейся в разработке, Project Genie также имеет очевидные недостатки, такие как возможность играть только 60 секунд за раз. В интервью для подкаста команда разработчиков Google объяснила, что слишком долгая игра приведет к сбоям в визуальной логике, вызывая галлюцинации, а генерация в реальном времени будет чрезвычайно ресурсоемкой с точки зрения вычислительных затрат.

🔗 https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=1s

Поэтому, чтобы сбалансировать опыт и стоимость, время, отведенное на одно исследование, в настоящее время ограничено 1 минутой.

Конечно, если вам надоест пустыня, вы можете в любой момент изменить команды, чтобы мгновенно превратить сцену в киберпанковский город, при этом логика действий персонажа останется неизменной. Илон Маск недавно заявил в социальных сетях, что ИИ потенциально может позволить обычным людям создать игру GTA 6 за считанные минуты.

Инвестиционная компания VentureTwins также считает, что 2026 год станет годом взрывного роста для мирового рынка моделей. Технология «генерации видео в реальном времени» Project Genie в будущем может составить конкуренцию традиционным игровым движкам, основанным на коде.

С проектом Genie подобные решения уже не кажутся такими уж далекими от реальности.

▲ Изображение от @AngryTomtweets 🔗 https://x.com/AngryTomtweets/status/2016986111927865430

Во время управления вертолетом карта в левом нижнем углу будет обновляться в режиме реального времени.

▲ Изображение от @fofrAI 🔗 https://x.com/fofrAI/status/2016936855607136506

Пользователь @yrzhe_top сообщил после тестирования игры, что при движении по инопланетной планете картинка была не такой плавной, как в рекламных роликах. Наблюдались задержки, и пользовательские подсказки не работали; он мог использовать только официальные предустановки.

▲ Изображение от @yrzhe_top

Команда разработчиков Google также признала, что Genie 3 находится на ранней стадии разработки, и моделирование физических процессов пока недостаточно точное, часто наблюдаются сбои и странные траектории. Однако @yrzhe_top также отметил, что, хотя движок выполняет только 70% своих обещаний, эти 70% уже достаточно впечатляют.

▲ Изображение от @jen_w1n 🔗 https://x.com/jen_w1n/status/2016929094517088416

Конечно, если бы речь шла только о создании высокопроизводительной версии Minecraft, Google, очевидно, не потребовалось бы столько ресурсов. Настоящая цель проекта Genie — решить самые большие препятствия на пути от ИИ к общему искусственному интеллекту: истощение данных и узкое место воплощенного интеллекта.

Да, высококачественные текстовые данные в интернете заканчиваются, и роботы не могут научиться мыть посуду, читая энциклопедии; им нужна мышечная память и физическая обратная связь.

Однако сбор данных о сбоях в работе роботов в реальности обходится крайне дорого. Genie же, напротив, может выступать в роли бесконечного генератора синтетических данных, имитируя миллиарды различных кухонь, складов или инопланетных поверхностей, позволяя роботам накапливать «мышечную память» и затем применять её в реальности.

Аналогичным образом, LingBot-VA, исходный код которого Antminer сегодня открыл, может определять последовательности действий при генерации изображений, позволяя роботам «думать и действовать» как люди. Его способности готовить завтрак, подбирать винты, распаковывать посылки, складывать одежду и брюки значительно улучшились.

Кроме того, в ходе интервью команда разработчиков Google также представила сценарии применения, ориентированные на человека, например, в области психотерапии и образования.

Родители могут использовать Genie, чтобы создать «комнату, полную пауков», которая поможет их детям привыкнуть к ним в совершенно безопасной и контролируемой виртуальной среде. Или, например, на уроке истории, они могут создать парижскую улицу XVIII века, чтобы ученики могли увидеть ее своими глазами.

Несмотря на то, что у Project Genie всё ещё есть проблемы, такие как некачественная графика, короткое время игры, высокая задержка и отсутствие многопользовательского режима, игра действительно открыла двери для моделирования физической реальности.

Вспоминая заявление 2024 года: «Мир перестанет существовать», — вероятно, его воплотил в жизнь не Сора, а Джинн.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo