Последняя длинная статья Ли Фэйфэя стала вирусной. В ней утверждается, что в следующем десятилетии ИИ больше всего понадобится не столько крупные модели.

Когда ChatGPT потряс мир, мы думали, что ИИ достаточно умен. Но он всё ещё не может сделать одну вещь: точно определить расстояние между краем чашки с кофе и краем стола, когда вы тянетесь к ней.

Сегодня известный специалист по искусственному интеллекту Фэй-Фэй Ли ответил на этот вопрос в своем блоге: «Истинный интеллект — это не просто игра слов, он скрыт в способности, которую мы используем каждый день, даже не осознавая этого»:

Пространственный интеллект.

Это вид интеллекта, который старше языка. Моменты, меняющие человеческую цивилизацию, никогда не были основаны на языке, а на восприятии, воображении и осмыслении пространства.
Например, древнегреческие ученые вычислили длину окружности Земли, наблюдая за тенями, ученые манипулировали металлическими проводами, чтобы создать двойную спиральную структуру ДНК, а пожарные интуитивно оценивали, рухнет ли здание в дыму.

Теперь ИИ обретет эту возможность, которой ему не хватало.

Версия с сохранением данных выглядит следующим образом:

1. Хотя современный ИИ (особенно крупные языковые модели, такие как LLM) преобразил наш подход к использованию абстрактных знаний и обладает развитыми языковыми возможностями, ему не хватает реального опыта и понимания физического мира. Он по-прежнему принципиально ограничен в таких областях, как робототехника, научные открытия и иммерсивное творчество. Пространственный интеллект — это следующий рубеж развития ИИ. Он коренным образом изменит то, как мы создаём и воспринимаем реальные и виртуальные миры, и вызовет трансформацию в таких областях, как робототехника, научные открытия и творчество.

Пространственное мышление – краеугольный камень человеческого интеллекта, даже более ранний, чем язык. Оно не только обеспечивает наше повседневное взаимодействие с физическим миром (например, вождение автомобиля и поиск ключей), но и играет ключевую роль в человеческом воображении, творчестве и научных открытиях (таких как измерение окружности Земли древнегреческими учёными и открытие структуры двойной спирали ДНК). Это «строительные леса», на которых строится человеческое познание.

2. Несмотря на достижения в области мультимодальных моделей (MLLM), ИИ всё ещё значительно отстаёт от человека в пространственных возможностях. Он не может точно оценивать расстояния и направления, не может «вращать» объекты в уме и не может предсказывать фундаментальные физические законы. Без этих способностей ИИ не может по-настоящему взаимодействовать с физической реальностью. Чтобы достичь пространственного интеллекта, нам необходимо выйти за рамки LLM и создать более амбициозные «модели мира». Это совершенно новая генеративная модель с возможностями, значительно превосходящими возможности существующих LLM. Фэй-Фэй Ли и World Labs работают над этим.

3. Фэй-Фэй Ли определил три возможности, которыми должна обладать модель мира:

  1. Генеративный: способность создавать мир, сохраняющий последовательность восприятия, геометрии и физических законов.
  2. Мультимодальный: изначально спроектирован как мультимодальный, способный обрабатывать и выводить различные формы информации (например, изображения, видео, карты глубины, текст и движение).
  3. Интерактивность: способность предсказывать или выводить «следующее состояние» мира на основе входного «действия» и, в конечном итоге, возможно, предсказывать «следующее действие, которое необходимо выполнить».

4. Ли Фэйфэй считает, что построение модели мира гораздо сложнее, чем модели языка, поскольку измерения мира значительно превосходят измерения языка. Это требует решения трёх основных задач:

  • Новая задача обучения требует поиска элегантной, общей функции задачи, похожей на «предсказание следующего слова» в LLM, но это сложнее.
  • Крупномасштабные данные: требуется возможность извлекать глубокую пространственную информацию из огромных объемов интернет-изображений и видео, дополненных синтетическими данными и мультимодальными данными.
  • Новая архитектура модели: необходимо выйти за рамки текущей парадигмы последовательности 1D/2D и разработать новую архитектуру с возможностями восприятия 3D или 4D (например, модель RTFM компании World Labs).

5. ИИ должен расширять человеческие возможности, а не заменять их. ИИ должен всегда уважать человеческую автономию и достоинство. Пространственный интеллект воплощает это видение, стремясь расширить возможности человеческого творчества, сострадания и научных открытий.

6. Внедрение пространственного интеллекта будет осуществляться поэтапно:

  • Недавние разработки (Творчество): Расширение возможностей повествования, создания фильмов, игр и архитектурного дизайна. World Labs запустила платформу Marble, чтобы помочь разработчикам создавать трёхмерные миры.
  • Среднесрочная цель (робототехника): достижение «воплощённого интеллекта в действии». Модель мира будет обучаться посредством симуляций, чтобы роботы могли стать помощниками людей в совместной работе.
  • Долгосрочные перспективы (наука, медицина и образование): преобразующее воздействие на такие области, как разработка лекарственных препаратов, материаловедение, диагностические средства, экологическая осведомленность и мониторинг, а также иммерсивное образование.

7. Изучение космического интеллекта — «путеводная звезда» научной карьеры Фэй-Фэй Ли. Без космического интеллекта мечта о «подлинно интеллектуальных машинах» не может быть реализована. Она призывает всю экосистему искусственного интеллекта к совместной работе над использованием этой технологии на благо мира.

От языка к миру: пространственный интеллект – новый рубеж искусственного интеллекта

В 1950 году, когда компьютеры были всего лишь инструментами для автоматизации вычислений и простой логики, Алан Тьюринг задал вопрос, который актуален и сегодня: могут ли машины мыслить? Обладая незаурядным воображением, он увидел смелую возможность: однажды интеллект может стать не врождённым, а «созданным». Это открытие впоследствии дало толчок неустанным научным исследованиям, известным как «искусственный интеллект» (ИИ).

За 25 лет исследований в области искусственного интеллекта я продолжаю вдохновляться идеями Тьюринга. Но насколько мы далеки от этой цели? На этот вопрос ответить непросто.

Сегодня ведущие технологии искусственного интеллекта, такие как большие языковые модели (LLM), начинают менять то, как мы приобретаем и используем абстрактные знания. Однако они остаются подобны ремесленникам, шлифующим слова в темноте: язык прекрасен, но не обладает опытом; знания обширны, но не основаны на реальности. Пространственный интеллект изменит то, как мы создаём и воспринимаем реальные и виртуальные миры, — он произведёт революцию в повествовании, творчестве, робототехнике, научных открытиях и многих других областях. Это следующий рубеж искусственного интеллекта.

С тех пор, как я начал работать в этой области, стремление к визуальному и пространственному интеллекту стало моей путеводной звездой. Именно поэтому я потратил годы на создание ImageNet — первого крупномасштабного набора данных для визуального обучения и оценки, который, наряду с алгоритмами нейронных сетей и современными вычислениями (такими как графические процессоры), стал одним из трёх ключевых столпов современного искусственного интеллекта. Последние десять лет моя лаборатория в Стэнфордском университете занималась объединением компьютерного зрения с обучением роботов. Именно это убеждение привело меня, вместе с соучредителями Джастином Джонсоном, Кристофом Ласснером и Беном Милденхоллом, к основанию World Labs чуть больше года назад в надежде впервые по-настоящему реализовать эту идею.

В этой статье я объясню, что такое пространственный интеллект, почему он важен и как мы можем построить «модель мира», которая сможет раскрыть этот интеллект — способность, которая изменит креативность, воплощенный интеллект и прогресс человечества.

Пространственный интеллект: основа человеческого познания

Искусственный интеллект переживает беспрецедентно захватывающее время. Генеративные модели ИИ (такие как большие языковые модели, LLM) вышли из исследовательских лабораторий в повседневную жизнь, став инструментами, используемыми миллиардами людей для творчества, работы и общения. Они продемонстрировали возможности, которые когда-то считались невозможными: лёгкая генерация связного текста, огромных объёмов кода, реалистичных изображений и даже коротких видеороликов. Сегодня нам больше не нужно спрашивать: «Изменит ли ИИ мир?», потому что, с любой точки зрения, он уже меняет мир.

Однако многие цели остаются нереализованными. Идея автономных роботов по-прежнему завораживает, но пока остаётся лишь домыслами и далёким от повседневных сценариев, представляемых футуристами. Мечта об ИИ, который быстро продвигает исследования в таких областях, как лечение болезней, открытие новых материалов и физика элементарных частиц, также в значительной степени не осуществилась. И ИИ, который действительно понимает и расширяет возможности людей-творцов — будь то студент, изучающий сложные концепции молекулярной химии, архитектор, проектирующий пространство, режиссёр, создающий мир, или любой, кто ищет захватывающие виртуальные впечатления, — пока не появился.

Чтобы понять, почему эти возможности по-прежнему труднодостижимы, нам необходимо проследить эволюцию пространственного интеллекта и изучить, как он сформировал наше понимание мира.

Зрение издавна является краеугольным камнем человеческого интеллекта, но его мощь проистекает из более фундаментального механизма. Ещё до того, как животные научились строить гнёзда, выращивать потомство, общаться с помощью языка и создавать цивилизации, самая ранняя способность к восприятию – даже такая простая, как улавливание луча света или прикосновения – незаметно запустила эволюционный путь к интеллекту.

Эта, казалось бы, изолированная способность извлекать информацию из внешнего мира создаёт мост между восприятием и выживанием, который постоянно укрепляется и расширяется с каждым поколением. На этом мосту нарастают слои нейронов, образуя нервную систему, которая интерпретирует мир и координирует взаимодействие организма с окружающей средой. Поэтому многие учёные предполагают, что этот цикл «восприятие-действие» является движущей силой разумной эволюции и фундаментальной основой, позволившей природе создать нас – вид, способный к восприятию, обучению, мышлению и действию.

Пространственный интеллект играет важнейшую роль в нашем взаимодействии с физическим миром. Каждый день мы полагаемся на него, выполняя, казалось бы, обыденные задачи: оценивая своё местоположение, представляя постепенно сокращающееся расстояние между передней частью автомобиля и бордюром при парковке; ловя ключи, брошенные с другой стороны комнаты; проходя по переполненным тротуарам, не сталкиваясь с другими людьми; или не глядя наливая кофе в чашку в полусне.

В более экстремальных ситуациях пожарные ориентируются в обрушившихся зданиях, интуитивно оценивая устойчивость конструкции и выбирая стратегии выживания в задымлённой среде, общаясь жестами, языком тела и непередаваемым профессиональным чутьём. В то же время дети, за месяцы или даже годы до того, как научатся говорить, познают мир через игровое взаимодействие с окружающим миром. Всё это происходит естественно и без усилий — своего рода «инстинктивная беглость», которой машинам ещё только предстоит овладеть.

Пространственное мышление также является основой нашего воображения и творчества. Рассказчики создают в своём воображении богатые миры и передают их другим с помощью различных визуальных средств — от древних наскальных рисунков до современных фильмов и захватывающих видеоигр. Строят ли дети замки на пляже или играют в Minecraft на компьютере, пространственное воображение лежит в основе их интерактивного опыта в реальном или виртуальном мире.

Во многих отраслях промышленности моделирование объектов, сцен и динамических интерактивных сред стало ключевой поддержкой — от промышленного дизайна до цифровых двойников, от обучения роботов до различных бизнес-приложений; пространственный интеллект управляет бесчисленными важными практическими сценариями.

На протяжении всей истории пространственный интеллект играл центральную роль во многих поворотных моментах, определявших ход развития цивилизации.

В Древней Греции Эратосфен вывел геометрические принципы, наблюдая за «тенями» — он измерил угол в 7 градусов, образованный солнечным светом и землей в Александрии, и в то же время заметил, что город Кина не отбрасывает тени, таким образом рассчитав длину окружности Земли.

Изобретение Харгрива — прялки «Дженни» — произвело революцию в текстильной промышленности благодаря продуманной пространственной компоновке: он установил несколько веретен рядом на одной раме, что позволило рабочему одновременно прясть несколько нитей пряжи, тем самым увеличив эффективность производства в восемь раз.

С другой стороны, Уотсон и Крик построили трехмерные молекулярные модели вручную, манипулируя металлическими пластинами и проволокой, чтобы в конечном итоге собрать воедино пространственную структуру ДНК, идеально соединив пары оснований.

В этих случаях пространственный интеллект становится ключевой силой, двигающей вперед человеческую цивилизацию: ученым и изобретателям приходится манипулировать объектами, воображать структуры и рассуждать в физическом пространстве, осуществляя процессы, которые невозможно полностью выразить словами.

Пространственный интеллект служит «строительными лесами», на которых строится человеческое познание. Он играет роль как в пассивном наблюдении, так и в активном творчестве. Он управляет нашими рассуждениями и планированием, даже при столкновении с самыми абстрактными проблемами. Он также определяет, как мы взаимодействуем с миром — посредством вербального общения или физических действий, взаимодействуем ли мы с другими людьми или с самой окружающей средой.

Хотя большинство из нас не раскрывает тайны природы каждый день, как Эратосфен, мы все равно думаем так же — постигаем сложный мир посредством наших чувств и интуитивно постигаем его физические и пространственные законы.

К сожалению, современный искусственный интеллект пока не способен мыслить подобным образом.

Искусственный интеллект действительно добился колоссального прогресса за последние несколько лет. Мультимодальные большие языковые модели (MLLM), обученные на огромных объёмах мультимедийных данных (включая изображения, аудио и видео, а также текст), начали обладать определённой степенью «пространственной осведомлённости». Современный ИИ способен анализировать изображения, отвечать на вопросы, связанные с изображениями, и генерировать чрезвычайно реалистичные изображения и короткие видеоролики. В то же время, благодаря прорывам в сенсорных и тактильных технологиях, современные роботы начинают получать возможность манипулировать объектами и инструментами в условиях крайне ограниченных возможностей.

Честно говоря, пространственные способности ИИ всё ещё далеки от человеческого уровня, и этот разрыв очевиден. Самые продвинутые доступные на сегодняшний день модели MLLM зачастую лишь немногим лучше случайных догадок в оценке расстояния, направления и размера. Они также не могут мысленно «вращать» объекты, как люди, представлять их форму с разных ракурсов. Они не могут ориентироваться в лабиринтах, находить кратчайшие пути или предсказывать самые базовые законы физики. Хотя видео, созданные ИИ, впечатляют, они часто теряют связность уже через несколько секунд.

Хотя передовой ИИ превосходно справляется с такими задачами, как чтение, письмо, исследования и распознавание образов данных, он сталкивается с фундаментальными ограничениями в понимании физического мира и взаимодействии с ним. Наше восприятие мира целостно: мы видим не только «вещи сами по себе», но и понимаем их пространственные взаимоотношения, значение и важность. Сила пространственного интеллекта заключается в познании мира посредством воображения, рассуждений, творчества и взаимодействия, а не только посредством языка.

Без этой способности ИИ не сможет по-настоящему взаимодействовать с физической реальностью, которую он хочет понять. Он не сможет безопасно и эффективно управлять автомобилями, гибко управлять роботами в домах и больницах, создавать совершенно новые захватывающие интерактивные возможности для обучения и развлечений или значительно ускорять открытия в материаловедении или медицине.

Как однажды написал философ Людвиг Витгенштейн: «Границы моего языка означают границы моего мира».

Я не философ, но знаю, что для искусственного интеллекта мир — это нечто большее, чем просто «язык». Пространственный интеллект представляет собой рубеж, выходящий за рамки языка — это способность связывать воображение, восприятие и действие, позволяя машинам по-настоящему расширять потенциал человеческой жизни — от медицины до творчества, от научных открытий до повседневной помощи, — открывая тем самым новые возможности.

Следующее десятилетие искусственного интеллекта: создание машин с настоящим пространственным интеллектом

Итак, как же создать ИИ с пространственным интеллектом? Как научить модели рассуждать пространственно, как Эратосфен, творить с точностью промышленного дизайнера, обладать таким же воображением, как рассказчик, и гибко передвигаться в сложных условиях, как спасатель?

Для этого нам нужно больше, чем просто большие языковые модели (LLM); нам нужна более амбициозная система — модели мира. Это совершенно новый класс генеративных моделей, способных понимать, рассуждать, генерировать и взаимодействовать в семантически, физически, геометрически и динамически сложных мирах — как виртуальных, так и реальных, — значительно превосходя возможности существующих LLM.

Эта область исследований всё ещё находится в зачаточном состоянии, и текущие исследования охватывают широкий спектр областей — от моделей абстрактного мышления до систем генерации видео. Компания World Labs была основана в начале 2024 года с убеждением: мы считаем, что фундаментальные методы ещё не разработаны, и именно это станет решающим вызовом для развития искусственного интеллекта в следующем десятилетии.

В этой новой области самое важное — установить набор базовых принципов, которыми можно будет руководствоваться при разработке. Для пространственного интеллекта я определяю «модель мира» как систему, обладающую следующими тремя ключевыми характеристиками:

1. Генеративный: модель мира может генерировать мир, обладающий перцептивной, геометрической и физической согласованностью.

Для достижения пространственного понимания и рассуждений модели мира должны обладать способностью генерировать собственные «симулированные миры». Они должны быть способны генерировать бесконечное множество виртуальных миров на основе семантических или перцептивных инструкций — эти миры должны сохранять согласованность с точки зрения геометрической структуры, физических законов и динамических изменений, независимо от того, представляют ли они реальное или виртуальное пространство.

Исследовательское сообщество активно изучает вопрос о том, следует ли представлять эти миры явно или неявно, используя присущие им геометрические структуры. Более того, помимо обладания мощными скрытыми репрезентативными возможностями, я считаю, что универсальная модель мира должна также выдавать чётко наблюдаемые состояния мира для адаптации к различным сценариям применения. Важно, чтобы понимание моделью «настоящего мира» было согласовано с состоянием «прошлого мира» — она должна понимать, как мир развивался от прошлого к настоящему.

2. Мультимодальность: Модель мира спроектирована так, чтобы быть мультимодальной.

Подобно людям и животным, модели мира должны уметь обрабатывать различные формы входных данных — в области генеративного ИИ эти входные данные называются «подсказками». Столкнувшись с неполной информацией (например, изображениями, видео, картами глубины, текстовыми командами, жестами или действиями), модели мира должны уметь предсказывать или генерировать максимально полное возможное состояние мира.

Это требует от неё почти реалистичной визуальной точности обработки входных данных, сохраняя при этом гибкость в понимании семантических инструкций. Таким образом, как агенты, так и люди могут взаимодействовать с моделью посредством разнообразных входных данных и получать одинаково разнообразную обратную связь на выходе.

3. Интерактивность: модель мира может выводить следующее состояние мира на основе входного действия.

Наконец, когда «действие» или «цель» используются как часть входного запроса, выходные данные модели мира должны включать следующее состояние мира, которое может быть неявным или явным.

Когда модель получает действие (независимо от того, содержит ли оно целевое состояние) в качестве входных данных, она должна иметь возможность вывести результат, согласующийся с предыдущим состоянием мира, целевым состоянием (если таковое имеется), семантическим значением, физическими законами и динамическим поведением.

Поскольку пространственно-интеллектуальные модели мира продолжают совершенствовать свои рассуждения и генеративные возможности, вполне возможно, что в будущем, столкнувшись с определенной целью, модель мира сможет не только предсказывать следующее состояние мира, но и предсказывать «следующее действие, которое необходимо предпринять» на основе этого нового состояния.

Масштаб этой задачи намного превосходит все, с чем ранее сталкивался искусственный интеллект.

Язык – исключительно генеративное явление в человеческом познании; однако «мир» подчиняется гораздо более сложным законам. Возьмём, к примеру, Землю: гравитация определяет её законы движения, атомная структура влияет на цвет и яркость света, а бесчисленные физические законы ограничивают любое взаимодействие. Даже самый воображаемый вымышленный мир по-прежнему состоит из пространственных объектов и разумных агентов, подчиняющихся этим физическим законам и динамическим моделям. Поддержание согласованности между семантическими, геометрическими, динамическими и физическими измерениями в рамках одной модели требует совершенно новых методов и подходов.

Представление о мире гораздо сложнее, чем язык, представляющий собой «одномерный, последовательный сигнал». Чтобы наделить модели мира универсальными возможностями, которыми обладает человек, нам необходимо преодолеть ряд серьёзных технологических препятствий. В World Labs наша исследовательская группа работает над тем, чтобы заложить основу для фундаментальных прорывов в достижении этой цели.

Вот несколько примеров тем, которые мы в настоящее время исследуем:

Новая общая функция задачи обучения — определение универсальной функции задачи для моделей мира, которая была бы столь же простой и элегантной, как «предсказание следующего слова» в больших языковых моделях (LLM), — давно является основной целью в этой области. Однако из-за большей сложности входных и выходных пространств моделей мира разработка такой функции представляет собой гораздо более сложную задачу. Хотя многие неизвестные ещё предстоит изучить, эта целевая функция и соответствующее ей представление должны отражать геометрические и физические законы, точно отражая суть модели мира как «укоренённого представления, связывающего воображение и реальность».

Обучение моделей мира с использованием огромных объёмов обучающих данных требует данных, сложность которых значительно превышает сложность текстовых данных. Хорошая новость заключается в том, что уже существуют обширные источники данных. Интернет-ресурсы изображений и видео предоставляют обширные и легкодоступные материалы для обучения. Реальная задача заключается в разработке алгоритмов для извлечения более глубокой пространственной информации из этих данных на основе двумерных изображений или видеокадров (т.е. RGB-сигналов). Исследования последнего десятилетия показали, что повышение производительности языковых моделей подчиняется «закону расширения объёма данных и размера модели»; в то время как для моделей мира ключевой прорыв заключается в построении архитектур моделей, способных в полной мере использовать визуальные данные в аналогичном масштабе.

Более того, нельзя недооценивать ценность высококачественных синтетических данных и дополнительных методов, таких как карты глубины и тактильная обратная связь. Они могут дополнять данные, доступные в интернете, на ключевых этапах процесса обучения. Повышение эффективности этого процесса также требует использования более совершенных сенсорных систем, более надёжных алгоритмов извлечения сигналов и более мощных методов нейронного моделирования.

Исследования новых архитектур моделей и моделей мира, основанных на репрезентации, неизбежно приведут к инновациям в архитектуре моделей и алгоритмах обучения, особенно за пределами существующих парадигм мультимодальных языковых моделей (MLLM) и моделей диффузии видео. Существующие методы обычно «сегментируют» данные в одномерные или двумерные последовательности, что делает некоторые простые пространственные задачи исключительно сложными, например, подсчёт разных стульев в коротком видео или припоминание планировки комнаты час назад.

Новые архитектуры могут принести улучшения, такие как внедрение возможностей трёхмерного или четырёхмерного восприятия в сегментацию слов, контекст и механизмы памяти. Например, модель генеративных фреймов в реальном времени (RTFM), недавно разработанная World Labs, иллюстрирует этот сдвиг. Эта модель использует «пространственные фреймы» в качестве пространственных единиц памяти для достижения эффективной генерации в реальном времени, сохраняя при этом непрерывность и стабильность генерируемого мира.

Очевидно, что нам предстоит преодолеть еще множество сложных препятствий, прежде чем мы сможем в полной мере раскрыть потенциал пространственного интеллекта посредством «моделирования мира».

Это исследование — не просто теоретический поиск, это движущая сила нового поколения инструментов для творчества и производительности. И в World Labs мы уже добились впечатляющего прогресса.

Недавно мы представили Marble ограниченному числу пользователей — первую в мире модель, способную генерировать и поддерживать согласованные трёхмерные среды с помощью мультимодальных подсказок ввода. Она позволяет пользователям и создателям исследовать эти виртуальные пространства и взаимодействовать с ними, а также расширять их возможности в рамках творческого процесса. Мы прилагаем все усилия, чтобы как можно скорее представить Marble широкой публике!

Мрамор — это всего лишь первый шаг на нашем пути к по-настоящему пространственно интеллектуальной модели мира.
По мере ускорения исследований исследователи, инженеры, пользователи и руководители предприятий начинают осознавать исключительный потенциал этой технологии. Модель мира следующего поколения позволит машинам достичь совершенно нового уровня пространственного интеллекта, открывая ключевые возможности, которых в значительной степени не хватает современным системам искусственного интеллекта.

Построение лучшего человеческого мира с использованием «моделей мира»

Мотивация содействия развитию ИИ имеет решающее значение.

Как ученый, принимавший непосредственное участие в наступлении современной эры искусственного интеллекта, мое изначальное намерение всегда было ясным: ИИ должен расширять возможности человека, а не заменять его.

На протяжении многих лет я стремлюсь к тому, чтобы разработка, применение и управление ИИ лучше соответствовали потребностям человечества. Сегодня повсюду можно встретить экстремальные рассказы о технологических утопиях и сценариях конца света, но я остаюсь твёрдо приверженным прагматичному убеждению, что ИИ создан людьми, служит людям и управляется людьми.

Он должен всегда уважать человеческую автономию и достоинство. Истинная магия ИИ заключается в расширении наших возможностей, делая нас более креативными, более связанными, более эффективными и более полно реализуемыми.

Пространственный интеллект воплощает это видение:

Это тип искусственного интеллекта, который расширяет возможности людей-творцов, опекунов, ученых и мечтателей, помогая нам достигать целей, которые ранее были невозможны.
Именно эта вера подкрепляет мою решимость рассматривать «пространственный интеллект» как следующую великую передовую область искусственного интеллекта.

Внедрение пространственного интеллекта будет осуществляться поэтапно.

Сегодня появляются новые инструменты для творчества — Marble от World Labs предоставляет эти возможности в руки создателей и рассказчиков.
Робототехника — это среднесрочная цель, и мы постоянно совершенствуем цикл «восприятие-действие», чтобы машины могли гибко работать в физическом мире.
Наиболее революционные научные разработки могут потребовать больше времени, но их влияние будет достаточно глубоким, чтобы способствовать всестороннему улучшению благосостояния людей.

Среди этих различных этапов развития выделяются несколько ключевых областей, обладающих огромным потенциалом для переосмысления человеческих возможностей.

Достижение этой цели неизбежно потребует коллективных усилий — ее невозможно осуществить в одиночку силами одной команды или компании.

Это потребует коллективного участия всей экосистемы ИИ: исследователи, новаторы, предприниматели, компании и даже политики должны работать вместе над выработкой общего видения.

К этому видению стоит стремиться.

Будущее будет разворачиваться отсюда:

Творчество: наделение повествования и захватывающих впечатлений сверхспособностями

«Творчество — это игра интеллекта». Это моя любимая цитата, принадлежащая моему личному кумиру — Эйнштейну. Задолго до появления письменности люди уже рассказывали истории — рисовали на стенах пещер, передавали их устно и создавали целые культуры посредством общих повествований. Истории помогают нам понимать мир, устанавливать связь во времени и пространстве и исследовать, что значит «человечность». Что ещё важнее, они помогают нам найти смысл жизни и любви.

Сегодня пространственный интеллект способен коренным образом изменить то, как мы создаем и воспринимаем истории, не только сохранив его фундаментальное значение, но и распространив его влияние на множество областей, таких как развлечения, образование, дизайн и архитектура.

Платформа Marble от World Labs предоставляет кинематографистам, геймдизайнерам, архитекторам и сценаристам беспрецедентные пространственные возможности и возможности редактирования, позволяя им быстро создавать и итерировать свободно исследуемые трёхмерные миры без значительных инвестиций, необходимых для традиционного программного обеспечения для 3D-дизайна. Само творчество остаётся человеческим и динамичным процессом; инструменты ИИ лишь усиливают и ускоряют потенциал создателя. Это включает в себя:

  • Многомерный повествовательный опыт: кинематографисты и геймдизайнеры используют Marble для создания полноценных виртуальных миров, больше не ограниченных бюджетом или местоположением. Они могут исследовать различные сцены и перспективы, что практически невозможно в традиционных производственных процессах. По мере того, как границы между различными медиа и развлечениями становятся всё более размытыми, мы движемся к новой форме интерактивного опыта, сочетающей искусство, симуляцию и игры — персонализированным мирам, которые больше не принадлежат исключительно крупным студиям, а могут быть созданы и в которых может участвовать любой. Благодаря более быстрым методам преобразования идей и раскадровок в полноценные впечатления, повествование больше не будет ограничено одним носителем; создатели смогут создавать миры историй с общими сюжетными линиями на различных платформах и в различных интерфейсах.
  • Создание пространственных историй посредством дизайна: Практически каждый изготовленный объект или построенное пространство сначала должно пройти виртуальное 3D-моделирование, прежде чем обрести фактическую форму. Этот процесс, как правило, трудоёмкий, дорогостоящий и итеративно повторяющийся. Однако с помощью пространственно-интеллектуальных моделей архитекторы могут быстро визуализировать конструкции, прежде чем тратить месяцы на проектирование, и даже «войти» в пространства, которых ещё не существует, рассказывая истории о том, как мы будем жить, работать и общаться в будущем. Промышленные и модные дизайнеры также могут мгновенно воплощать свои фантазии в форму, исследуя, как объекты взаимодействуют с человеческим телом и пространством.
  • Совершенно новый уровень иммерсивных и интерактивных впечатлений: сам опыт — один из самых глубоких способов, которыми мы, люди, наделяем вещи смыслом. На протяжении большей части человеческой истории у нас был только один трёхмерный мир: реальный мир, который мы разделяем. Только в последние десятилетия, благодаря видеоиграм и ранней виртуальной реальности (VR), мы начали заглядывать в другой мир, созданный человечеством. Теперь пространственный интеллект, объединяющий виртуальную реальность (VR), гарнитуры расширенной реальности (XR) и иммерсивные устройства отображения, выводит эти впечатления на беспрецедентную высоту. Мы движемся к будущему, где войти в полностью сконструированный, многомерный мир будет так же естественно, как перелистнуть страницы книги. Пространственный интеллект делает создание миров делом не только студий с профессиональными производственными командами, но и всех, у кого есть истории и идеи, включая независимых творцов, педагогов и всех, кто хочет выразить своё видение.

Робототехника: воплощенный интеллект в движении

От насекомых до людей, животные полагаются на пространственный интеллект для понимания окружающего мира, навигации и взаимодействия с ним. Роботы не исключение. Машины с пространственным мышлением давно являются мечтой в области робототехники, и моя работа со студентами и коллегами в моей исследовательской лаборатории в Стэнфорде вращается вокруг этой цели. Это одна из причин, почему я так воодушевлен моделями, создаваемыми World Labs, — они обещают воплотить эту мечту в реальность.

  • Расширение возможностей обучения роботов с помощью моделей мира: Достижения в области обучения роботов основаны на масштабируемых, высококачественных данных для обучения. Учитывая обширное пространство состояний, которое роботы должны научиться понимать, рассуждать, планировать и взаимодействовать, многие исследователи считают, что по-настоящему универсальные роботы должны сочетать интернет-данные, синтетическое моделирование и данные, полученные в ходе демонстрации действий человека в реальном мире. Однако, в отличие от языковых моделей, в настоящее время в робототехнике не хватает данных для обучения. Модели мира будут играть в этом решающую роль. По мере повышения реалистичности восприятия и вычислительной эффективности, результаты моделей мира могут быстро сократить разрыв между моделированием и реальностью. Это облегчит обучение роботов моделированию бесчисленных состояний, взаимодействий и сред.
  • Становясь партнёрами и помощниками в совместной работе: В качестве партнёров в совместной работе роботы могут играть жизненно важную роль в решении проблемы нехватки рабочей силы и удовлетворении острой потребности в повышении производительности, будь то помощь учёным в лаборатории или помощь пожилым людям, живущим дома одни. Однако для этого роботы должны обладать пространственным интеллектом: способностью воспринимать, рассуждать, планировать и действовать, и, что самое главное, поддерживать эмоциональную согласованность с целями и поведением человека. Например, лабораторные роботы могут управлять приборами, позволяя учёным сосредоточиться на задачах, требующих мелкой моторики или логического мышления; в то время как домашние роботы могут помогать пожилым людям готовить пищу, не лишая их удовольствия и автономии. Для достижения этой цели критически важна по-настоящему пространственно интеллектуальная модель мира, способная предсказывать следующее состояние окружающей среды и даже предвосхищать действия, соответствующие ожиданиям человека.
  • Расширение разнообразия воплощенных форм: гуманоидные роботы, безусловно, подходят для мира, который мы создаём для себя, но весь потенциал технологических инноваций будет заключаться в более богатом разнообразии форм проектирования, таких как нанороботы, способные доставлять лекарства, мягкие роботы, способные передвигаться в ограниченном пространстве, и специализированные машины, предназначенные для глубоководных или космических условий. Независимо от формы, будущие модели космического интеллекта должны интегрировать среду робота с его собственными возможностями восприятия и движения. Однако одной из основных проблем при разработке таких роботов является нехватка обучающих данных, применимых к различным воплощенным формам. Модели мира будут играть решающую роль в создании данных для моделирования, построении обучающей среды и бенчмаркинге задач.

Долгосрочная перспектива: наука, медицина и образование

Помимо применения в творчестве и робототехнике, пространственный интеллект окажет глубокое влияние на другие области, особенно там, где ИИ может расширить человеческие возможности, спасти жизни и ускорить научные исследования. Ниже я выделю три области с преобразующим потенциалом; конечно же, применение пространственного интеллекта выходит далеко за эти рамки, и он будет играть важную роль во многих других отраслях.

В научных исследованиях космические интеллектуальные системы могут моделировать эксперименты, параллельно проверять гипотезы и исследовать среды, недоступные человеку — от морских глубин до далёких планет. Эта технология произведёт революцию в вычислительном моделировании в таких областях, как климатология и материаловедение. Объединяя многомерное моделирование с получением данных из реальных условий, эти инструменты могут снизить вычислительный барьер и расширить область наблюдений и понимания, доступную каждой лаборатории.

В сфере здравоохранения пространственный интеллект изменит каждый этап работы – от лаборатории до постели больного. В Стэнфорде мои студенты и партнёры много лет сотрудничают с пациентами в больницах, домах престарелых и дома. Этот опыт убедил меня в огромном преобразующем потенциале пространственного интеллекта в медицине. ИИ может ускорить разработку лекарств, моделируя многомерные взаимодействия между молекулами; повысить точность диагностики, помогая рентгенологам выявлять закономерности на медицинских снимках; и создать экологически безопасные системы мониторинга для поддержки пациентов и лиц, осуществляющих уход, не заменяя при этом важнейшие человеческие связи в процессе оказания медицинской помощи. Кроме того, роботы также играют важную роль в оказании помощи медицинским работникам и пациентам в различных ситуациях.

В образовании пространственный интеллект обеспечивает иммерсивное обучение, делая абстрактные или сложные концепции конкретными и осязаемыми, а также создавая учебный процесс, максимально соответствующий методам обучения человеческого мозга и тела, что позволяет многократно практиковаться. В эпоху искусственного интеллекта более быстрое и эффективное обучение и переподготовка навыков имеют решающее значение как для детей школьного возраста, так и для взрослых. Учащиеся могут «войти» в клеточные механизмы или лично «пройтись» по историческим событиям; учителя могут использовать интерактивные среды для персонализации обучения; а специалисты, от хирургов до инженеров, могут безопасно отрабатывать сложные навыки в реалистичных симуляциях.

Хотя потенциальные возможности применения в этих областях практически безграничны, наша цель остается прежней: использовать ИИ для повышения уровня человеческих знаний, ускорения человеческих открытий и усиления человеческого сострадания, а не для замены суждений, креативности и эмпатии, которые составляют суть человечности.

Заключение

За последнее десятилетие искусственный интеллект стал глобальным явлением, вызвав значительные изменения в технологиях, экономике и даже геополитике. Но как исследователя, педагога, а теперь и предпринимателя, меня больше всего по-прежнему волнует дух вопроса, который Тьюринг задал 75 лет назад. Я по-прежнему разделяю то же любопытство и благоговение, что и он. Именно эта задача исследования пространственного интеллекта питает мою ежедневную мотивацию.

Впервые в истории человечества у нас появилась возможность создавать машины, которые в высшей степени скоординированы с физическим миром, делая их настоящими партнёрами в решении серьёзных задач. Будь то ускорение понимания болезней в лабораторных условиях, революционные изменения в способах повествования или поддержка в периоды наибольшей уязвимости из-за болезни, травмы или старения, мы стоим на пороге технологии, которая улучшит тот жизненный опыт, который нам больше всего дорог. Это более глубокое, насыщенное и мощное видение жизни.

Около 500 миллионов лет назад природа впервые наделила древних животных зачатками пространственного интеллекта. Сегодня нам повезло принадлежать к поколению технологов, которые вскоре, возможно, смогут наделить машины этой способностью и использовать её на благо людей по всему миру. Без пространственного интеллекта наша мечта о «по-настоящему разумных машинах» не может быть реализована.

Это путешествие, полное исследований, — моя путеводная звезда. Добро пожаловать, присоединяйтесь ко мне в этом начинании.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (WeChat ID: ifanr), где вы сможете как можно скорее получить еще больше интересного контента.

ifanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo