Компания Independent Variable, специализирующаяся на воплощенном интеллекте, выпустила свою модель робота WALL-B, которая спустя 35 дней оказалась в настоящем доме.

Прошедший в минувшие выходные в Ичжуане, Пекин, марафон роботов доказал одно: самый быстрый человекоподобный робот теперь может обогнать даже лучших марафонцев-людей. Однако причина, по которой это не вызвало большого ажиотажа, заключается в том, что люди предъявляют очень высокие требования к роботам или к индустрии воплощенного интеллекта.

Гуманоидный робот Хонор пробежал полумарафон всего за 50 минут, а робот Юшу способен выполнять приемы боевых искусств, которые чрезвычайно сложны для человека, на сцене весеннего гала-концерта. Кажется, этого от них и следовало ожидать. Более того, у людей остаются вопросы: разве воплощенные в человеке интеллектуальные роботы не должны перестать выполнять подобные задачи и заняться настоящей работой, например, мытьем посуды, сбором и складыванием одежды, подметанием пола?

Но эти домашние дела, которые могут выполнять обычные люди, гораздо сложнее, чем пробежать марафон или выполнить приемы боевых искусств, и гораздо сложнее, чем работать на конвейере на заводе.

Когда роботы действительно помогут людям убирать беспорядок в своих домах? 21 апреля компания Independent Variable Robots провела пресс-конференцию, посвященную официальному выпуску базового образца WALL-B, обладающего новым поколением воплощенного интеллекта, и объявила, что через 35 дней роботы нового поколения, оснащенные этой моделью, поступят в первую партию реальных домов.

Эта компания считает, что настоящая арена для робототехники — не на сцене или в лаборатории, а дома. Домашняя среда гораздо сложнее и непредсказуемее, чем заводская, гораздо непредсказуемее, чем публичная демонстрация: тапочки могут быть задеты под диван, ребенок может бросить свой рюкзак на пол, кошка может запрыгнуть на обеденный стол, а стакан воды может быть пролит на только что вымытый пол. Эти, казалось бы, тривиальные вещи — именно самые сложные проблемы, которые роботам еще предстоит решить.

Зачем нам нужно переписывать модель робота с WALL-A на WALL-B?

На пресс-конференции Ван Цянь, основатель и генеральный директор компании Independent Variable, начал с обычного утра: «В семь часов утра зазвонил будильник. Вы зашли в гостиную и обнаружили, что ваших тапочек нет, посуда на кухне не вымыта, школьный рюкзак вашего ребенка валяется на полу, а кошка опрокинула стакан с водой».

Основная мысль, лежащая в основе этого описания, заключается в том, что семья представляет собой случайную, фрагментированную и постоянно меняющуюся среду.

В прошлом большинство демонстраций возможностей роботов проводилось не в подобных условиях. Сальто назад, каллиграфия и танцы на сцене в основном зависели от заранее заданных траекторий и фиксированных процедур движения; промышленные роботы на заводах создаются в стандартизированной среде с высокой степенью повторяемости и низкой вариативностью.

Но в семье все наоборот. Каждое действие может быть разным, каждое препятствие может возникнуть неожиданно, и каждую секунду могут появляться новые факторы.

В качестве независимой переменной приводится аргумент, что нынешним узким местом в робототехнической отрасли является уже не само оборудование, а скорее «мозг». Двуногая походка, ловкие руки и суставы с силовым управлением быстро развиваются, но понимание окружающей среды, оценка рисков, реагирование на несчастные случаи и непрерывное обучение остаются самыми большими препятствиями на пути к появлению роботов в домах.

В качестве независимой переменной ранее была запущена модель первого поколения WALL-A, в которой используется распространенная в отрасли архитектура VLA (Visual-Language-Motion).

Основная логика этого типа модели такова:

  • Камера что-то видит (V, Vision).
  • Модель понимает языковые инструкции (L).
  • Восстановите траекторию действия для выполнения задачи (A, Действие).

Звучит разумно, но проблема также очевидна: эти возможности часто берутся из разных модулей, а затем собираются воедино.

Ван Хао, соучредитель и технический директор компании Independent Variable, пояснил:

Модуль зрения отвечает за распознавание объектов, языковой модуль понимает инструкции, а модуль действий генерирует траектории. Информация передается между модулями поэтапно, при этом потеря и задержка происходят каждый раз, когда она пересекает границу.

Что еще более важно, эти модели превосходно имитируют действия, но не обязательно понимают окружающий мир. Робот может научиться «поднимать чашку», но он может не понимать, почему чашка падает; он знает, как поставить тарелку на стол, но может не понимать, что половина тарелки, висящая в воздухе, означает, что она вот-вот разобьется.

Это также объясняет появление WALL-B. Проще говоря, его цель — позволить роботам выйти за рамки модульного мышления и вместо этого воспринимать и действовать как единое целое. Официальная аналогия — унифицированная архитектура памяти Apple Silicon. Ранее процессоры, графические процессоры и память были независимы, и сама передача данных замедляла эффективность; с унифицированной архитектурой все возможности используют одни и те же ресурсы, что приводит к значительному повышению производительности.

Роботы работают по схожей логике.

В архитектуре WUM (World Unified Model Architecture) такие возможности, как зрение, язык, движение, осязание и физическое прогнозирование, обучаются вместе в одной сети, а не разделяются, а затем объединяются. Это вносит важные изменения. Традиционные роботы часто «сначала распознают, а затем действуют», в то время как WALL-B стремится к одновременному выполнению процессов восприятия и принятия решений.

Независимая переменная называется моделью. С первого дня обучения одновременно используются визуальные, слуховые, лингвистические, тактильные данные и данные о движении для достижения «мультимодального ввода и мультимодального вывода». Проще говоря: в тот момент, когда оно видит чашку, оно уже рассчитывает, как ее взять; когда оно почувствует вес, оно соответствующим образом скорректирует свою силу.

Ван Хао заявил, что модель начала изучать основные физические законы, такие как гравитация, инерция, трение и скорость. Например, если на краю стола находится полуподвешенная пластина, даже если робот никогда раньше не сталкивался с подобной ситуацией, он может предположить, что пластина может упасть, и, следовательно, активно оттолкнуть её в безопасное положение. Это означает, что в будущем роботам не потребуется переобучение для каждого дома, поскольку, несмотря на различия в планировке помещений, физические законы остаются неизменными.

Раньше многие роботы просто прекращали выполнение задачи после неудачи и ждали вмешательства человека. Идея WALL-B заключается в том, чтобы повторять попытку после неудачи и напрямую учитывать полученный опыт в модели после успеха. Ван Хао сравнивает это с процессом обучения людей использованию палочек для еды:

Палочки для еды падали бесчисленное количество раз, но каждая неудача помогала мне совершенствовать метод управления, и в конце концов я выработал устойчивый навык.

Если этот механизм действительно работает, скорость итераций робота будет зависеть не только от лабораторных тренировок, но и от непрерывной обратной связи из реального мира.

Через 35 дней робот действительно будет жить в доме пользователя.

Что касается обучающих данных, то независимые переменные описаны очень наглядно: лабораторные данные похожи на «сахарную воду», а данные из реальной жизни — на «молоко». Первые чистые, стабильные и многочисленные, но их пищевая ценность ограничена; вторые сложные и шумные, но ближе к реальному миру.

Ван Хао рассказал, что для получения этих данных команда посетила сотни домов добровольцев, чтобы собрать образцы окружающей среды. Более того, каждый дом был уникальным: освещение отличалось по уровню тепла и холода, напольное покрытие было разным, повсюду валялись игрушки и тапочки, кошки внезапно прыгали на стол, а дети устраивали новый беспорядок…

Эти переменные сложно полностью смоделировать в лабораторных условиях, но это реальность, с которой роботы будут сталкиваться каждый день после того, как войдут в дом.

В индустрии воплощенного интеллекта также формируется новый консенсус: тот, кто обладает данными о реальных сценариях, с большей вероятностью сможет создать долгосрочное конкурентное преимущество. Более конкретным, чем выпуск модели, является график, предоставленный независимыми переменными. Компания объявила, что через 35 дней робот нового поколения появится в домах первых пользователей. Это означает, что это уже не просто демонстрационный образец или закрытое тестовое устройство, а действительно начинает внедряться в потребительские среды.

Конечно, независимая переменная не отражает идеальной ситуации. Ван Цянь откровенно признает, что робот в настоящее время все еще находится на «стадии стажировки». Он будет совершать ошибки, например, ставить тапочки на кухне или останавливаться на полпути, чтобы подумать, и ему все еще требуется удаленная помощь. Но с другой стороны, он может работать непрерывно 24 часа в сутки, накапливая новый опыт в повседневной работе. Эта логика «служения и роста» очень похожа на итерационный метод разработки программных продуктов сегодня, только в данном случае носителем является робот.

В последние годы индустрия робототехники добилась больших успехов в создании впечатляющих результатов. Однако продукты, которые действительно меняют жизнь, зачастую оказываются не самыми впечатляющими, а теми, которые лучше всего решают обыденные проблемы.

Выпуск робота WALL-B компанией Independent Variable, по сути, отвечает на более практический вопрос: могут ли роботы сначала заниматься домашними делами, прежде чем говорить о будущем?

Через 35 дней ответы начнут появляться в гостиных первой группы пользователей.

Ситуация стабильна и улучшается.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.