Прекратите возиться с бесполезными лобстерами; лучшая платформа для агентов ИИ на данный момент — это автомобиль.

Сейчас 6:45 утра. В вашем календаре указана встреча в конференц-центре в 9:00 утра.

Еще до того, как вы встанете, агент уже проведет несколько этапов оценки в фоновом режиме.

Сегодня температура немного поднялась, довольно жарко; сегодня вокруг места проведения мероприятия проходит крупное мероприятие, поэтому обычные маршруты, как ожидается, будут сильно перегружены; в машине осталось 62% заряда батареи, этого достаточно для поездки туда и обратно.

Затем система автоматически перенесла напоминание о выезде с первоначального времени будильника на 7:20, предварительно установила температуру в салоне автомобиля на 22 градуса Цельсия и включила ваш обычный утренний подкаст.

Когда вы спускаетесь вниз, выходите из лифта и открываете дверь машины, она уже выглядит так, будто ее только что помыли: температура в самый раз, маршрут свободен, а содержимое подготовлено.

Вы не нажимали кнопку и не произносили ни слова, но оно уже знало, что делать. Вероятно, это самое конкретное и захватывающее представление об агентах искусственного интеллекта, которое люди имеют сегодня.

▲Джарвис из «Железного человека» — это высшее воплощение этой фантазии.

Это уже не просто диалоговое окно на веб-странице, не просто робот, отвечающий на ваши действия.

Оно начинает покидать экран и входить в физический мир, выполняя те небольшие задачи, которые изначально требовали одновременного вмешательства рук, глаз и ушей.

Умный агент наткнулся на препятствие.

За последний месяц это фантастическое воображение внезапно стало осязаемым. Даже люди, которые обычно не обращают особого внимания на ИИ, вероятно, сталкивались с вирусным «Lobster OpenClaw».

В отличие от прежних систем ИИ, которые могли только общаться, такие инструменты, как OpenClaw, лучше соответствуют общественному представлению о «настоящем агенте». Он может управлять клавиатурой и мышью, работать в фоновом режиме терминала и напрямую вызывать системные API для выполнения различных задач.

Одни используют его для написания кода, другие — для организации электронной почты и составления списков дел, а третьи просто сбрасывают туда все мелкие задачи, такие как проверка рейсов, выбор мест и отслеживание их состояния. Это как супер-стажер, который никогда не отходит от работы — быстрый, способный и теоретически способный справиться с любой задачей.

Но ажиотаж возник быстро и так же быстро утих. Высокая стоимость настройки и использования вычислительной мощности, а также ненадежные настройки безопасности по умолчанию означают, что на пути к превращению этого в стабильно работающую систему еще предстоит преодолеть множество препятствий.

Таким образом, общественное мнение в очень короткие сроки претерпело кардинальные изменения. Сначала говорили, что «появилась первая группа людей, зарабатывающих деньги на лобстерах», затем — что «появилась первая группа жертв лобстеров», а позже некоторые даже начали платить специалистам за удаление программного обеспечения у себя дома.

Аналогичная ситуация сложилась и с мобильными агентами. Телефоны-мешки, способные автоматически сравнивать цены, размещать заказы и даже отправлять сообщения в WeChat, были ограничены основными платформами сразу после своего появления.

Агент на экране, безусловно, очень умный, но на последнем этапе он всегда натыкается на препятствие. Этим «препятствием» иногда являются системные разрешения, иногда закрытая экосистема, а иногда коммерческие интересы гигантов.

Эта затруднительная ситуация подчеркивает огромный потенциал другого аппаратного терминала — автомобиля, который стал тем местом, где агенты, скорее всего, будут развернуты в первую очередь.

В историческом контексте это весьма иронично.

Когда появились новые энергетические транспортные средства, в отрасли почти единодушно считали, что «умные» автомобили станут следующим прорывом в области аппаратного обеспечения после смартфонов.

В те годы автомобильные компании использовали ту же риторику, что и производители мобильных телефонов: собственная разработка ОС, закрытая экосистема, магазин приложений, платформа для разработчиков и борьба за время, проводимое пользователями в сети.

Все превращают свои автомобили в «большие телефоны на колесах». Mercedes-Benz, BMW и Volkswagen обсуждают свои автомобильные системы, Geely и Volvo создали ECARX, а BYD уже давно выпустила свой автомобильный SDK.

В те времена всех охватывал знакомый оптимизм, как будто, пока система мобильной связи будет тиражироваться, центральный экран управления станет новым главным местом, и доходы от рекламы, распределение прибыли и дополнительные услуги будут поступать оттуда.

▲ Различные варианты применения в транспортных средствах

Но автомобиль — это не мобильный телефон.

Автопроизводители позже обнаружили, что, за исключением навигации и онлайн-музыки, большинство автомобильных приложений демонстрировали крайне низкую активность. Никто не хотел играть в игры в машине, совершать покупки через автомобильные системы было неудобно, короткие видеоролики сразу же стали объектом внимания регулирующих органов по безопасности, и даже, казалось бы, многообещающее «караоке в машине» использовалось гораздо реже, чем рекламировалось.

В конце концов, люди ездят по дорогам, чтобы путешествовать, а не чтобы сидеть за экраном компьютера.

Мобильный телефон — это устройство, способное полностью завладеть вашим вниманием. Вы можете смотреть на экран, проводить пальцами по нему и полностью погрузиться в него. Но с автомобилем все иначе, особенно во время вождения, когда взгляд водителя должен быть прикован к дороге, а обе руки — на руле.

На скорости 120 километров в час на трассе, если вы отвлечетесь от дороги всего на 2 секунды, автомобиль уже проедет 67 метров вперед. В пределах этой 67-метровой слепой зоны может произойти любая авария.

Автовладельцы быстро это поняли и обнаружили, что им приходится пробираться через дополнительные меню на экране, чтобы включить вентиляцию сидений. Эта, казалось бы, «продвинутая» конструкция только порождает разочарование в дороге.

Именно поэтому траектория развития интеллектуальных автомобильных салонов не продолжилась по пути «процветающих экосистем приложений», а практически сразу перескочила к другой революции: интерактивной трансформации, движимой крупными моделями. Те самые приложения для автомобилей, которые когда-то вызывали большой интерес, были оттеснены на второй план, даже не успев раскрыться.

▲ Автопроизводители постепенно возвращают в производство физические кнопки.

То, чего не могут делать мобильные телефоны, автомобили могут делать по своей природе.

Новым главным героем на сцене стал Агент. Теперь акцент делается не на том, «сколько точек входа я могу вам предоставить», а на том, «как добиться для вас результата».

В 2019 году XPeng P7 позиционировался как автомобиль с «полноценным голосовым управлением» как одним из главных преимуществ. В обзорах того времени часто демонстрировался сценарий, когда водитель говорил: «Мне немного холодно», и кондиционер автоматически повышал температуру на 2 градуса Цельсия. Это, несомненно, было огромным шагом вперед для своего времени, гораздо удобнее, чем ручное касание экрана, и выглядело намного футуристично.

Однако с точки зрения инженерной логики, она по-прежнему опирается на заранее определенную таблицу соответствия «оператор-инструкция». Когда система слышит «Мне немного холодно», она сопоставляет соответствующий вариант в таблице кодов и выполняет «Повысить температуру кондиционера на 2 градуса». Это больше похоже на толстый словарь, быстро перелистывающий страницы, но лишенный каких-либо аналитических способностей. Если вы произнесете правильное ключевое слово, она отреагирует; если вы немного перефразируете его, она начнет говорить «Я еще не знаю».

▲ Привет, малыш П.

Однако вскоре мы увидим агентов с проактивными способностями к восприятию, которые смогут понимать намерения, проактивно воспринимать информацию и программировать сложные действия в различных системах.

Она не будет просто ждать ваших приказов; вместо этого она будет действовать как опытный дворецкий, тихо наблюдая, слушая и записывая. Например, если вы скажете: «У меня сегодня плохое настроение», старая система часто вежливо даст сбой или просто предложит вам какие-нибудь банальности.

Поскольку эта команда не привязана к конкретной кнопке, агент может связать её с эмоциями, окружающей обстановкой и предпочтениями, автоматически регулируя громкость, приглушая окружающее освещение или переключаясь на менее энергичную песню. Возможно, он не всегда будет угадывать идеально, но это уже не просто выполнение команд.

Ранее Tencent продемонстрировала интеллектуального агента, способного заблаговременно предлагать варианты действий на основе времени, местоположения и привычек пользователя, а также интегрироваться с такими сервисами, как заказ еды и оплата парковки.

Также существуют предварительные направления исследований для бортпроводников, которые смогут определять, спят ли пассажиры на задних сиденьях, и затем автоматически уменьшать громкость в задней части салона, точно регулировать температуру и даже изменять режим работы воздуховодов.

Представьте себе семью, которая едет на выходные по эстакаде, а ребенок спит на заднем сиденье. Традиционная голосовая система потребовала бы от вас сказать: «Немного убавьте мощность кондиционера для задних пассажиров».

Однако настоящий агент может инстинктивно определить, что на данном этапе необходимо выполнить не одно действие, а серию скоординированных действий: уменьшить громкость задней аудиосистемы, отрегулировать вентиляционные отверстия кондиционера, немного снизить светопропускание окон, чтобы уменьшить яркость сзади; переключить шасси в более мягкий режим для сглаживания мелких неровностей; и, если включено интеллектуальное вождение, скорректировать стратегию движения, сделав ее более консервативной для более плавного разгона и торможения. Взрослые на передних сиденьях могут даже не заметить, что отдали какие-либо команды, поскольку обстановка в салоне уже была незаметно настроена.

Это означает, что теперь работает не одна функция, а весь автомобиль в целом, замыкая цикл от восприятия до реакции.

Главное отличие автомобилей от других терминалов заключается в их способности взаимодействовать в различных областях.

В прошлом электронная и электрическая архитектура автомобилей напоминала большой дом, разделенный на несколько частей. В области кабины отвечали развлекательная система, кондиционирование воздуха и сиденья; в области шасси — подвеска, тормозная система и рулевое управление; а в области интеллектуального управления — системы помощи водителю (ADAS) и автономное вождение. Каждый слой имел свои границы, и они не были естественным образом связаны друг с другом, как одна комната.

Традиционные голосовые системы обычно позволяют выполнять операции только в одной точке в рамках одной области; другими словами, это как передача сообщения через дверь. Однако агенты устроены иначе. Они часто получают неоднозначные намерения, но могут обходить множество барьеров и координировать работу нескольких систем одновременно.

Именно поэтому автомобиль, пожалуй, является наиболее подходящим контейнером для размещения агентов среди всех существующих сегодня терминалов. Причина кроется в его единообразии, замкнутой системе и управляемости.

Типичным негативным примером являются «умные дома».

Любой, кто занимался ремонтом дома, знает, что бытовая техника часто бывает разных марок: кондиционеры — одной марки, светильники — другой, электроприводы для штор — третьей, а колонки и дверные замки используют свои собственные протоколы.

Может показаться, что вы покупаете систему "умного дома", но на самом деле вы часто получаете набор устройств, которые на самом деле не взаимодействуют друг с другом.

Протокол Matter был выпущен в 2022 году с целью создания общего языка для отрасли, однако различные поставщики по-прежнему придерживаются проприетарных интерфейсов и барьеров для передачи данных на базовом уровне.

Поэтому наиболее удобным в настоящее время вариантом для использования «умного дома» зачастую остается «комплект для всей семьи».

Дилемма, с которой сталкиваются мобильные устройства, во многом схожа. Представьте, что вы хотите, чтобы ваш голосовой помощник заказал кофе, затем вам нужно напомнить об этом другу в WeChat, и, наконец, переключиться на Google Maps. Звучит как всего три шага, но за этим скрывается долгая и хрупкая борьба за власть между несколькими суперприложениями. Если какая-либо из сторон почувствует себя в невыгодном положении, связь будет разорвана.

В отличие от этого, с автомобилями ситуация гораздо проще. По крайней мере, в замкнутом мире автомобиля правила в основном устанавливаются самими автопроизводителями. Шасси, кондиционер, аудиосистема, сиденья и освещение — все это по своей сути является частью одной и той же сети.

Конечно, салон автомобиля — это не утопия. Сценарии его использования более сфокусированы, и его суть всегда вращается вокруг путешествий, вождения и впечатлений от дороги. Это облегчает агентам создание стабильной контекстной логики внутри автомобиля по сравнению с мобильным телефоном.

Однако, соответственно, затраты на метод проб и ошибок значительно выше. Система «умного дома» может неправильно оценить наихудший сценарий — например, включение света посреди ночи; но если агент автомобиля неправильно оценит ситуацию после получения контроля над системой безопасности, последствия могут быть катастрофическими.

От "ты, сидящий в машине" до "ты во всей красе"

В последние годы конкуренция на китайском рынке электромобилей становится все более ожесточенной, а разрыв в качестве оборудования сокращается. Теперь же реальным конкурентным преимуществом является интеллектуальный пользовательский интерфейс.

В сочетании с чрезвычайно высоким уровнем принятия новых технологий китайскими пользователями, эти факторы создали уникальный катализатор. Именно поэтому за последние два года большинство наиболее масштабных и агрессивных внедрений транспортных средств на основе агентов произошло в Китае.

Однако, как только автомобильный агент достигнет определенного уровня развития, он вскоре столкнется с новыми узкими местами. Ему далеко не достаточно просто распознавать «вас, сидящих в машине».

Оно знает, какую музыку вы любите слушать и какую температуру предпочитаете поддерживать в кондиционере, что полезно, но все же слишком примитивно. Ему также нужно знать, во сколько вы легли спать прошлой ночью, во сколько у вас завтра встреча, куда вы часто ходите в последнее время и когда вы меньше всего хотите, чтобы вас беспокоили.

Это требует, чтобы вас воспринимали как «целостную личность», живущую в непрерывном временном отрезке.

Именно в этом и заключается главное преимущество таких игроков, как Huawei и Xiaomi, обладающих полноценной экосистемой. Их амбиции выходят за рамки простого «агента в автомобиле»; они стремятся создать «персонального агента», работающего на разных устройствах.

На прошлой неделе Xiaomi выпустила Xiaomi miclaw, продукт для тестирования мобильных ИИ-агентов. Он создан на основе собственной разработки — большой модели MiMo, и его основная цель — проверить возможности выполнения задач этой модели в «экосистеме человек, транспортное средство и дом».

Miclaw работает как системное приложение и имеет доступ к более чем 50 базовым функциям мобильных телефонов, включая SMS, календарь, камеру и даже устройства умного дома Mi Home, обеспечивая переход от «диалога» к «исполнению».

Ещё более примечательна его "саморазвивающаяся" архитектура, поддерживающая память на уровне файлов, создание суб-агентов и доступ к сервисам MCP. Она может автономно проектировать системы памяти и создавать специализированных суб-агентов. Чем больше её используют, тем лучше она понимает предпочтения и привычки пользователей.

Хотя компания Miclaw еще не завершила интеграцию всей экосистемы, включающей людей, транспортные средства и дома, тенденция уже достаточно очевидна: данные о поведении, которые вы оставляете на разных устройствах, будут объединены в целостную траекторию вашей жизни.

▲Некоторые функции Xiaomi Claw

На этом этапе описанная в начале статьи утренняя сцена перестаёт быть научно-фантастическим фильмом и становится повседневной жизнью всё большего числа людей.

Агент изучил ваше расписание, привычки и физиологическое состояние, поэтому он незаметно переносит время вашего пробуждения на более раннее, перепланирует маршрут и создаст для вас комфортные условия в салоне.

Финальная форма технологического развития часто представляет собой интересный «переворот»: наиболее зрелые технологии зачастую не являются ни научной фантастикой, ни привлекательными с точки зрения дизайна.

Когда был изобретен паровой двигатель, все замирали от восхищения, глядя на огромные клубы белого пара; но когда электричество получило широкое распространение, люди редко обращали внимание на проводку в стенах.

То же самое относится и к Агентам. Их истинная сила заключается не в обучении людей более квалифицированному управлению машинами и не в принуждении к запоминанию большего количества кодовых слов и команд, а в их способности незаметно и полностью освободить вас от утомительных операций.

Автомобиль будущего останется тем же самым автомобилем — руль, сиденья, окна и шины — всё будет на месте. Но он начнёт понимать ваш образ жизни, запоминать ваши личные предпочтения и незаметно берёт на себя все мелочи, о которых раньше вам приходилось думать и делать самим.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете быстро найти еще больше интересного контента.