Подробный анализ версии Google «Телефона-булочки с бобами»: в какую игру играл правитель Android? AI Gadgets

Примечание редактора: Когда ИИ начинает искать свою собственную форму, некоторые из его решений оказываются неожиданными. Искусственный интеллект породил специальную кнопку на смартфонах, словно возрождая их давно утраченный эволюционный импульс. Очки, обеспечивающие естественный доступ к зрению и слуху, начинают напоминать следующее поколение персональных терминалов. Некоторые небольшие, специализированные устройства кажутся более надежными, чем универсальные гаджеты, в определенные моменты. Между тем, радикальные попытки заменить смартфоны одноразовыми устройствами встретили холодный прием. Внедрение технологий никогда не сводится просто к наращиванию функций; оно также учитывает привычки людей, соответствие сценариям и переосмысление понятия «простота использования». iFanr запускает рубрику "Хроника гаджетов с ИИ", цель которой – рассказать вам о том, как ИИ меняет дизайн оборудования, преобразует взаимодействие человека с компьютером и, что более важно, как ИИ войдет в нашу повседневную жизнь.
Изначально я думал, что информация о серии Samsung Galaxy S26 уже просочилась в сеть, и презентация будет просто формальностью. Но оказалось, что у Samsung и Google были другие планы.
Обе компании совместно продемонстрировали новые возможности искусственного интеллекта Gemini, представленные в S26: с помощью одной голосовой команды Gemini может помочь вам вызвать такси через Uber или заказать еду на вынос через DoorDash.

▲ Источник изображения: Android Central
В настоящее время эта функция находится на стадии предварительного тестирования и доступна только в США и Южной Корее.
Можно рассматривать это как объединение усилий Google и Samsung для создания глобальной версии «Doubao Phone» (точнее, Doubao Phone Assistant). Серия Galaxy S26 — это только начало; эти возможности будут позже внедрены в телефоны Google Pixel 10 и другие устройства на Android 17.
Имея опыт работы со многими агентами искусственного интеллекта на уровне мобильных телефонов/компьютеров, а также обширный опыт использования «Doubao Phone», я считаю, что обсуждение агента Gemini не должно ограничиваться лишь «новой функцией».
Следует признать, что это не первый случай, когда базовая структура операционной системы Android подвергается глубокой модификации для поддержки интеллектуальных агентов — многие производители, включая OPPO, Honor и Huawei, уже предприняли значительные попытки в этом направлении.
Но это Google, абсолютный владелец операционной системы Android.
Если компания ByteDance, будучи «сторонним наблюдателем», проявила «неуважение» к приложению национального уровня, то участие Google в этом вопросе совершенно иное.
Но подождите, давайте сначала разберемся, что же это за "телефон-мешок" от Google и Samsung.
Как вам телефон Samsung "Bean Bun Phone"?
Функция "Gemini Auto Task", продемонстрированная Samsung и Google, может имитировать работу человека с телефоном для автоматизации задач. В основе подхода лежит сочетание распознавания текста на экране с помощью ИИ и API-интерфейсов системного/прикладного уровня.
Стоит отметить, что «Doubao Phone», разработанный совместно компаниями ByteDance и Nubia, в значительной степени использует системные разрешения и возможности чтения с экрана, а не API. Можно сказать, что Doubao Phone в основном применяет «принудительный» подход, реализуя свой функционал без предварительного согласования с разработчиками приложений, что дает национальным компаниям основания блокировать и бойкотировать его.
Интеллектуальный агент Gemini, реализованный Samsung и Google в серии Galaxy S26, сочетает в себе элементы обеих компаний. Согласно информации, предоставленной Samsung, он поддерживает 200 лучших приложений в их магазине приложений (но гарантирована корректная работа только определенных приложений, как будет подробно описано позже) – это указывает на то, что Samsung и Google, по крайней мере, в значительной степени обратились к разработчикам этих приложений.

Рассмотрим опыт редактора журнала Wired: она просто вызвала Gemini, указала, что хочет поехать в аэропорт, и само приложение Gemini открыло «виртуальное окно» для запуска Uber и начало выполнять действие в фоновом режиме. Пользователи могут в любой момент нажать, чтобы посмотреть на процесс выполнения действия приложением Gemini.
Поскольку в этом районе расположено несколько разных аэропортов, Gemini оперативно напомнила пользователю о необходимости выбрать соответствующее место назначения; при оформлении заказа Gemini также вывела на передний план интерфейс, чтобы упростить выбор подходящего автомобиля и оплату.
«Виртуальное окно» Gemini можно рассматривать как изолированную «виртуальную машину», что является мерой предосторожности со стороны Google для защиты конфиденциальности пользователей. Предыдущие системы Gemini работали на Android, но новый агент Gemini функционирует в этой изолированной среде и не обращается к другим частям устройства при взаимодействии с приложениями.
И ещё один момент: если вы использовали продукты для интеллектуальных агентов с возможностями облачных компьютеров/телефонов, такие как Manus, Kimi computer или AutoGLM, вы легко поймёте логику этой виртуальной машины Gemini.

▲ Источник изображения: 9To5Google
Это довольно простая задача; многие мобильные голосовые помощники с искусственным интеллектом, разработанные в стране, освоили этот сценарий еще год назад.
Ещё более впечатляющей особенностью Gemini является сочетание с функциями чтения с экрана и захвата информации, которые компания разрабатывала уже довольно давно.
Например, когда пользователь и его друзья обсуждают заказ пиццы для вечеринки, пользователь может просто позвать Gemini и сказать: «Разберись с заказом». Gemini сможет напрямую получить список упомянутых в чате пиццерий и даже конкретные виды пиццы, а также организовать заказ в соответствии с потребностями всех участников.

Затем пользователи могут заказать еду на вынос через платформу доставки Grubhub, используя Gemini. Искусственный интеллект автоматически добавит все необходимые продукты в корзину в фоновом режиме в соответствии с только что сформированным заказом, а затем доставит заказ пользователю для подтверждения и оформления.

Иногда заказ еды проходит не совсем гладко, и Джемини старается самостоятельно справляться с неожиданными ситуациями и предлагать решения пользователям. Однажды, когда пиццерия ограничила количество больших пицц, которые можно было заказать в часы пик, Джемини спросила, можно ли ей вместо этого заказать две средние пиццы.
Вот ещё один пример: в заметке Google Keep был указан список участников вечеринки с барбекю, включая вегетарианцев. Gemini смог рассчитать общее количество хот-догов и булочек, необходимых для всей вечеринки, затем отправить запрос на покупку ингредиентов, и через несколько минут все товары оказались в корзине DoorDash.
Саммер Самат, президент экосистемы Android в Google, рассказал, что Gemini не «запоминает» шаги и маршруты этих операций на платформе заранее, а использует свои логические способности, чтобы имитировать то, как человек воспринимает экран и выполняет следующую операцию. Это означает, что Gemini может раскрыть свой потенциал в большем количестве сценариев в будущем.
Здесь вы можете увидеть, что Gemini изначально ориентируется на сценарии заказа еды и вызова такси, что больше похоже на то, что делала Qianwen перед Праздником весны.

▲ Источник изображения: Wired
Ещё один телефон в стиле "булочка с бобом" от официального представителя Android.
По сравнению с по-настоящему «универсальным» мобильным помощником Doubao, который даже мог помочь найти избранные сообщения в WeChat (по крайней мере, до бойкота), текущие возможности Gemini все еще довольно ограничены, ориентируясь на повседневные сценарии, такие как вызов такси, доставка еды и покупки продуктов. Хотя его базовая технология более совершенна, реальный пользовательский опыт мало чем отличается от опыта отечественных мобильных ИИ-помощников, таких как Xiaoyi от HarmonyOS и YOYO от Honor.
Однако, как уже упоминалось в начале статьи, Google контролирует всю экосистему Android и обладает абсолютным влиянием и контролем.
Вместе с выпуском возможностей автоматизации Gemini компания Google также подробно раскрыла базовую структуру и планы на будущее системы Android — существует два направления, которые, проще говоря, представляют собой и «Apple», и «Doubao».
Во-первых, в прошлом году Google выпустила фреймворк под названием "AppFunctions", который позволяет разработчикам предоставлять точки входа для определенных функций и возможностей своих приложений, чтобы ИИ-помощники могли их вызывать.
Google сравнивает AppFunctions с протоколом контекста модели (MCP) Android, который можно просто понимать как стандарт диалога, помогающий сторонним приложениям и моделям искусственного интеллекта взаимодействовать.

Эта структура похожа на App Intents от Apple. В концепции Apple пользователи могут использовать Siri для управления различными приложениями и выполнения различных функций, а базовая реализация осуществляется через App Intents — учитывая задержку с появлением Siri следующего поколения, App Intents достаточно для обеспечения приемлемого пользовательского опыта.
То же самое относится и к AppFunctions от Google.
Например, пользователь может дать указание найти рецепт в электронной почте друга и добавить необходимые ингредиенты в список покупок. Получив команду, ИИ сначала использует функцию «поиск» в почтовом приложении для извлечения и обработки нужного контента, а затем использует функцию «список покупок» в приложении для заметок, чтобы заполнить и упорядочить данные.
Некоторые функции AppFunction уже реализованы в Samsung Galaxy S26 и системе One UI 8.5. Например, пользователи могут отдавать команды Gemini, чтобы найти определенные фотографии в своем альбоме и отправить их друзьям по SMS.
Важно отметить, что на протяжении всего процесса Gemini не нужно открывать приложения «Фотографии» и «Сообщения», или даже покидать само приложение Gemini. Вместо этого оно использует AppFunctions для получения соответствующих точек входа и выполнения операций внутри Gemini, что делает его более эффективным.
По сути, реализация на основе AppFunctions следует той же логике, что и старый путь API. Это заранее подготовленное решение.

Однако не все приложения адаптированы должным образом. Не беспокойтесь, у Google есть другое решение.
В статье, опубликованной вчера в блоге разработчиков Android, Google прямо заявила, что компания также разрабатывает фреймворк для автоматизации пользовательского интерфейса, который позволит ИИ-помощникам и сторонним приложениям имитировать действия человека, напрямую открывая приложение и выполняя пошаговые операции.

—Это подделка под телефон «Doubao Phone».
Однако, несмотря на заявления Google о том, что в будущем основную работу возьмет на себя автоматизация пользовательского интерфейса, в серии Galaxy 26 эта функция находится лишь в «ранней предварительной версии».

▲ Мобильный телефон Doubao помог мне найти и сравнить цены на шампуни.
Если AppFunctions требует от разработчиков приложений дополнительной работы по адаптации, то фреймворки автоматизации пользовательского интерфейса оставляют всю работу агенту ИИ, не требуя дополнительной адаптации. Однако эффективность во многом зависит от возможностей агента ИИ, и его преимущество заключается в способности охватить большое количество приложений сразу после запуска.
Как вы можете видеть сейчас, в проекте Google Android Gemini, посвященном интеллектуальным агентам, AppFunctions и автоматизация пользовательского интерфейса представляют собой два взаимодополняющих направления: обеспечение максимальной совместимости за счет стандартизированных и отслеживаемых интерфейсов, а также создание основы для режимов взаимодействия с программами чтения с экрана, которые действительно представляют будущее.
Компания Google также заявила, что это не просто функция, эксклюзивная для Gemini, а особенность всей системы Android.
Это также означает, что в будущем, будь то встроенный в телефон ИИ-помощник или сторонние приложения, такие как ChatGPT, они смогут вызывать функции приложений для выполнения задач или «понимать» пользовательский интерфейс телефона для выполнения автоматических операций.
Стоит отметить, что, хотя Gemini недоступен в китайской версии Samsung Galaxy S26, голосовой помощник Bixby по-прежнему может выполнять такие функции, как заказ еды на вынос, вызов такси и сравнение цен на платформах электронной коммерции. Можно с уверенностью предположить, что Samsung также нашла образцового поставщика в Китае для замены Gemini. Что касается того, какая из этих крупных и мелких компаний участвует в проекте, это, вероятно, зависит от того, кто добился более выдающихся результатов в разработке мобильных интеллектуальных агентов за последний год.

Путь к созданию смартфонов с искусственным интеллектом не будет одиночным предприятием.
В прошлом году телефон «Doubao Phone» произвел фурор, но, к сожалению, его производство было преждевременно прекращено. Хотя это и вызывает глубокое сожаление, это также заставляет нас задуматься: является ли модель автоматизации на основе ИИ идеальной моделью для телефонов с искусственным интеллектом?
Ответ на этот вопрос не будет дан как минимум три-пять лет. По крайней мере, телефоны Doubao действуют не в одиночку; Google, владеющая системой Android, также выбрала этот путь и имеет гораздо большее влияние.

После того, как телефоны Beanbag стали популярны за рубежом, некоторые пользователи сети начали предполагать, что если Google будет продвигать эту технологию на телефонах Pixel и Android, перспективы ее применения будут очень широкими.
Хотя я думаю, что у Google нет четкого ответа на вопрос о «телефонах с искусственным интеллектом», похоже, что у них есть ИИ, система и оборудование, и они пробуют разные направления, надеясь, что хотя бы одно из них сработает.
Но, по крайней мере, Google подала хороший пример «автоматизации на системном уровне» для Android, и многие новые телефоны в будущем потенциально могут превратиться в «телефоны-обманки».
Эта волна может не ограничиваться только Android. Не забывайте, что Apple сотрудничает с Google, и Gemini станет технической поддержкой Siri. А App Intents и App Functions очень похожи…

▲ Демонстрация ИИ Siri
Заглядывая немного дальше в будущее: интеллектуальные агенты Gemini не ограничиваются смартфонами с искусственным интеллектом. Саммер Самат предполагает, что в будущем умные очки, кулоны с ИИ и даже автомобили, оснащенные Gemini, смогут использовать его для выполнения сложных задач — конечно, до реализации таких сценариев еще далеко.
Однако Google успешно внедрила автоматизацию на основе ИИ лишь на техническом уровне. Создание парадигмы не означает, что проблемы исчезли. Различные противоречия, с которыми столкнулись телефоны Doubao, станут вызовами, с которыми неизбежно столкнутся и последующие игроки рынка.
В первую очередь, существуют опасения по поводу конфиденциальности и безопасности. Видение Google амбициозно; в будущем возможности доступа к мобильным приложениям и управления ими выйдут за рамки Gemini. Некоторые сторонние приложения на основе ИИ смогут глубже проникать в суть пользовательских данных, и если замаскированные вредоносные приложения будут использовать эти интерфейсы, это может привести к еще большим потерям.

▲ Источник изображения: 9To5Google
Наиболее ожесточенный конфликт разворачивается между производителями аппаратного обеспечения мобильных телефонов, поставщиками возможностей моделей/интеллектуальных агентов и крупными платформами приложений за новую «точку входа» в эпоху искусственного интеллекта. Это также было самым сложным препятствием, которое пришлось преодолеть первому телефону Doubao.
В конце концов, использование Gemini для вызова такси может означать, что пользователи больше не будут видеть рекламные предложения и рекомендации Uber по членству, и даже могут потерять лояльность к бренду, что напрямую нанесет ущерб доходам поставщиков услуг приложений/рекламной индустрии.
В Китае есть свои интернет-гиганты и гиганты в области искусственного интеллекта, и то же самое верно и за рубежом. Давние конкуренты, такие как Meta и Amazon, обладают мощными платформами и экосистемами, и они могут не захотеть открыться Google и позволить Gemini автоматизировать все процессы. Ссылаясь на конфиденциальность, безопасность или правила платформы, ограничения и более высокие барьеры для входа неизбежно возникнут, и конкуренция усилится.
По крайней мере, Google очень уверен в будущем. Саммер Самат считает, что технологии искусственного интеллекта уже находятся в стадии развития, и вместо того, чтобы ломать голову над борьбой с ними, разработчикам следует подумать о подходящем способе их внедрения.
Столкновение нового и старого неизбежно, и в конечном итоге победителями станут те, кто смело будет добиваться перемен накануне их наступления.
Ссылки:
https://android-developers.googleblog.com/2026/02/the-intelligent-os-making-ai-agents.html
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.
ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo