Чтобы аппаратное обеспечение ИИ по-настоящему вошло в нашу повседневную жизнь, нам нужен новый «движок»

2025 год считается первым годом AI Agent. Технологические компании, включая OpenAI, Google и Microsoft, предложили, чтобы агенты начали присоединяться к рабочей силе и даже изменили форму работы.
В то же время такие компании, как Google и OpenAI, чьи основные продукты — программное обеспечение, также начали выпускать более «умное» оборудование.
Эти два события не являются отдельными совпадениями; вместе они указывают на четкий сигнал.
На конференции Volcano Engine «Force Power Conference» несколько дней назад У Ди, руководитель отдела интеллектуальных алгоритмов больших моделей Volcano Engine, высказал мнение , что предоставление возможностей ИИ будет способствовать комплексной модернизации оборудования Интернета вещей и облегченного оборудования, а также может быть изменена вся система ценностей оборудования .
В Китае Volcano Engine, как облачная и ИИ-сервисная платформа, не является традиционным производителем оборудования, но участвует в интеграции ИИ и аппаратных продуктов другим способом. Девять из десяти крупнейших производителей мобильных телефонов в мире имеют глубокое сотрудничество с Volcano Engine, а архитектура конечного облака Volcano Engine становится «мозгом» и «нервом» интеллектуального оборудования.
В ходе общения с практиками мы обнаружили, что проблемы, с которыми обычно сталкиваются производители оборудования при интеграции с ИИ, — это фрагментация рыночной экосистемы и высокие затраты на разработку. Это также важная причина, по которой некоторое оборудование ИИ недолговечно и никогда не становится широко используемым устройством для пользователей.
Концепции «атомарных возможностей» и «интеграции конечного облака», которые Volcano Engine постоянно подчеркивает в своих интеллектуальных аппаратных решениях, точно отражают суть текущего процесса ИИ в устройствах IoT — как разрушить барьеры между конечным устройством и облаком и позволить возможностям ИИ более плавно передаваться на каждый аппаратный терминал.

Большое количество оборудования AIoT стало важным входом для агентов. Тот, кто возьмет на себя инициативу по обеспечению сквозного реагирования устройств, сможет занять лидирующие позиции на этом развивающемся рынке AIoT.
Разборка «атомной энергии» двигателя Volcano: набор инструментов AIoT
Трехлетний ребенок обнял мягкую игрушку и спросил ее: «Почему небо голубое?» Игрушка тут же ответила детским голосом и изменила тон в соответствии с выражением лица ребенка. Это не научно-фантастический фильм, а сцена, которую уже реализовали такие игрушки с искусственным интеллектом, как Haivivi.
На самом деле за этим стоит набор инструментов искусственного интеллекта Volcano Engine, состоящий из «атомарных возможностей» — концепции, предложенной Цзян Нанем, руководителем отдела панинтернет-решений Volcano Engine.

Цзяннань считает, что поставщики технологий должны « предоставлять услуги атомарным и компонентным образом », то есть разделять возможности крупных моделей ИИ (таких как голос, язык, мультимодальность и т. д.) на стандартизированные, компонуемые API/SDK, к которым партнеры могли бы гибко обращаться.
Атомные возможности — это не изолированные функциональные точки, а «возможности как услуга», что не только повышает гибкость сотрудничества, но и значительно снижает порог развития для производителей, тем самым способствуя инновациям и экологическому процветанию всей отрасли.
Атомные возможности Volcano Engine подобны кубикам Lego, предоставляя производителям оборудования интеллектуальный набор инструментов, который практически готов «из коробки».
iFan разобрался с «атомными возможностями», которые Volcano Engine подготовил для интеллектуального оборудования:
- Большая модель кресла-мешка – «умный мозг» устройства
- Платформа Coze — «быстрый инкубатор» для приложений искусственного интеллекта
- Технология ASR/TTS — голосовой движок, позволяющий устройствам «слушать и говорить»
- RTC-коммуникация в реальном времени – подключение облака и устройств к «высокоскоростной нейронной сети»
- Модель визуального языка VLM – визуальный мозг, который помогает устройствам «понимать мир»
- Вызов функций – универсальный инструмент для вызова внешних служб.

▲Одна картинка для понимания «Инструментария» атомной энергетики Volcano Engine
В области AIoT роль Doubao Big Model гораздо больше, чем просто чат-бот. Помимо способности распознавать намерения пользователя, он также обладает все более сильными возможностями логического рассуждения, позволяя аппаратным устройствам принимать определенные автономные решения при столкновении со сложными сценариями.
В то же время поддержка моделью Doubao мультимодального взаимодействия означает, что будущие интеллектуальные устройства больше не будут ограничиваться одним голосовым или текстовым вводом, а смогут комплексно обрабатывать множественную информацию, такую как изображения и звуки, что закладывает основу для достижения более естественного взаимодействия человека с компьютером, более близкого к общению людей.
Например, последняя модель Seed 1.6 Flash от Doubao, представляющая собой облегченную языковую и визуальную комбинированную модель, может выводить 100 токенов за 1 секунду, что значительно повышает скорость сквозного ответа.
Что касается платформы разработки AI Agent KouZi, она позволяет менеджерам по продуктам без глубокого опыта программирования быстро создавать приложения AI с нуля. Это как предоставление набора шаблонов разработки «все в одном», значительно сокращая цикл от креатива до продукта.
Особенно примечательна возможность подключения кнопки. Она позволяет интеллектуальному телу напрямую взаимодействовать с физическим миром — например, помощник на основе искусственного интеллекта может не только ответить на вопрос «какая сегодня погода», но и активно помочь вам включить кондиционер и настроить его на нужную температуру. Эта возможность позволяет оборудованию перейти от пассивного реагирования к активному обслуживанию.
На этапе коммуникации технология распознавания речи ASR и синтеза речи TTS отвечает за то, чтобы устройство «могло слушать и говорить». ASR Volcano Engine может точно распознавать команды даже в шумной обстановке, а технология TTS делает голос машины не холодным и более «человеческим». После подключения Tuya Smart точность распознавания речи возросла более чем на 20%.
Еще одной ключевой технологией является технология связи в реальном времени RTC, которая представляет собой своего рода «магистраль», соединяющую устройства и облако, гарантируя передачу аудио- и видеоданных с малой задержкой и высокой стабильностью.
Это имеет решающее значение для игрушек с искусственным интеллектом — если ребенок задает вопрос и ему приходится ждать ответа 3–5 секунд, то опыт будет значительно сокращен. Volcano Engine оптимизирует время ответа до менее чем 1 секунды, делая разговор таким же естественным, как и в реальной жизни.

Син Сяоци, руководитель отдела интеллектуального оборудования для больших моделей компании Volcano Engine, отметил , что сквозная производительность в реальном времени является самой большой технической проблемой при внедрении интеллектуального оборудования на базе ИИ , особенно в сценариях облачных рассуждений, где скорость отклика напрямую влияет на пользовательский опыт.
Благодаря интегрированной оптимизации в конечном облаке Volcano Engine значительно повысил скорость отклика голосового взаимодействия ИИ и добился возможности голосовых разговоров в реальном времени, при этом самое быстрое время заняло всего 1 секунду, а среднее время составило менее 1,5 секунд.
Чтобы устройство могло «понимать мир», модель языка зрения VLM позволяет камере не только «видеть» изображение, но и «понимать» его содержание. Например, она может распознавать жесты и выражения детей или анализировать содержание изображения и отвечать на связанные с ним вопросы. Все интеллектуальные модули Quectel подключены к этой возможности, что позволяет оконечным устройствам легко интегрировать многомодальные функции ИИ.
Функция вызова функций подобна универсальному пульту дистанционного управления, позволяющему ИИ активно вызывать различные внешние службы — управление бытовыми приборами, проверка погоды, установка напоминаний и другие последовательные операции могут выполняться одним щелчком мыши.
Реальная конкурентоспособность решения Volcano Engine заключается не в самих «атомных возможностях», а в том, как органично интегрировать эти возможности.
Цзяннань рассказал iFanr , что открытие атомных возможностей позволяет Volcano Engine обслуживать всю аппаратную экосистему, включая производителей микросхем, производителей комплектных машин, бренды терминалов и т. д., формируя интегрированную систему расширения возможностей «облако + терминал» .
Такая полная система сквозного обслуживания охватывает всю цепочку от сбора данных устройства до обработки периферийных вычислений и крупномасштабных рассуждений в облаке. Эта «универсальная услуга» полностью отличается от практики традиционных поставщиков облачных услуг, предоставляющих изолированные интерфейсы ИИ.
В то же время, благодаря тесному сотрудничеству с производителями чип-модулей, такими как Espressif, Broadcom Integrated Circuit, Quectel и Fibocom, Volcano Engine обеспечивает полный набор поддержки «оборудование + алгоритм + платформа». Эта модель сотрудничества позволяет компаниям-производителям оборудования более плавно встраивать возможности ИИ в продукты.
Вместо того, чтобы говорить, что Volcano Engine — поставщик технологий, он больше похож на «военную консультативную группу ИИ», стоящую за производителями оборудования. Он не только предоставляет технологии, но, что еще важнее, он свободно сочетает технологию ИИ и операционный опыт, проверенный ByteDance в продуктах C-end, таких как TikTok, как строительные блоки, для поддержки компаний B-end оборудования.
Новая волна продуктов AIoT
Конечно, настоящее испытание происходит на передовой рынка. Скелет технической архитектуры должен быть реализован на практике, прежде чем он сможет обрести свежую плоть и кровь. Могут ли «более сильная модель, более низкая стоимость, более простая реализация», на которых Volcano Engine всегда делал акцент, действительно заставить эти продукты AIoT создавать волны на рынке?

Haivivi больше не является «умной куклой», которая может только повторять заданные голоса. Основываясь на долгосрочном взаимодействии с детьми, она может точнее понимать немного незрелые и иногда даже нестандартные языковые выражения детей, изучать интересы и предпочтения детей, предоставлять персонализированный контент для общения и даже утешать и подбадривать детей, когда они в депрессии. Поэтому ее приветствуют многие родители и дети.
Ключевым моментом является интеллектуальное решение для интерактивного аудио- и видеоустройства. Haivivi создала полную интерактивную систему AIoT, глубоко интегрировав голосовую модель Doubao Volcano Engine и «кнопки» для построения агентов.
По словам Гао Фэна, соучредителя Haivivi, для достижения естественного интерактивного эффекта команда Haivivi и инженеры Volcano Engine провели глубокую оптимизацию на нескольких уровнях.
Например, с точки зрения скорости отклика голосового взаимодействия, за счет оптимизации конечно-облачного канала совместной работы сквозная задержка от голосовой команды пользователя до отклика игрушки контролируется на лидирующем в отрасли уровне и в некоторых сценариях может быть достигнута в пределах 300 миллисекунд.

▲Гао Фэн, соучредитель Haivivi
Эта игрушка-компаньон на базе искусственного интеллекта может рассказывать всевозможные интересные истории со страстью и эмоциями, а также может служить партнером по практике английского языка для детей, чтобы практиковать разговорную речь и играть с детьми в игры с цепочкой идиом. В этих популярных сценариях использования крайне важно обеспечить погружение детей в процесс разговора.
В отличие от таких брендов, как Haivivi, которые напрямую ориентированы на потребителей C-end, Tuya Smart, как глобальный поставщик услуг по разработке платформ IoT, больше фокусируется на том, как помочь большому количеству разработчиков посредством сотрудничества с Volcano Engine.
В начале этого года Volcano Engine и Tuya Smart достигли соглашения о сотрудничестве с целью полной интеграции большой модели Doubao в платформу разработчика облачных технологий Tuya AI и совместного продвижения крупномасштабной реализации больших моделей AI и облачных технологий в различных сценариях. Это немного похоже на App Store на рынке AIoT.

Важным направлением сотрудничества между двумя сторонами является сфера игрушек ИИ. Разработчики могут более удобно достичь комплексной интеграции и вызова мультимодальных возможностей ИИ, таких как аудио, видео, изображения и текст на платформе Tuya.
Это означает, что даже небольшие и средние разработчики игрушек могут снабдить свои продукты передовыми функциями взаимодействия с ИИ с более низким порогом и более высокой скоростью, а также получить возможность инкубировать более естественные и интересные популярные продукты, такие как Haivivi.
Не только игрушки видят, как старые категории меняют свой опыт из-за ИИ. Телевизоры, которые в последние годы показали снижение скорости открытия, также начинают меняться.
Если пользователи хотят найти фильм с определенной звездой телевидения, им нужно нажимать на пульте дистанционного управления слой за слоем и перемещаться по сложным меню.
Теперь вам нужно только сказать "Я хочу посмотреть фильм xx", и телевизор не только мгновенно найдет похожие видео, но и интеллектуально сгенерирует эксклюзивную стену постеров. Скорость отклика всего процесса контролируется в течение 1 секунды.
В своей речи на «Force Conference» Го Шанфэн, президент научно-исследовательского института Skyworth и технический директор Coocaa, подчеркнул простой, но важный момент: обратная связь в реальном времени является основой высокочастотного взаимодействия с пользователем.

▲ Го Шанфэн, директор исследовательского института Skyworth и технический директор Coocaa
Coocaa называет вышеупомянутый интерактивный опыт телевидения «суперинтеллектуальным телом». За этим стоят возможности семантического понимания и персонализированной генерации большой модели Doubao, которая лучше понимает предпочтения просмотра вашего пользователя, а затем глубоко интегрирует технологию голосового взаимодействия Volcano Engine для достижения естественного и плавного диалога, упрощая сложный режим взаимодействия телевидения, который полагается на пульт дистанционного управления для щелчка слоя за слоем.
Этот персонализированный сервис распространяется на несколько вертикальных сценариев, таких как образование, здравоохранение и жизненные услуги. Го Шанфэн показал, что библиотека иллюстрированных книг на основе искусственного интеллекта Coocaa может генерировать персонализированные истории в течение 12 секунд, тем самым увеличивая ежедневную активность пользователя более чем на 60%.
Если умные игрушки и умные экраны представляют собой интеллектуальные усовершенствования AIoT на существующем рынке, то очки дополненной реальности (AR) представляют собой комбинацию искусственного интеллекта и аппаратного обеспечения и обладают большим потенциалом для создания дополнительных рынков и изучения следующего поколения персональных терминалов.
Ван Цзюньцзе, вице-президент Rokid и руководитель XR-центра, считает, что очки дополненной реальности, как ожидается, станут следующим поколением персональных информационных терминалов, которые смогут значительно повысить эффективность и опыт информационного взаимодействия в трехмерном мире.
Реализация этого видения требует особенно глубокой интеграции пространственных вычислений и мультимодального ИИ. В настоящее время Rokid полностью интегрирован в мультимодальную модель ИИ Doubao.

▲Ван Цзюньцзе, вице-президент Rokid и руководитель XR-центра
Будучи одной из ведущих компаний в отечественной сфере дополненной реальности, сотрудничество Rokid с Volcano Engine демонстрирует нам ключевую роль, которую ИИ может играть в эпоху пространственных вычислений.
По словам Ван Цзюньцзе, благодаря совместным исследованиям и разработкам с Volcano Engine Doubao Big Model, Rokid не только оптимизировал канал передачи данных встроенного в очки дополненной реальности помощника на основе искусственного интеллекта, повысил точность распознавания голоса и глубину понимания естественного языка, но, что еще важнее, смог объединить возможности мультимодального понимания Doubao Big Model для лучшей интеграции и наложения результатов анализа искусственного интеллекта на реальную физическую среду пользователя, тем самым улучшив общий опыт использования приложений дополненной реальности.
Например, когда пользователь надевает очки дополненной реальности и видит картину, помощник на основе искусственного интеллекта может не только идентифицировать информацию о картине, но и рекомендовать соответствующие художественные выставки на основе предпочтений пользователя; или в промышленном сценарии очки дополненной реальности могут определять неисправности оборудования в режиме реального времени и накладывать на рабочих инструкции по техническому обслуживанию в виде трехмерной модели.
От умных игрушек, которые могут «читать» эмоции детей, до дворецких в гостиной, которые могут предугадывать потребности пользователей, и очков дополненной реальности, которые легко интегрируют виртуальный и физический миры, — на зрелом рынке оборудования начала появляться новая волна продуктов AIoT.
Создание «новой инфраструктуры» в эпоху ИИ
То, что Volcano Engine делает на интеллектуальном оборудовании, — это немного другой путь в современном мире, где параметры моделей и итерации алгоритмов стремительно растут: он хочет быть чем-то большим, чем просто «поставщиком технологий» для оборудования, и он не просто обучает модель, которая лучше «сдает экзамены», или робота, который лучше «общается».
В сценарии Volcano Engine ИИ должен по-настоящему «приступить к действиям», при этом большое количество устройств AIoT естественным образом интегрируется в жизнь пользователей, становясь проницательным, думающим и теплым партнером.
Чтобы интегрировать ИИ в большее количество терминальных устройств с низкой вычислительной мощностью, они даже сжали терминальный SDK до маломощного устройства с памятью всего в 100 КБ, так что оборудование стоимостью всего в несколько сотен юаней также может иметь «умный мозг».
За этим стоит почти жесткая полировка архитектуры совместной работы в конечном облаке и конечное стремление к контролю затрат. Когда стоимость рассуждений на основе больших моделей значительно снизится, ИИ больше не будет «эксклюзивной игрушкой» нескольких гигантов, но действительно будет ожидаться, что он «войдет в дома обычных людей».
Недавно Volcano Engine запустила сервис MCP. Традиционные предприятия или стартап-команды, которые все еще находятся в «деревне новичков» с точки зрения накопления технологий ИИ, могут использовать сервис MCP для быстрой, удобной и недорогой установки движков ИИ на свои продукты, тем самым достигая обновления в один клик с «телефонов с функциями» на «смартфоны». Как упомянул Син Сяоци в своем сообщении:
Новые сервисы, такие как MCP, еще больше снижают общий порог развития и повышают верхний предел интеллекта, делая более сложные и интеллектуальные возможности ИИ широко применимыми в различных отраслях.
Такая интеграция оборудования и ИИ заключается не только в предоставлении интерфейса API, но и в предоставлении полнофункционального сервиса от «чипа» до «продаж»:
От базовых технологических «жестких блюд», таких как большая модель Doubao и связь в реальном времени RTC, до платформы разработки «быстрых блюд» для приложений ИИ, таких как Button, а затем и привлечения производителей модулей микросхем, таких как Broadcom Integrated и Fibocom, для совместной оптимизации, мы даже можем помочь вам подключиться к каналам электронной коммерции для «доставки товаров».
Этот полный экологический замкнутый цикл от технологии нижнего уровня до приложения верхнего уровня не является простым расширением бизнеса, а скорее переопределением уровня инфраструктуры. Син Сяоци рассказал нам, что интеллектуальное оборудование меняется с «функционального» на «сервисно-ориентированное» .
Итак, будь то программное обеспечение или оборудование, Volcano Engine, похоже, пытается построить «новую инфраструктуру» в эпоху ИИ .
В постоянно меняющемся потоке искусственного интеллекта не только наши методы работы столкнутся с изменениями, но и рынок интеллектуального оборудования, вероятно, также возвестит о «перестановке», открывая новый конкурентный ландшафт. На этом новом пути Volcano Engine уже вовсю работает, и все больше производителей также присоединяются к игре.
Мы также можем рассчитывать на новую жизнь после появления этих продуктов AIoT: технической архитектуры мультимодального слияния, конечного облачного взаимодействия и возможностей автономных сервисов на основе агентов, которые позволят интеллектуальному оборудованию перейти на следующее измерение «интеллекта»: по-настоящему понимать пользователей, быть более персонализированным и переходить от пассивного к активному обслуживанию.
#Добро пожаловать на официальный публичный аккаунт WeChat iFanr: iFanr (WeChat ID: ifanr), где вам будет представлен еще более интересный контент как можно скорее.
iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo