Почему на наушниках растут камеры? AI-гаджеты

Примечание редактора:
Когда ИИ начинает искать свою собственную форму, некоторые из его решений оказываются неожиданными.
Искусственный интеллект породил специальную кнопку на смартфонах, словно возрождая их давно утраченный эволюционный импульс. Очки, обеспечивающие естественный доступ к зрению и слуху, начинают напоминать следующее поколение персональных терминалов. Некоторые небольшие, специализированные устройства кажутся более надежными, чем универсальные гаджеты, в определенные моменты. Между тем, радикальные попытки заменить смартфоны одноразовыми устройствами встретили холодный прием.
Внедрение технологий никогда не сводится просто к наращиванию функций; оно также учитывает привычки людей, соответствие сценариям и переосмысление понятия «простота использования».
iFanr запускает рубрику " Хроника гаджетов с искусственным интеллектом ", цель которой – рассказать вам о том, как ИИ меняет дизайн оборудования, преобразует взаимодействие человека с компьютером и, что более важно, как ИИ войдет в нашу повседневную жизнь.
В конце года малоизвестный стартап LightSail Technology выпустил продукт, который кажется несколько нелогичным: умный костюм Lightwear AI All-Sense Smart Suit (далее — Lightwear).
В общих чертах, это комплект умных наушников и умных часов. Но более интересны конкретные детали:
Во-первых, каждый наушник оснащен 2-мегапиксельной камерой, а вес каждого наушника составляет 11 г, что обеспечивает достаточное время автономной работы для визуальных функций. Смарт-часы служат одновременно и дисплеем, и дополнительным интерактивным инструментом ввода. Однако интеллектуальным центром этого комплекта является не обязательно телефон, а скорее чехол для наушников со встроенной eSIM-картой и GPS-чипом, позволяющим смарт-часам подключаться к нему напрямую.
Это означает, что Lightwear может полностью отсоединиться от телефона и функционировать независимо.

Эта уникальная концепция дизайна беспрецедентна в отрасли. Открытая камера, расположенная на наушнике рядом с ухом, создает еще больший эстетический диссонанс, чем умные очки с камерами, и затрагивает деликатные вопросы конфиденциальности.
Однако, если мы посмотрим на направление развития всей индустрии технологий и потребительской электроники в ближайшие 5-10 лет, то обнаружим, что OpenAI, Meta, Alibaba Quark, Li Auto и Apple придерживаются схожих определений продуктов, а компания Guangfan Technology первой внедрила эти определения в производство, опередив таких гигантов и крупные компании.
Иными словами, ИИ должен по-настоящему понимать мир; одних микрофонов уже недостаточно.
С другой стороны, существует общее мнение, что мультимодальные возможности моделей вынуждают проектировать продукцию в соответствии с потребностями этих моделей .
Иными словами, будь то наушники со встроенной камерой, такие как Guangfan, или более распространенные, но все еще вызывающие споры умные очки, эти формы продукции являются результатом возможностей моделирования и не имеют ничего общего с эстетикой.

Компания по разработке аппаратного обеспечения для искусственного интеллекта, отделившаяся от Xiaomi.
Компания Guangfan Technology была основана в октябре 2024 года. Ее основатель, Дун Хунгуан, был одним из основателей Xiaomi Group и ее 89-м сотрудником. За 14 лет работы в Xiaomi он принимал ключевое участие в исследованиях и разработках таких высокотехнологичных проектов, как MIUI, Quick Apps, собственные мобильные телефоны и автомобильная ОС.
Согласно официальному заявлению компании, команда основателей представляет собой типичную «команду высокого уровня», в которую, помимо Xiaomi, вошли также ведущие эксперты из таких компаний, как Huawei, ByteDance, Alibaba и Tencent, обладающие глубокими знаниями в области разработки программного обеспечения, аппаратного обеспечения и искусственного интеллекта.
Еще более примечательна скорость привлечения капитала. За три месяца компания Guangfan Technology быстро завершила два раунда финансирования на общую сумму 130 миллионов юаней, а ее оценка после инвестиций превысила 500 миллионов юаней. В число инвесторов вошли известные фонды и институты, такие как Bairui Capital (основанный Ли Пином, заместителем председателя CATL), Shokz, Tongge Venture Capital (под управлением Goertek), Qinghui Investment, CDH Investments, Alpha Commune и InnoAngel.
Вложенный промышленный капитал весьма внушительный, в основном это гиганты аудио- и высокотехнологичного производства: компания Shokz занимает более 50% рынка наушников с костной проводимостью и открытой конструкцией, Goertek является ведущим производителем носимых устройств, Qinghui Investment поддерживается GigaDevice, ведущей компанией по производству устройств хранения данных, а CATL не нуждается в дополнительном представлении.
Привлечение этих промышленных капиталов не только предоставляет компании и этой еще незрелой модели пространство для проб и ошибок, но и демонстрирует дальновидность отраслевых гигантов.
Камера нужна для того, чтобы искусственный интеллект мог видеть то, что видите вы.
В течение последних 20 лет основная схема взаимодействия человека с компьютером оставалась предельно ясной: набор текста, касание экрана, фотографирование, загрузка файлов, а затем ожидание обратной связи от устройства. Хотя программное обеспечение и сервисы, встроенные в современные устройства, обладают широкими возможностями и большой мощностью, логика взаимодействия не изменилась: вы управляете устройством, а устройство предоставляет вам обратную связь.
Последняя волна искусственного интеллекта, основанного на больших языковых моделях, за последние 3-5 лет полностью изменила эту логику. Поскольку эти модели способны обрабатывать мультимодальную информацию, понимать взаимосвязи между изображениями, звуками и текстом, а также обладают возможностями, более близкими к «человеческой интуиции», продукты на основе ИИ, работающие с большими моделями, могут более активно взаимодействовать с пользователями и цифровым миром, в котором они живут, — и даже с реальным миром.
От гигантов Кремниевой долины, таких как OpenAI, Apple и Meta, до крупных отечественных производителей, устройства с искусственным интеллектом, оснащенные камерами, стали общепринятым решением. Причина проста: голос передает «описываемый вами мир», но с помощью камеры ИИ может по-настоящему понимать, «где вы находитесь», «что перед вами» и «что происходит в мире».

Концептуальные эскизы наушников, разработанные сторонними разработчиками на платформе OpenAI.
Вот в чём вопрос: неужели мне придётся доставать телефон каждый раз, когда искусственному интеллекту нужно что-то понять? Разве нет более подходящего места для камеры?
Остаются только два практичных варианта: носить его на голове или приклеить к телу.
К концу 2025 года мы уже увидим бесчисленное количество проб, неудач, лидеров и отстающих в обеих областях.
В сфере персональных устройств Humane AI Pin и Rabbit R1 когда-то провозглашались в Кремниевой долине «следующим iPhone». Однако их выпуск состоялся слишком рано, и они показали плохие результаты, что привело к их преждевременному закрытию. Тем не менее, в этой области постоянно появляются инновации, такие как Looki, который недавно был реэкспортирован на внутренний рынок.
Люди вспоминают популярные более десяти лет назад очки Google Glass и VR-гарнитуры, и их сочетание создало новое поколение умных очков. В настоящее время эта категория считается золотым стандартом в Кремниевой долине, и благодаря возможности бесшовной интеграции с обычными очками, она пользуется относительно большей популярностью. Однако некоторые по-прежнему считают, что умные очки не идеальны и не станут полноценной заменой смартфонам.
Затем появились наушники. Среди смартфонов, носимых устройств и умных очков наушники занимают деликатное положение: общество молчаливо смирилось с их длительным ношением, в то время как они естественным образом связаны с двумя основными чувствами — «зрением» и «слухом». Это делает их перспективным носителем для вычислительных возможностей искусственного интеллекта и полигоном для тестирования следующего поколения аппаратного обеспечения ИИ.
Наушники расположены ближе к глазам и ушам, и это привлекло внимание потребителей, что привело к широкому распространению их использования. Что еще важнее, по сравнению с заметностью и весом очков (которые весят не менее 40 граммов), наушники Lightwear не только легкие (11 г на один наушник), но и, хотя наличие камеры делает их несколько «иностранными», их присутствие, по крайней мере, менее заметно в социальных ситуациях, чем у очков.

От логики продукта, ориентированной на пользователя, к логике продукта, ориентированной на модель.
Наушники с искусственным интеллектом, использующие исключительно распознавание голоса, достигли относительно насыщенного рынка и явно вступили в стадию «узкого места». По наблюдениям iFanr, большинство так называемых наушников с ИИ на рынке стоят около 1000 юаней или меньше, в основном ориентированы на сценарии перевода с помощью ИИ, и их функции становятся все более однообразными.
Замысел компании Guangfan и то, что она реализовала с Lightwear, сильно отличались от обычных наушников. Обычные наушники, кажется, заперты в сфере «слуха», но Guangfan пошла дальше, рассмотрев более глубокий вопрос: искусственному интеллекту требуется больше контекста, могу ли я получить его с помощью наушников?
Ответ на этот вопрос на самом деле кроется в фундаментальном изменении методов взаимодействия в эпоху искусственного интеллекта.
От компьютеров до мобильных телефонов мы живем в эпоху графического пользовательского интерфейса (GUI), где экраны, кнопки и значки незаменимы, поскольку мы можем точно управлять каждым объектом, с которым взаимодействуем.
Но генеративный ИИ меняет эту логику: взаимодействие может полностью основываться на естественном языке. Вы даете системе расплывчатые инструкции, а система отвечает неточными, но пригодными для использования результатами. Высокочастотная коммуникация и обратная связь становятся более важными, а точность — менее критичной — это естественный пользовательский интерфейс (NUI). Говорить и слушать становится естественнее. Графические интерфейсы становятся ненужными.
Эта новая парадигма взаимодействия идеально подходит для наушников: наушники могут весить всего 10 г или даже меньше, что делает их удобными в ношении, обеспечивает длительное время автономной работы и постоянное подключение к сети. Это как иметь умное дополнение к своему телу, всегда онлайн и готовое к работе.
Но этому интеллектуальному дополнению не хватает одного: подобно людям, ему необходимо получать достаточно информации. А среди всех измерений восприятия зрение является самым богатым и важным с точки зрения информации.
Таким образом, вывод очевиден — в наушники необходимо добавить камеру.
На презентации компания LightSail продемонстрировала практические применения сенсорных возможностей Lightwear. Эти сценарии охватывали высокочастотные потребности в повседневной жизни и работе:
- Сценарий O2O : Когда пользователь активирует устройство и спрашивает: «Можете посмотреть это место?», наушник использует камеру для распознавания вывески ресторана перед ним, объединяет данные GPS-позиционирования для подтверждения местоположения и использует память, накопленную продуктом с искусственным интеллектом, для персонализированного сравнения вкусов, рекомендации лучших ресторанов поблизости, а также для проактивного сбора номера и предоставления интеллектуальных напоминаний о времени звонка.
- Деловые поездки: Получив SMS-сообщение/электронное письмо о деловой поездке, Lightwear может заблаговременно спланировать ваш маршрут, выявить и устранить конфликты в расписании, интеллектуально ответить на SMS-сообщения/электронные письма, найти и забронировать авиабилеты и отели, а также завершить последний этап процесса бронирования.
- Покупки: Когда пользователи видят интересующий их товар, им достаточно задать вопрос, и гарнитура сможет визуально распознать товар, сравнить цены в интернете, добавить его в корзину или даже оформить заказ напрямую.
- Ежедневные напоминания: Проактивно будите пользователей и напоминайте им об этом в соответствии с их расписанием (например, о важных годовщинах).
На протяжении всего процесса пользователям не нужно открывать телефоны, заходить в приложение или даже явно указывать, чего они хотят — ИИ самостоятельно объединяет визуальную и географическую информацию, чтобы создать необходимый контекст.

Устройства такого типа, естественно, подходят для следующих ситуаций: вещи, которые вы не можете точно описать («вот эта», «нет, это та, что рядом»); ситуации, когда нет смысла доставать телефон, чтобы сделать снимок, или ситуации, когда доставание телефона прервет ваше состояние «потока» (прогулка, посещение выставки, приготовление пищи и т. д.).
Достаточно ли 2 мегапикселей? Да, достаточно, потому что фотографии предназначены для того, чтобы их видела модель.
Если рассматривать Lightwear с точки зрения традиционных энергопотребляющих устройств, то у него, безусловно, много недостатков: открытая камера, вызывающая опасения по поводу конфиденциальности; больший вес по сравнению с обычными наушниками, что делает ношение в течение всего дня непрактичным; социальное давление; и его легко сравнивают с такими неудачными продуктами, как Google Glass и AI Pin, и многими другими…
Однако это совершенно не соответствует действительности. Добавление камеры к наушникам на самом деле способствует повышению эффективности понимания ИИ . Сама камера не предназначена для использования человеком. Исходная задача дизайна — служить модели. Модели необходим более непрерывный, более своевременный визуальный поток и более реалистичное FPV-изображение.
Вот одна из ключевых особенностей конструкции, заслуживающая внимания: камера Lightwear использует механизм обработки изображений с «исчезающим сообщением».
В конструкции системы Lightwear вы не можете отдать команду наушникам сделать снимок просто ради того, чтобы «сделать фотографию». Это связано с тем, что камера полностью служит для искусственного интеллекта, используемого для понимания визуального контекста в реальном времени. Фотофайлы не сохраняются локально или в облаке; их можно рассматривать как «использованные и исчезающие». В основе такой конструкции лежат несколько соображений:
Очевидно, что первостепенное значение в этом проекте имеет защита конфиденциальности. Отсутствие сохранения файлов изображений позволяет в корне предотвратить утечки конфиденциальной информации, и пользователям не нужно беспокоиться о том, что их повседневная жизнь будет сниматься на видео или даже «тайно» фотографироваться и сохраняться в неожиданных ситуациях.
Кроме того, отказ от сохранения фотографий значительно оптимизирует затраты: поскольку устройство предназначено для просмотра груди, качество изображения не обязательно должно соответствовать человеческим стандартам. 2 мегапикселя достаточно для распознавания объектов и понимания сцены, а меньшее количество пикселей приводит к более высокой скорости обработки, меньшему энергопотреблению, а также снижению затрат на хранение и пропускную способность. В настоящее время устройство обеспечивает 9-15 часов автономной работы, чего достаточно для использования в течение всего дня.
Конечно, моё утверждение о том, что в этом продукте модель ставится выше пользователя, — это всего лишь моё субъективное мнение. У других, включая Гуанфаня, могут быть другие взгляды. На презентации Дун Хунгуан подчеркнул, что аппаратное обеспечение с искусственным интеллектом должно «отойти на шаг от технологий и поставить человека в центр», но сам продукт, по крайней мере, с моей точки зрения, показывает, что технологии стоят на первом месте.
Но в наши дни, какое оборудование для искусственного интеллекта может избежать этого противоречия?
Здесь мы можем смело заявить: все аппаратные средства искусственного интеллекта , сейчас и в будущем, должны определяться с использованием подхода, основанного на модели, при этом удовлетворение требований модели должно рассматриваться как основная отправная точка для определения продукта.
Поскольку мы еще далеки от изучения границ возможностей сочетания моделей искусственного интеллекта с электронными аппаратными продуктами, нет сомнений, что в будущем мы увидим больше подобных устройств, как Lightwear, — вещей, которые можно даже назвать «монстрами Франкенштейна».
Только предпринимая больше попыток, даже если большинство из них — это метод проб и ошибок, эти компании-разработчики продуктов смогут по-настоящему определить свои границы и обеспечить лучший пользовательский опыт.

В заключение
Конечно, Lightwear — это всё ещё полноценный продукт, который скоро поступит в продажу. Этот набор недешев, и я не собираюсь давать Lightwear завышенную оценку, чтобы не создать у кого-либо неверного впечатления.
На пресс-конференции нам предоставили «инженерный прототип», который включал в себя высокочастотные и важные сценарии, такие как управление расписанием, передача напоминаний о сообщениях, бронирование поездок, вызов такси, информация об отзывах о ресторанах и построение очередей, визуальный поиск/добавление товаров в корзину, и все они работали без сбоев.
Однако из-за прямого подключения наушников к зарядному футляру (сеть eSIM 4G) и в целом плохих условий сети на мероприятии задержка во время разговоров оставалась довольно заметной, не дотягивая до идеального ритма диалогов, показанного в фильме «Она». Инженеры на мероприятии сообщили, что опыт использования инженерного прототипа составляет примерно 70-80% от уровня розничной версии, запланированной к выпуску в первом квартале следующего года.
Честно говоря, после знакомства с Lightwear я остался вполне доволен. Не думаю, что "наушники с искусственным интеллектом и камерами", которые планируют OpenAI и Apple (возможно, официальный релиз состоится в 2026 или 2027 году), обеспечат значительно лучшее качество звука, чем решение от Lightwear.
Это никак не связано с качеством продукта или инженерными возможностями; это исключительно потому, что текущий потенциал этой формы продукта ограничен. Любой может реализовать эти функции, и китайская команда, такая как Гуанфан, которая пришла из Xiaomi, должна справиться с этим лучше.

Если вы спросите меня, что я думаю об этом виде аппаратного обеспечения для искусственного интеллекта, мой ответ будет: весьма разумный, недостаточно элегантный и, скорее всего, не окончательный вариант.
- Вполне разумно: потому что это точно учитывает контекстуальные проблемы, связанные с объединением мультимодальных агентов с аппаратным обеспечением. Искусственный интеллект не может понять реальный мир без визуального восприятия;
- Недостаток элегантности: корпус устройства больше, чем у AirPods, что может создавать определенное социальное давление. Для обычных пользователей это может даже стать причиной того, что устройство будет пылиться после покупки;
- Это не окончательный вариант: как уже говорилось ранее, нынешний Lightwear — это скорее предварительный и переходный продукт. Можно представить, как должен выглядеть зрелый продукт: камера будет уменьшена до практически незаметного размера, что сделает весь продукт похожим на AirPods — форму продукта, широко принятую обществом. Нам не стоит беспокоиться по этому поводу; вспомним опыт с умными очками и картами памяти: поначалу они были довольно громоздкими, но по мере развития рынка и улучшения цепочки поставок решения станут более зрелыми.
Кроме того, в настоящее время Lightwear работает на собственной операционной системе искусственного интеллекта под названием Lightware OS, которая может подключаться к различным крупным языковым моделям/мультимодальным моделям, MCP, API, а также обладает возможностями использования в телефоне/браузере и т. д. Поэтому, даже если форм-фактор гарнитуры с камерой окажется нецелесообразным в будущем, Lightware OS можно будет быстро перенести на очки или другие носители.
От AirPods с искусственным интеллектом до Camerabuds, разработка которых, по слухам, длилась несколько лет, и до загадочного нового оборудования, над которым OpenAI привлекла бывшего легендарного дизайнера Apple Джони Айва , — все эти слухи по совпадению упоминают наушники со встроенной камерой. Это определенно не простое совпадение, а скорее случай, когда «великие умы мыслят одинаково».

На таком раннем, но уже чрезвычайно конкурентном рынке запуск компанией Guangfan высокоэффективного продукта сам по себе является захватывающим событием.
С точки зрения неизбежного пути технологической эволюции, неизбежны различные новые и «странные» вещи, которые будут появляться одна за другой, прежде чем революционный продукт изменит мир. Когда ИИ начнет активно понимать мир, форма устройств, безусловно, станет несколько странной — это справедливо для всего, что находится на ранних стадиях развития. Не стоит забывать, что автомобили изначально воспринимались как цирковые представления.
Конечно, с точки зрения принятия пользователями, изменения в таких нематериальных факторах, как социальные нормы, границы конфиденциальности и эстетические предпочтения, зачастую происходят гораздо медленнее, чем технологический прогресс. Где именно находится реальная точка перелома, до сих пор неясно.
Но несомненно одно: мы прошли через новую, расплывчатую отправную точку. В будущем будет появляться все больше и больше новых продуктов, дизайн которых будет полностью преобразован искусственным интеллектом, что изменит взаимодействие человека с компьютером. В рамках этой специальной рубрики «Гаджеты с ИИ» iFanr продолжит наблюдать за тем, как они проникают в нашу жизнь и меняют ее.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.
ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo