Ваши новые наушники смогут переводить текст и распознавать объекты.
Исследователи из Вашингтонского университета разработали новый прототип системы, которая может изменить то, как люди взаимодействуют с искусственным интеллектом в повседневной жизни. Система под названием VueBuds интегрирует крошечные камеры в стандартные беспроводные наушники, позволяя пользователям задавать модели ИИ вопросы об окружающем мире практически в режиме реального времени.
Концепция проста, но эффективна. Пользователь может посмотреть на какой-либо объект, например, на упаковку продукта с надписью на иностранном языке, и попросить ИИ перевести её. Примерно через секунду система ответит через наушники, обеспечивая бесперебойное взаимодействие без использования рук.
Другой подход к носимым устройствам с искусственным интеллектом.
В отличие от умных очков, распространение которых затруднено из-за проблем с конфиденциальностью и ограничений в дизайне, VueBuds использует более тонкий подход. Система использует встроенные в наушники черно-белые камеры низкого разрешения для съемки неподвижных изображений, а не непрерывного видео.
Эти изображения передаются по Bluetooth на подключенное устройство, где небольшая модель искусственного интеллекта обрабатывает их локально. Такая обработка на устройстве гарантирует, что данные не нужно отправлять в облако, что решает одну из главных проблем, связанных с носимыми камерами.
Для дальнейшего повышения уровня конфиденциальности наушники оснащены видимым индикатором записи и позволяют пользователям мгновенно удалять сделанные снимки.
Инженерные решения с учетом ограничений мощности и производительности.
Одной из самых больших проблем, с которыми столкнулась исследовательская группа, было энергопотребление. Камеры потребляют значительно больше энергии, чем микрофоны, что делает нецелесообразным использование датчиков высокого разрешения, подобных тем, что используются в умных очках.
Для решения этой проблемы команда использовала камеру размером примерно с рисовое зернышко, которая делала снимки в оттенках серого с низким разрешением. Такой подход снижает расход заряда батареи и обеспечивает эффективную передачу данных по Bluetooth без ущерба для скорости отклика.
Размещение также было ключевым фактором. За счет небольшого отклонения камер от центра система обеспечивает угол обзора от 98 до 108 градусов. Хотя для объектов, находящихся очень близко, существует небольшая слепая зона, исследователи обнаружили, что это не влияет на обычное использование.
Система также объединяет изображения с обоих наушников в один кадр, повышая скорость обработки. Это позволяет VueBuds отвечать примерно за одну секунду, по сравнению с двумя секундами при обработке изображений по отдельности.
Сравнение производительности с умными очками
В ходе тестирования 74 участника сравнили VueBuds с умными очками, такими как модели Ray-Ban от Meta. Несмотря на использование изображений с более низким разрешением и локальной обработки, VueBuds показали в целом схожие результаты.
В отчете показано, что участники предпочитали VueBuds для задач перевода, в то время как умные очки лучше справлялись с подсчетом объектов. В отдельных испытаниях VueBuds показали точность около 83–84% для перевода и идентификации объектов, и до 93% для определения названий книг и авторов.
Почему это важно и что будет дальше?
Исследование указывает на потенциальный сдвиг в подходах к проектированию носимых устройств с поддержкой искусственного интеллекта. Встраивая визуальный интеллект в уже используемое людьми устройство, система преодолевает многие препятствия, с которыми сталкиваются умные очки.
Однако ограничения остаются. Нынешняя система не может интерпретировать цвет, и её возможности всё ещё находятся на ранней стадии развития. Команда планирует изучить возможность добавления цветовых датчиков и разработки специализированных моделей искусственного интеллекта для таких задач, как перевод и поддержка доступности.
Исследователи представят свои выводы на конференции Ассоциации вычислительной техники по человеческому фактору в вычислительных системах в Барселоне, заглянув в будущее, где обычные устройства незаметно превратятся в интеллектуальных помощников.