Наушники с искусственным интеллектом на базе Apple M2 могут переводить несколько динамиков одновременно
Беспроводные наушники Google Pixel Buds уже давно предлагают фантастическую возможность перевода в реальном времени . За последние несколько лет такие бренды, как Timkettle, предложили аналогичные наушники бизнес-клиентам. Однако все эти решения могут одновременно обрабатывать только один аудиопоток для перевода.
Ребята из Вашингтонского университета (UW) разработали нечто действительно замечательное — наушники с искусственным интеллектом, которые могут переводить голос нескольких говорящих одновременно. Представьте себе полиглота в переполненном баре, способного понимать речь окружающих его людей, говорящих на разных языках одновременно.
Команда называет свою инновацию пространственным переводом речи, и она воплощается в жизнь благодаря бинауральным наушникам. Для неосведомленных: бинауральный звук пытается имитировать звуковые эффекты так, как человеческое ухо воспринимает их естественным образом. Для их записи микрофоны размещают на голове манекена на расстоянии друг от друга на расстоянии, равном человеческим ушам с каждой стороны.
Этот подход имеет решающее значение, поскольку наши уши не только слышат звук, но и помогают нам определить направление его происхождения. Основная цель — создать естественную звуковую сцену со стереоэффектом, которая может создать ощущение живого концерта. Или, в современном контексте, пространственное слушание .
Работа принадлежит команде под руководством профессора Шьяма Голлакоты, чей богатый репертуар включает приложения, которые могут разместить подводный GPS на умных часах , превратить жуков в фотографов , мозговые имплантаты, которые могут взаимодействовать с электроникой , мобильное приложение, которое может слышать инфекцию , и многое другое.
Как работает перевод несколькими динамиками?
«Впервые мы сохранили звук голоса каждого человека и направление, откуда он исходит», — объясняет Голлакота, в настоящее время профессор Школы компьютерных наук и инженерии Пола Аллена при институте.
Команда сравнивает свой стек с радаром, поскольку он начинает действовать, определяя количество говорящих вокруг и обновляя это число в режиме реального времени, когда люди входят и выходят из зоны прослушивания. Весь подход работает на устройстве и не требует отправки голосовых потоков пользователя на облачный сервер для перевода. Ура, конфиденциальность!
Помимо перевода речи, комплект также «сохраняет выразительность и громкость голоса каждого говорящего». Более того, регулировка направления и интенсивности звука производится по мере перемещения динамика по комнате. Интересно, что Apple также разрабатывает систему, которая позволит AirPods переводить звук в режиме реального времени.
Как все это воплощается в жизнь?
Команда UW протестировала возможности перевода наушников с искусственным интеллектом почти в дюжине условий на открытом воздухе и в помещении. Что касается производительности, система может принимать, обрабатывать и производить переведенный звук в течение 2–4 секунд. Участники тестирования, похоже, предпочли задержку в 3–4 секунды, но команда работает над ускорением конвейера перевода.
На данный момент команда протестировала только переводы на испанский, немецкий и французский языки, но они надеются добавить в пул больше. Технически они объединили слепое разделение исходников, локализацию, выразительный перевод в реальном времени и бинауральный рендеринг в единый поток, что является весьма впечатляющим достижением.
Что касается системы, команда разработала модель перевода речи, способную работать в режиме реального времени на процессоре Apple M2, обеспечивая вывод в реальном времени. За работу со звуком отвечали пара наушников Sony с шумоподавлением WH-1000XM4 и бинауральный USB-микрофон Sonic Presence SP15C.
И вот лучшая часть. «Код для экспериментального устройства доступен для использования другими», — говорится в пресс-релизе учреждения. Это означает, что научное сообщество и сообщество специалистов по открытому исходному коду могут изучать и основывать более продвинутые проекты на фундаменте, заложенном командой UW.