Новый голосовой ИИ от OpenAI может слушать, думать и говорить на более чем 70 языках.

Компания OpenAI представила три новые модели обработки звука в своем API реального времени, и это очень важно для всех, кто разрабатывает приложения с голосовым управлением. Эти три модели называются GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper.

Вместе они выводят голосовой ИИ за рамки простых перепалок и превращают его в нечто, способное понимать вас, предпринимать действия и поддерживать настоящий разговор.

Судя по их демонстрации, мы только что стали свидетелями следующего этапа развития моделей голосового искусственного интеллекта.

Итак, что же на самом деле могут делать эти модели?

Главная особенность GPT-Realtime-2 — это его применение. Он переносит логические рассуждения класса GPT-5 в живое голосовое взаимодействие, что означает возможность обработки более сложных запросов без прерывания разговора.

Она может одновременно вызывать несколько инструментов и даже озвучивать свои действия с помощью таких фраз, как «проверяю ваш календарь» или «позвольте мне это проверить». Кроме того, она имеет большее контекстное окно в 128 000 токенов, что означает более длительные и согласованные сеансы. Разработчики могут даже корректировать усилия по обработке запроса в зависимости от его сложности.

GPT-Realtime-Translate, пожалуй, мой любимый инструмент. Это самое близкое, что у нас есть к универсальному переводчику из «Звездного пути » в реальной жизни. Он поддерживает перевод речи в реальном времени для более чем 70 языков ввода и 13 языков вывода.

Самым приятным моментом демонстрации было то, что даже когда к системе подключался новый пользователь, говорящий на другом языке, GPT-Realtime-Translate без проблем переводил речь обоих собеседников на английский язык в режиме реального времени.

Наконец, есть GPT-Realtime-Whisper. Большинство моделей преобразования речи в текст ждут, пока говорящий закончит говорить, прежде чем предоставить полный перевод. Эта же модель представляет собой потоковую модель транскрипции, которая преобразует речь в текст по мере того, как говорящий говорит. Она полезна для создания субтитров в реальном времени, заметок к совещаниям и любых рабочих процессов с использованием голоса, где ожидание транскрипции недопустимо.

Может ли кто угодно использовать эти новые модели голосового ИИ?

В настоящее время OpenAI выпустила эти модели для разработчиков. Но создаваемые ими приложения повлияют на всех. Например, разработчик может создать приложение-переводчик в реальном времени, позволяющее пользователям общаться с людьми на разных языках.

Многие компании уже тестируют эти новые модели. Zillow разрабатывает голосового помощника, который может искать дома и планировать просмотры по одному голосовому запросу. Priceline может проверять ваши авиабилеты и отели, отменять их и бронировать новые. Vimeo использует его для транскрипции в реальном времени и так далее.

Стоимость начинается от 0,017 доллара США в минуту за функцию Whisper, 0,034 доллара США в минуту за функцию Translate и 32 доллара США за 1 миллион токенов аудиовхода для GPT-Realtime-2.