Наконец-то я слышу, как GPT-5 говорит со мной на человеческом языке.

Интересно, случалось ли у кого-нибудь подобное раньше?

Всякий раз, когда я сталкиваюсь с чрезвычайной ситуацией и звоню в автоматизированную службу поддержки различных компаний, голос на другом конце провода всегда один и тот же — чистый, но безэмоциональный: «Нажмите 1 для справки, нажмите 0 для обращения в службу поддержки вручную…» Затем следует длинная музыкальная последовательность и это раздражающее «Извините, я не понял, пожалуйста, повторите».

Но вот только что компания OpenAI выпустила свой набор моделей распознавания речи в реальном времени на основе Realtime API. После просмотра их демонстрации стало ясно, что они действительно хотят, чтобы машины говорили на «человеческом языке» и выполняли «человеческие задачи».

Версия с функцией экономии данных выглядит следующим образом:

  • GPT-Realtime-2: Разработка голосовых агентов, пригодных для использования в производственных средах. Они способны к глубокому мышлению, выполнению действий, обработке прерываний и поддержанию естественного диалога.
  • GPT-Realtime-Translate: Поддерживает перевод в реальном времени более чем 70 языков ввода и 13 языков вывода, устраняя языковые барьеры и помогая людям общаться более естественно.
  • GPT-Realtime-Whisper: Расшифровка аудиопотоков в реальном времени с генерацией субтитров и аннотаций.

Наконец, ИИ научился говорить «подождите минутку».

Если антропоморфизм — это фасад, то лежащая в его основе способность к рассуждению — это его сущность.

Главным претендентом на этот раз, несомненно, является GPT-Realtime-2. Результаты бенчмарков показывают, что GPT-Realtime-2 превосходит своего предшественника на 15,2% в Big Bench Audio и на 13,8% в Audio MultiChallenge. Компания Zillow провела внутренний тест на наиболее сложную задачу, и процент успешных попыток вырос с 69% до 95%, что составляет улучшение на 26 процентных пунктов.

Раньше голосовые помощники мыслили очень просто. Если вы говорили «воспроизвести песню», он воспроизводил песню; если вы говорили «выключить свет», он выключал свет. Если же вы давали ему три задачи одновременно, а затем дважды меняли свое решение, он, скорее всего, просто сдавался на месте.

Но GPT-Realtime-2 отличается тем, что OpenAI напрямую внедрила в эту речевую модель возможности рассуждения уровня GPT-5, что создает у меня ощущение, будто GPT-5 «говорит на человеческом языке».

Чтобы привести очень практичный пример, предположим, вы едете за рулем и между делом говорите своему автомобилю: «Найдите мне дом рядом со станцией метро, ​​аренда не должна быть слишком дорогой, избегайте главных дорог и, если возможно, договоритесь с агентом по недвижимости, чтобы он показал мне дом в субботу днем».

▲ Пользователь сети @clairevo продемонстрировал, как выполнить полный процесс написания документа с требованиями к продукту (PRD) с помощью GPT-Realtime-2: сначала устно изложите требования, ИИ сгенерирует документ, затем с помощью голоса запросите изменения формата, и ИИ внесет соответствующие изменения. Весь процесс управляется диалогом, без использования клавиатуры. 🔗 https://x.com/clairevo/status/2052477386059653366

Это уже не просто распознавание речи; системе необходимо понимать различные ограничения, фильтровать местоположения на карте, сравнивать цены и, наконец, подбирать расписание для агента. Для эффективного решения этой сложной задачи OpenAI оснастила систему двумя очень специфическими наборами навыков.

Первый навык называется «Параллельные вызовы инструментов». Теперь он может работать в многопоточном режиме, одновременно вызывая в своем воображении несколько инструментов — карты, календари и приложения для аренды — и при этом разговаривая с вами. Вы можете услышать, как он бормочет по телефону: «Проверяю ваше расписание…», «Ищу объекты недвижимости поблизости…». Это как позвонить компетентному помощнику, и вы можете услышать, как он печатает на клавиатуре, ища информацию.

▲ Пользователь Бен Бадеджо использовал OpenClaw для управления браузером с помощью голосового ИИ посредством прямого диалога с GPT-Realtime-2, сначала открывая Google, а затем перенаправляя на сайт Wall Street Journal. На протяжении всего процесса ИИ не только выполнял операции, но и активно объяснял, как он может помочь, даже без разрешений браузера. 🔗 https://x.com/BenjaminBadejo/status/2052511264476147762

Это приводит нас ко второму обновлению, которое, на мой взгляд, является наиболее гуманным — «Преамбулы».

Когда люди думают или сталкиваются со сложными вопросами, они не могут реагировать мгновенно. Обычно мы говорим: «Э-э, дайте мне подумать» или «Подождите минутку, я сейчас найду». Теперь искусственный интеллект тоже освоил этот приём. Когда он лихорадочно собирает данные в фоновом режиме, он совершенно естественно скажет вам: «Хорошо, без проблем, дайте мне немного времени, чтобы проверить».
Этот, казалось бы, "очевидный" дизайн на самом деле максимально снижает наше беспокойство во время ожидания.

Интересно, что разработчики теперь могут регулировать интенсивность вычислений (от минимальной до чрезвычайно высокой: минимальная, низкая, средняя, ​​высокая, очень высокая). Если вы спросите, будет ли сегодня дождь, он ответит вам как можно быстрее; если же вы зададите ему сложный бизнес-вопрос, например: «Можете ли вы проанализировать, будет ли прибыльным открытие кофейни?», он использует свою максимальную вычислительную мощность для медленного анализа.

Можно ли сделать синхронный перевод невероятно дешевым?

Помимо GPT-Realtime-2, есть еще один очень привлекательный вспомогательный персонаж: GPT-Realtime-Translate (перевод в реальном времени).

Большинство программ для перевода, которыми мы пользуемся ежедневно, работают в пошаговом режиме. Вы нажимаете и удерживаете кнопку, чтобы говорить, отпускаете, ждете несколько секунд, и машина четко зачитывает слова. Это неплохо подходит для того, чтобы спросить дорогу в поездке, но если вы действительно используете это на международной конференции, неловкое молчание и пустые взгляды настолько неловки, что вы могли бы выкопать трехкомнатную квартиру из пальцев ног.

Но главной особенностью этой новой модели является «перевод в реальном времени».

Он поддерживает ввод данных более чем на 70 языках, позволяя вам свободно говорить с одной стороны и практически одновременно получать перевод с другой. Еще более впечатляет его устойчивость к различным акцентам. Индийская компания BolnaAI протестировала его с сильным хинди-акцентом и обнаружила, что модель не только не ошибалась, но и ее точность была значительно выше, чем у других аналогичных продуктов.

▲ Разработчик Питер Гостев создал расширение для Chrome, которое напрямую интегрируется с видео на YouTube, переводя контент на несколько языков в режиме реального времени во время воспроизведения. Китайский перевод довольно хорош, но всё же присутствует лёгкий акцент. 🔗 https://x.com/petergostev/status/2052443418526134761

В будущем, когда вы будете смотреть онлайн-уроки иностранных экспертов без субтитров или слушать зарубежные пресс-конференции без синхронного перевода, просто включите этот плагин, и он плавно воспроизводит ваш родной язык, следуя ритму оригинального видео.

Кроме того, благодаря недавно выпущенной функции GPT-Realtime-Whisper (преобразование речи в текст со сверхнизкой задержкой), на будущих совещаниях, пока ведущий говорит, ваш экран уже в режиме реального времени будет преобразовывать круговую диаграмму в четко структурированное резюме совещания.

Что касается ценообразования, то GPT-Realtime-Whisper стоит 0,017 доллара в минуту, GPT-Realtime-Translate — 0,034 доллара в минуту, а GPT-Realtime-2 — за токен, при этом ввод аудиосигнала стоит 32 доллара за миллион токенов, а вывод аудиосигнала — 64 доллара за миллион токенов.

Рассматривая эти функции в совокупности, мы обнаруживаем, что логика программного обеспечения претерпевает фундаментальные изменения.
Раньше нам приходилось учиться набирать код, ориентироваться в сложных меню и переводить наши потребности в ключевые слова, понятные искусственному интеллекту. Но нынешняя тенденция такова…

Искусственный интеллект начинает приспосабливаться к нам.

Голосовое управление превращается из неуклюжей «функции доступности» в наиболее естественный интерфейс для управления цифровым миром. Ведь, в конце концов, речь — это наименее развитый инстинкт человека.

На рубеже технологического развития наблюдается тенденция скрывать сложности и оставлять самые простые, естественные аспекты обычным людям. Возможно, в ближайшем будущем вам понадобятся только наушники, когда вы выходите из дома, и вы сможете справляться со всеми рабочими и жизненными делами, используя только свой голос.

Однако это также заставляет задуматься. Если мы привыкнем к искусственному интеллекту, который всегда эмоционально стабилен и способен понимать весь подтекст, сможем ли мы по-прежнему мириться с недопониманием и неэффективным общением между людьми в реальном мире?

Вот адрес блога:
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.