Голосовые чаты с использованием ИИ по-прежнему кажутся неловкими, потому что голосовые помощники не знают, когда нужно говорить.
Лаборатория Thinking Machines Lab заявляет о разработке полнодуплексного искусственного интеллекта , что означает, что система ИИ может воспринимать речь собеседника и одновременно генерировать ответ. Проще говоря, это больше похоже на телефонный звонок, чем на рацию.
Стартап, основанный в прошлом году бывшим техническим директором OpenAI Мирой Мурати, анонсировал модели взаимодействия, начиная с TML-Interaction-Small. По утверждению компании, система может отвечать за 0,40 секунды, что приближает её к скорости обычного человеческого взаимодействия.
Однако для тех, кто хочет попробовать это сегодня, есть один нюанс. Это пока предварительная версия для научных исследований, ограниченный доступ к которой планируется в ближайшие несколько месяцев, а более широкий релиз ожидается позже в этом году.
Более быстрый способ обмена информацией в сфере ИИ.
Основная идея проста для понимания, а изменение имеет важное значение. Вместо того чтобы ждать, пока собеседник закончит говорить, прежде чем приступить к ответу, модель обрабатывает поступающую речь, одновременно готовя свой ответ.
Эта задержка важна, потому что паузы заставляют ИИ-помощников звучать неестественно. Лаборатория Thinking Machines Lab оценивает время отклика TML-Interaction-Small в 0,40 секунды как близкое к скорости естественного разговора, что стало бы заметным изменением для голосовых инструментов.
Также утверждается, что темп работы выше, чем у сопоставимых моделей от OpenAI и Google . Бенчмарк подтверждает это заявление, но сторонним пользователям еще предстоит проверить, насколько плавно работает система, как показывают цифры.
Когда скорость становится поведением
Ассистент, отвечающий на сообщения, пока система еще обрабатывает информацию, меняет ожидания пользователей от голосового чата. Разговор может протекать быстрее, но системе также приходится гораздо тщательнее управлять временем.
Этот компромисс важен, когда кому-то нужно быстрое разъяснение, а не длинный сгенерированный ответ. Более быстрые ответы мало чем помогут, если ассистент вмешивается слишком рано, неправильно понимает говорящего или нарушает ход разговора, который он должен улучшить.
На данный момент в центре внимания архитектура. Настоящая проверка продукта заключается в том, сможет ли модель взаимодействия сделать более точный расчет времени автоматическим.
На что обратить внимание перед запуском
Ключевым моментом сейчас является график выпуска. Лаборатория Thinking Machines сообщает, что ограниченная исследовательская версия появится в ближайшие несколько месяцев, а более широкий доступ будет предоставлен позднее в этом году.
Доступность, цены, поддерживаемые платформы и производительность вне контролируемых испытаний до сих пор остаются неясными. Эти недостающие данные важны, поскольку более быстрая модель полезна только в том случае, если люди могут использовать ее в повседневных голосовых инструментах.
Для тех, кто использует голосовых помощников на основе ИИ, практичным решением будет внимательно следить за предварительной версией. Полнодуплексный ИИ многообещающ, но практическое тестирование должно показать, действительно ли более быстрые ответы упростят повседневные разговоры с ИИ.