В ПК-версии Qianwen появился метод голосового ввода: наконец-то работающие люди смогут использовать свой голос для выполнения своих обязанностей.

После того как Vibe Coding стал популярным, всё больше людей стали говорить в экран вместо того, чтобы печатать на клавиатуре, и многие пользователи сети даже создали для этой цели голосовые клавиатуры на основе искусственного интеллекта.
В марте этого года компания Anthropic также добавила голосовой режим в Claude Code. Просто введите `/voice` в терминале, удерживайте пробел, чтобы говорить, и отпустите, чтобы выполнить команду. Трудно представить, что даже такой сценарий, как «написание кода», который в значительной степени зависит от ввода с клавиатуры, начинает поддерживать голосовой ввод.
Поскольку программисты стали использовать рот для выполнения работы, мне, работающему человеку, который каждый день пишет статьи, планы, презентации и электронные таблицы, очевидно, неэффективно печатать слово в слово на клавиатуре. Особенно когда мне нужно переключаться между тремя страницами, чтобы найти данные, мне требуется три часа, чтобы найти шаблон для создания презентации, и я все равно пропускаю половину минут совещания, даже когда слушаю и делаю заметки.
Причина в том, что не у всех есть хорошие навыки устной речи. Хотя некоторые методы ввода с помощью ИИ могут решить эту проблему, например, Typeless, о котором мы рассказывали ранее, только годовая подписка стоит 1000 юаней.
На реальных компьютерных платформах, используемых для работы, до сих пор нет интерфейса голосового ввода, интегрированного с расширенными возможностями офисной работы на основе искусственного интеллекта. К счастью, компания Qianwen недавно запустила свой метод голосового ввода как для ПК, так и для веб-версии, стремясь, как сообщается, обеспечить «работу с помощью голоса». Более того, версия Qianwen для ПК полностью бесплатна — не только голосовой ввод бесплатен, но и все встроенные офисные возможности на основе искусственного интеллекта также полностью доступны.

Не позволяйте названию «метод ввода» ввести вас в заблуждение.
Сначала, увидев название «Метод голосового ввода Qianwen», я подсознательно подумал, что это метод ввода с использованием искусственного интеллекта с более высокой точностью распознавания, но оказалось, что это совсем не то же самое.
Метод голосового ввода Qianwen невероятно прост в использовании. Для этого достаточно двух сочетаний клавиш: нажмите и удерживайте для голосового ввода, дважды щелкните, чтобы ИИ выполнил работу. В Windows это правая клавиша Alt; на Mac — правая клавиша Command. Вы можете настроить сочетание клавиш в соответствии со своими предпочтениями.

Независимо от того, пишете ли вы документ в Word, просматриваете информацию в браузере или отвечаете на сообщения в DingTalk, простое нажатие клавиши активирует точку ввода голоса. Нет необходимости переключаться на приложение Qianwen или открывать дополнительное окно. Спрашивайте, что хотите, говорите, что хотите.
Метод голосового ввода Qianwen предлагает два основных способа использования: нажмите и удерживайте кнопку, чтобы начать голосовой ввод, затем просто произнесите все, что придет вам в голову, и Qianwen автоматически удалит невнятную речь, исправит оговорки и сгенерирует структурированные выражения. Двойной щелчок активирует голосовые команды, в рамках которых вы назначаете задачи искусственному интеллекту, например, поиск информации, ответ на сообщения или создание документов.
С самого начала это задумывалось не просто как метод ввода, который «помогает быстрее печатать». За отдачу команд отвечает ваш рот; это центральный интерфейс, отвечающий за понимание, перевод и планирование, позволяющий ИИ выполнять работу и передавать её вам.
Говорить гораздо удобнее, чем печатать.
В 2026 году мои требования к методу голосового ввода выйдут далеко за рамки точности распознавания. Четкое распознавание и транскрибирование слов — это лишь основы; гораздо важнее, чтобы система понимала, что я хочу выразить, и помогала мне это организовать.
Например, когда я устно излагаю свои мысли, это позволяет сохранить мои намерения, отфильтровать всю ненужную информацию для коллег и исправить любые оговорки. В результате получается четкий, лаконичный текст, который можно отправить напрямую.
Например, в случае задержек проекта я могу попросить Цяньвэнь систематизировать информацию в четком письменном виде, а я просто нажму сочетание клавиш и дам ей устную обратную связь.
Что касается задержки этого проекта, я… ой нет, я имел в виду корректировку плана. Изначально планировалось сдать проект в эту пятницу, но… э-э… поскольку клиент в последнюю минуту добавил три новых требования, мы оценили, что это займет примерно на два дня больше, поэтому… нет, мой окончательный вывод таков: сроки сдачи проекта скорректированы с этой пятницы на следующую среду. Причина в том, что клиент добавил три новые функции, которые требуют дополнительной технической оценки. Мы обещаем представить первоначальную версию плана к следующей среде.

После отпускания клавиши появился результат. Видно, что автоматически были удалены все междометия типа «ах нет», «э-э» и «но», что четко суммирует суть моего выражения. По сравнению с обычным голосовым вводом, который позволяет записывать только слова и требует ручного редактирования, метод голосового ввода Qianwen практически не требует ручной настройки и может быть отправлен напрямую.
В более профессиональных и сложных проектах и в процессе коммуникации метод голосового ввода Qianwen становится еще более практичным.
Например, в следующем запросе на связь обратите внимание, что после того, как я долго удерживал кнопку мыши и много чего сказал, я добавил в конце: «Разместите часть с данными в начале».
Основная цель редизайна этого продукта — улучшение удержания новых пользователей. Мы добавили три этапа в процесс адаптации, сократив исходные пять этапов до трех, и добавили индикаторы прогресса на каждом этапе. Кроме того, мы обнаружили, что многие пользователи отказываются от использования продукта на втором этапе, поэтому мы уменьшили количество обязательных полей в форме на втором этапе с восьми до трех. Что касается данных, то после редизайна показатель удержания пользователей за одну неделю улучшился с 35% до 48%, а показатель удержания на следующий день увеличился на 12 процентных пунктов. Однако существует риск: упрощенная форма собирает меньше информации о пользователях, что может повлиять на эффективность последующих целевых рекомендаций; это требует постоянного мониторинга. Наконец, что касается командной работы, отдел дизайна создал две версии решения за две недели, а отдел разработки завершил запуск за три дня, что привело к очень быстрому общему темпу работы. (Хорошо, поместите раздел с данными в начало, а затем разбейте его на более мелкие части.)
Результаты здесь еще более очевидны. Только Цяньвэнь поняла инструкцию «поместить абзац с данными первым» и автоматически переставила абзацы местами. Я же выполнила операцию, которая изначально требовала мыши и клавиатуры, просто произнеся команду.

▲ Результаты стандартного голосового ввода

▲ Результаты применения метода голосового ввода Qianwen
В процессе тестирования я также обнаружил удивительную деталь: метод голосового ввода Qianwen особенно хорошо распознает речь, в которой смешиваются китайский и английский языки.
Основная функция этой функции — обработка проверки токена при входе пользователя в систему. Сначала вызывается метод `validateToken` для проверки срока действия токена. Если срок действия истек, возвращается ошибка 401. Затем, если токен действителен, вызывается интерфейс `getUserInfo` для получения информации о пользователе. Наконец, в сессию записываются `userId` и `role`. Следует отметить, что существует особый случай: если токен является токеном обновления, выполняется другая логическая ветвь.
Qianwen не только правильно распознал все английские термины, но и автоматически вывел их в виде пунктов в соответствии с моими словами, сделав их очень понятными.

▲ Результаты применения метода голосового ввода Qianwen
Я также хотела бы поделиться особенно полезным советом для создателей контента: каждое утро APPSO проводит совещание по выбору темы, где у всех много разрозненных идей — трендовое явление, наблюдение за отраслью, прогноз тренда…
Раньше некоторые мои идеи были разрозненными и несистематизированными. Теперь я могу напрямую активировать метод голосового ввода Qianwen во время совещаний и организовать эти идеи в план. Например, этот длинный отрывок моих отзывов редакторам по выбору темы во время совещания показан на изображении ниже:

▲ Результаты применения метода голосового ввода Qianwen
После того, как я отпустил ситуацию, сформировался подробный план темы. Редактор смог легко усвоить мои замечания и, немного дополнив их, написать углубленный анализ. Вот итоговая статья, которую все могут увидеть: Apple тихо прекращает выпуск Mac mini начального уровня; наступила эра, когда каждый должен платить «налог на ИИ».
Что касается только голосового ввода, то самое большое впечатление от Qianwen у меня сложилось о том, что скорость и невнятность вашей речи совершенно не имеют значения, поскольку ИИ позаботится о качестве вывода.
Все может быть наполнено позитивной атмосферой, достаточно всего лишь одного слова.
Голосовой ввод — это лишь первый шаг; большая ценность метода голосового ввода Qianwen заключается в том, что он также может помочь вам в выполнении других задач.
Как уже упоминалось выше, мне нужно было составить план темы, а затем погрузиться в написание. Однако каждый раз, когда мне нужно было найти данные или отчет, мне приходилось переключаться на другие веб-страницы и приложения. Именно здесь на помощь пришел метод голосового ввода Qianwen – он поддерживает глобальную активацию в любом программном обеспечении или на рабочем столе, позволяя мне искать информацию напрямую с помощью голоса, не переключая окна.
Например, когда я писал статью об OpenAI, мне нужно было указать сумму последнего финансирования и имена инвесторов. Я дважды щелкнул мышью, чтобы активировать голосовые команды, и сказал: «Найдите мне информацию о последнем финансировании OpenAI».

После недолгого раздумья появляется мини-окно Qianwen и высылает мне подробные результаты. Я изучаю ссылки и продолжаю писать, чтобы не прерывать свой поток мыслей.
Я только что вернулась из отпуска, и меня ждёт куча работы. Мне нужно составить чёткий еженедельный отчёт, но у меня нет времени медленно его набирать, поэтому я просто дважды щёлкнула мышкой и выпалила требования, которые включали в себя много устных выражений:
Привет, позвольте мне рассказать о ходе работ на этой неделе… Проект А сейчас находится на третьей фазе, но мы столкнулись с задержкой поставки от поставщика, примерно на три дня, но мы наверстали упущенное, работая сверхурочно… Проект Б все еще находится на стадии проверки требований, и прототип продукта пока немного неясен. Мы запланировали согласование на утро следующего понедельника в 10 утра… Нам также нужно запросить два тестовых сервера на следующей неделе… Не могли бы вы помочь мне организовать это в еженедельный отчет в формате Word, в профессиональном тоне и с четкой структурой?

Кроме того, функция голосового ввода Qianwen обладает еще более интересной особенностью – она позволяет отвечать на сообщения.
Каждый день мне часто приходится переключаться между различными группами по проектам в WeChat, DingTalk, Lark и других платформах, отвечая на всевозможные сообщения. Это невероятно утомительно, и именно тогда я могу позволить Qianwen (популярной платформе вопросов и ответов) взять на себя инициативу и дать слово себе.
Например, если мой коллега настоятельно просит меня отправить статью до окончания праздников, я дважды щелкну мышкой, чтобы попросить его написать для меня ответ, отличающийся высоким эмоциональным интеллектом.

▲ Мне не нужно предоставлять никакой дополнительной информации; система сама дополнит контекст на основе содержимого экрана и выдаст мне "умный" ответ.
В ситуациях, когда речь идет о клиентах или более официальной обстановке, я могу дважды щелкнуть мышью, чтобы получить соответствующий ответ.

Это происходит потому, что метод голосового ввода Qianwen поддерживает функцию «распознавания сцены». Он автоматически определяет, в каком приложении вы сейчас находитесь и какой контент отображается на экране, и соответствующим образом корректирует стиль вывода. Вам не нужно сообщать ему дополнительную информацию о контексте; он поймет ее самостоятельно.
На следующей неделе я уезжаю в командировку, поэтому я просто дважды щёлкнул по значку в WeChat и использовал его, чтобы систематизировать информацию из чата и составить заметку для путешествия.

В итоговом путеводителе, который мне выдали, содержалась не только информация о рейсах, но и список дел, а также конкретные рекомендации с учетом местных погодных условий и дорожной ситуации, что оказалось очень полезным для специалиста в сфере СМИ, который часто путешествует.
Во время еженедельного совещания я обнаружил полезный маленький трюк: в начале совещания я дважды щелкаю мышью, чтобы вызвать функцию голосового ввода Qianwen, а в конце говорю: «Помогите мне систематизировать только что сказанное мной и составить протокол совещания». Система автоматически его систематизирует.
Это идеально подходит для быстрых, спонтанных встреч, избавляя от необходимости открывать отдельное приложение для записи совещаний; просто дважды щелкните, чтобы мгновенно сделать заметку.

Просто поговорите с компьютером, и ИИ сделает всю работу сам.
Не поймите меня неправильно, крикнуть в компьютер «Помогите мне найти информацию» или «Напишите электронное письмо» — это пока лишь базовая операция искусственного интеллекта.
Настоящим козырем, который продемонстрировала версия Qianwen для ПК, стало сочетание голосового ввода с такими функциями, как создание презентаций PowerPoint, электронные таблицы с использованием искусственного интеллекта и обработка документов. Это практичная функция, которая действительно может помочь работающим людям «уходить с работы на час раньше каждый день».
Возьмем, к примеру, самую утомительную задачу — PowerPoint. Вместо того чтобы собирать воедино типовые шаблоны из библиотеки ресурсов, Цяньвэнь динамически генерирует сложные макеты, используя возможности программирования крупномасштабной модели. Если вам кажется, что что-то не идеально, просто проведите несколько раундов обсуждения, чтобы внести необходимые изменения, пока не будете удовлетворены результатом.
Чтобы проверить его возможности, я сначала попросил его создать для меня видеокурс по работе с учетной записью в формате PPT. Практически мгновенно после передачи голоса ИИ перешел в режим молниеносного усвоения информации: он заполнил все необходимые данные и сопоставил логику с первого раза.

Самое удивительное, что понимание Цяньвэнь концепции «перемежающегося текста и изображений» не является жестким следованием ей, а скорее представляет собой дифференцированную структуру, соответствующую глубине содержания. Вся презентация в формате PPT практически представляет собой готовый к использованию черновик.
Это еще не все. Вы также можете одновременно загрузить в Qianwen до 39 различных справочных документов в разных форматах, что позволит программе автоматически организовать логику и извлечь ключевые моменты, избавив вас от необходимости многократно просматривать материалы. Что касается изображений, программа может автоматически сопоставлять их в зависимости от контекста, а если подходящего изображения не найдется, она даже может сгенерировать исходное изображение прямо на месте, без необходимости выходить из интерфейса для поиска или загрузки и обработки в Office.
Что касается обработки электронных таблиц, Excel Agent от Qianwen демонстрирует высокий уровень качества.
Будь то скриншот чата в неформальном формате, рукописные заметки или большой блок простого текста, просто передайте ему данные, и он быстро создаст стандартную электронную таблицу Excel. Если вам потребуется рассчитать темпы роста или построить график тренда, вам больше не нужно будет беспокоиться о написании формул функций; просто задавайте команды на естественном языке, и он справится с этим.
Я предпринял довольно сложную задачу: собрать грамматическую структуру, варианты времен и примеры предложений для каждой модели предложения в электронную таблицу Excel на основе последнего учебника английского языка для средней школы Гуанчжоу 2026 года. Таблица должна быть отформатирована таким образом, чтобы поместиться на одной странице для удобства запоминания.

Раньше для решения подобных задач требовался ручной поиск информации, ввод данных и корректировка формата, что занимало не менее получаса. Теперь же, проще говоря, таблица генерируется напрямую, включая названия столбцов, межстрочный интервал и примеры предложений, практически не требуя ручной корректировки.
Что касается обработки документов, агент Word/PDF поддерживает загрузку смешанных текстовых и графических данных, а также может автоматически форматировать и выводить файлы, готовые к отправке.
Что еще интереснее, после отправки длинного документа вам не нужно листать его, чтобы самостоятельно найти ключевые моменты. Просто спросите, и система быстро найдет и предоставит вам ответ. Если вы хотите внести какие-либо изменения, достаточно просто сказать одно предложение, что избавит вас от необходимости вручную редактировать исходный документ по частям.
Я попытался отправить им сложный PDF-файл с договором и прямо спросил: «Каковы эксклюзивные права на контент?» Вместо того чтобы просто повторить весь текст, они точно указали условия лицензирования и четко перечислили объем эксклюзивности, срок действия лицензии и ограничения.

В настоящее время голосовые команды можно даже комбинировать с функциями помощника в выполнении задач, такими как программирование с использованием ИИ и ручное создание веб-страниц. Если эта тенденция сохранится, будущее офисной работы, вероятно, действительно будет заключаться в том, чтобы «добиваться результатов, просто разговаривая».
Люди, которые общаются с искусственным интеллектом, будут уходить с работы раньше, чем те, кто печатает на клавиатуре.
После некоторого времени использования метода голосового ввода Qianwen мне пришла в голову одна мысль.
В последние несколько лет много говорили об «улучшении эффективности офисной работы с помощью ИИ», но опыт большинства людей сводился к следующему: я долго общался с ИИ, но то, что он мне дал, оказалось совершенно бесполезным. После этого они решили, что в ИИ нет ничего особенного.
В чём проблема? В методе коммуникации. Когда вы общаетесь с ИИ с помощью клавиатуры, 40% вашей энергии уходит на организацию текста, и только 60% — на то, чтобы понять, что именно вы хотите. Ваши инструкции имеют низкую информационную плотность и скудный контекст, поэтому, конечно же, ИИ выдаст бессмыслицу. Дело не в том, что ИИ некомпетентен; дело в том, что вы ему что-то даете.
Распознавание голоса решает эту проблему. Вам не нужно устанавливать ограничения по количеству слов при произнесении речи; детали возникают естественным образом, и контекст автоматически расширяется. Оно тщательно организует запросы, произнесенные на естественном языке, позволяя ИИ точно их выполнять.

Яш Текривал, руководитель отдела обучения в нью-йоркской платформе для продаж Clay, отметил, что может печатать со скоростью 205 слов в минуту, используя голосовой ввод, по сравнению со 110-120 словами в минуту при обычной печати. Но скорость — не самый важный фактор; он обнаружил, что голосовые подсказки обеспечивают более высокое качество печати.
В последнее время в мире ИИ набирает популярность термин «упряжь». Он примерно означает: у вас есть лошадь (возможности ИИ), но вам нужны поводья, чтобы управлять ею и заставлять её бежать в нужном направлении. Без упряжи даже самая сильная лошадь будет просто крутиться на месте.
В ПК-версии игры Qianwen для ввода голоса используется этот адаптер.
С одной стороны, это устройство подключается к вашему рту, а с другой — к полному набору офисных функций ИИ: PowerPoint, электронные таблицы, документы, поиск, анализ и преобразование форматов. Вы произносите предложение, и оно переводит ваше намерение в инструкции, которые может выполнить ИИ, а затем отправляет соответствующего агента для выполнения работы. Это не метод ввода; это поводья. Это упряжь, которую вы используете для управления офисными возможностями ИИ.
Что решают другие «методы ввода с поддержкой ИИ»? Они решают проблему точки входа, помогая вам найти, где находится ИИ. Qianwen решает проблему освоения, помогая вам точно использовать возможности ИИ. Один направляет вас, другой берет бразды правления в свои руки и помогает вам двигаться вперед. В этом и разница.
В эпоху агентов голосовое управление — это наиболее естественный и эффективный способ работы с ИИ. Метод голосового ввода Qianwen — первый продукт, который внедряет эту технологию в настольный интерфейс, поэтому я с нетерпением жду появления подобных голосовых интерфейсов, способных по-настоящему использовать ИИ на большем количестве терминалов в будущем.
В это же время в прошлом году, если вы вдруг начинали разговаривать с компьютером в офисе, один или два раза это принимали за телефонный звонок. После нескольких таких случаев люди начинали подозревать, что вы испытываете слишком сильное рабочее давление и находитесь в плохом психическом состоянии.
Начиная с этого года, те, кто разговаривает сам с собой перед компьютером, скорее всего, первыми в компании уходят с работы (бездельничают).
Ссылка для скачивания клиента:
https://www.qianwen.com/download?ch=tongyi_redirect
Адрес доступа к веб-версии:
https://www.qianwen.com/
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.