Может ли ИИ действительно заменить клавиатуру и мышь?
«Привет, ChatGPT, щелкните левой кнопкой мыши по полю ввода пароля во всплывающем окне, появляющемся в левом нижнем квадранте экрана, заполните XUS&(#($J и нажмите Enter».
Весело, да? Нет, спасибо. Я просто подвигаю свою дешевую мышь и наберу 12 символов на моей бесполезно щелкающей клавиатуре, вместо того, чтобы произносить пароль вслух в моем коворкинг-пространстве.
Довольно круто видеть, как ChatGPT понимает вашу голосовую команду, бронирует дешевый билет на восемь человек, чтобы посмотреть матч Liverpool на Anfield, и отправляет вас на экран кассы. Но, эй, вы доверяете ему пароль? Или вы просто не введете пароль с помощью физической клавиатуры?
Представьте себе, что вы делаете ставку на ИИ, а потом понимаете, что последний шаг, где вам ДЕЙСТВИТЕЛЬНО нужна клавиатура или мышь, невозможен, и вы застряли. Но именно этот вопрос задают себе многие, увидев яркие видео об ИИ-агентах и автоматизации от таких компаний, как Google, OpenAI и Anthropic.
Это законный вопрос.
ИИ был главной темой на мероприятии Google I/O в начале этого года. К концу основного доклада я убедился, что смартфоны Android уже не будут прежними. И, соответственно, любая платформа, на которой появится Gemini — от приложений Workspace , таких как Gmail, до навигации в Google Maps, сидя в машине.
Самой впечатляющей демонстрацией был Project Mariner и следующий исследовательский прототип Project Astra . Подумайте об этом как о следующем поколении разговорного помощника, который позволит вам говорить и делать реальные вещи , не нажимая на экран или не вытаскивая клавиатуру. Вы можете переместить свои запросы из руководства пользователя, размещенного на веб-сайте бренда, в обучающие видеоролики YouTube, не повторяя контекст.
Это почти как если бы истинная концепция памяти пришла к ИИ . В веб-браузере он будет бронировать вам билеты, отправляя вас на последнюю страницу , где вам просто нужно подтвердить, что все данные соответствуют запрашиваемым, и вы продолжаете оплату. Это заставляет задуматься, не являются ли клавиатура и мышь мертвыми концепциями для цифровых входов, поскольку голосовое взаимодействие выходит на передний план ИИ.
Бремя ошибки
Теперь, как бы странно это ни звучало, ваш компьютер уже оснащен голосовым управлением для навигации по операционной системе. На ПК с Windows и macOS вы можете найти инструменты голосового доступа как часть пакета специальных возможностей. Существует несколько сочетаний клавиш, которые ускоряют процесс, и вы также можете создать свои собственные.
С появлением моделей искусственного интеллекта нового поколения мы говорим о том, чтобы отказаться от клавиатуры и мыши для всех, а не просто продвигать их как вспомогательную технологию.
Представьте себе комбинацию Claude Computer Use и отслеживаемого взглядом ввода от гарнитуры Vision Pro от Apple . Если вы не знакомы, Computer Use от Anthropic — это, ну, агент использования компьютера. Anthropic утверждает, что он позволяет ИИ «использовать компьютеры так, как это делают люди — глядя на экран, перемещая курсор, нажимая кнопки и печатая текст».
Теперь представьте себе сценарий, в котором ваше намерение передается в виде голоса Клоду, улавливается встроенными микрофонами, и задача выполняется. Для любого финального шага, который требуется от вас, жесты заполняют пробел. Vision Pro продемонстрировал, что отслеживание взгляда возможно и работает с высокой степенью точности.
Вдали от гарнитур, голосовой ИИ все еще может работать на среднем компьютере. Hume AI в партнерстве с Anthropic создает систему под названием Empathetic Voice Interface 2 (EVI 2), которая преобразует голосовые команды в компьютерный ввод. Это почти как говорить с Alexa, но вместо того, чтобы заказывать брокколи, помощник ИИ понимает, что мы говорим, и преобразует это в ввод с клавиатуры или мыши.
Все это звучит потрясающе, но давайте подумаем о нескольких реалистичных сценариях. Вам понадобится клавиатура для тонкой настройки медиа-редактирования. Внесение незначительных изменений в кодировку. Заполнение ячеек на листе. Представьте, что вы говорите: «Эй, Близнецы, положи четыре тысячи восемьсот девяносто пять долларов в ячейку D5 и обозначь это как расходы на авиаперелеты?» Да, я знаю. Я бы тоже просто набрал это.
Последняя миля, не конец
Если вы посмотрите демонстрации AI Mode in Search, Project Mariner agent и Gemini Live, вы получите представление о голосовых вычислениях. Все эти достижения ИИ кажутся потрясающе удобными, пока они таковыми не являются. Например, в какой момент времени становится слишком раздражающим говорить что-то вроде «Перейдите в диалоговое окно в левом верхнем углу и щелкните левой кнопкой мыши по синей кнопке с надписью Confirm ».
Это слишком громоздко, даже если бы все предыдущие шаги выполнялись автономно искусственным интеллектом.
И давайте не забывать о слоне в комнате. У ИИ есть привычка выходить из строя . «На данном этапе он все еще экспериментальный — порой громоздкий и подверженный ошибкам», — предупреждает Anthropic о Claude Computer Use. Ситуация не слишком отличается от Operator Agent от OpenAI или аналогичного инструмента с тем же названием, который в настоящее время разрабатывается в Opera, разработчиках довольно крутого веб-браузера .
Удаление клавиатуры и мыши из компьютера с искусственным интеллектом похоже на вождение Tesla с включенным полным самоуправлением (FSD) , но у вас больше нет рулевого управления, а доступные элементы управления — педали тормоза и акселератора. Машина определенно куда-то вас отвезет, но вам нужно будет взять управление на себя, если произойдет непредвиденное событие.
В контексте вычислений подумайте о специалисте по устранению неполадок, где вы ДОЛЖНЫ быть за рулем. Но давайте предположим, что модель ИИ, управляемая в первую очередь голосом (и фиксируемая микрофоном на вашем любимом компьютере), приводит вас на последний шаг, где вам нужно закрыть рабочий процесс, например, совершить платеж.
Даже с Passkeys вам нужно будет как минимум подтвердить свою личность, введя пароль, открыв приложение-аутентификатор или коснувшись сканера отпечатков пальцев? Ни один производитель ОС или разработчик приложений (особенно связанных с проверкой личности) не позволит модели ИИ иметь открытый контроль над выполнением этой критической задачи.
Слишком рискованно автоматизировать с помощью агента ИИ, даже с такими удобствами, как пароли, которые приходят на ум. Google часто говорит, что Gemini будет учиться на памяти и ваших собственных взаимодействиях. Но все начинается с того, что вы позволяете ему контролировать использование вашего компьютера, которое в основе своей зависит от ввода с клавиатуры и мыши. Так что да, мы вернулись к исходной точке.
Переходим на виртуальный? Долго ждать
Когда мы говорим о замене компьютерной мыши и клавиатуры на ИИ (или любое другое достижение), мы просто говорим о замене их на прокси. А затем приземляемся на знакомую замену. Существует множество исследовательских материалов, говорящих о виртуальных мышах и клавиатуре, датируемых как минимум десятилетием, задолго до того, как была опубликована основополагающая статья о «трансформерах» и подтолкнула индустрию ИИ на новую скорость.
В 2013 году DexType выпустила приложение, которое подключалось к крошечному оборудованию Leap Motion, чтобы обеспечить виртуальный опыт набора текста в воздухе. Не требуется сенсорный экран или какой-либо модный лазерный проектор, такой как Humane AI Pin . Leap Motion умерла в 2019 году, но идея осталась. Meta, пожалуй, единственная компания, у которой есть реалистичный программный и аппаратный стек, готовый к альтернативной форме ввода-вывода в вычислениях, которую она называет взаимодействием человека и компьютера (HCI).
Компания работает над наручными носимыми устройствами, которые обеспечивают совершенно иную форму управления на основе жестов. Вместо отслеживания пространственного движения пальцев и конечностей Meta использует технику, называемую электромиографией (ЭМГ). Она преобразует электрические сигналы двигательных нервов, генерируемые в запястье, в цифровой ввод для управления устройствами. И да, курсор и ввод с клавиатуры являются неотъемлемой частью пакета.
В то же время Мета также утверждает, что эти жесты будут быстрее, чем типичное нажатие клавиши, потому что мы говорим об электрических сигналах, идущих от руки прямо к компьютеру, а не о движении пальца. «Это гораздо более быстрый способ действовать в соответствии с инструкциями, которые вы уже отправляете на свое устройство, когда нажимаете, чтобы выбрать песню на своем телефоне, щелкаете мышью или печатаете на клавиатуре сегодня», — говорит Мета.
Меньше замен, больше переупаковок
В подходе Meta есть две проблемы, с появлением ИИ или без него. Концепция курсора все еще очень сильна, как и клавиатура, хотя и в цифровом формате. Мы просто переходим от физического к виртуальному. Замена, которую продвигает Meta, звучит очень футуристично, особенно с появлением мультимодальных моделей ИИ Llama от Meta.
А затем возникает экзистенциальная дилемма. Эти носимые устройства все еще находятся в сфере исследовательских лабораторий. И когда они выйдут, они не будут дешевыми, по крайней мере, в течение первых нескольких лет. Даже простые сторонние приложения, такие как WowMouse, привязаны к подпискам и сдерживаются ограничениями ОС.
Я не могу представить, как я заменю свою дешевую клавиатуру за 100 долларов на экспериментальное устройство для голосового или жестового ввода и заменю им полноценный ввод с клавиатуры и мыши для моего ежедневного рабочего процесса. Самое главное, что разработчикам потребуется некоторое время, прежде чем они начнут использовать ввод на основе естественного языка в своих приложениях. Это будет долгий и затяжной процесс.
А как насчет альтернатив? Ну, у нас уже есть приложения, такие как WowMouse , которые превращают ваши умные часы в центр распознавания жестов для движений пальцев и ладоней. Однако они служат только заменой для курсорных и касательных жестов, а не полноценным опытом работы с клавиатурой. Но опять же, предоставление приложениям доступа к вашей клавиатуре — это риск, против которого будут протестовать повелители ОС. Помните кейлоггеры?
В конце концов, мы находимся в точке, где разговорные возможности моделей ИИ и их агентские возможности делают огромный скачок. Но они все равно требуют, чтобы вы пересекали финишную черту щелчком мыши или нажатием нескольких клавиш, вместо того, чтобы полностью заменить их. Кроме того, они просто слишком громоздки, когда вы можете нажать сочетание клавиш или мышь вместо того, чтобы продиктовать длинную цепочку голосовых команд.
Короче говоря, ИИ уменьшит нашу зависимость от физического воздействия, но не заменит его. По крайней мере, не для масс.