Причиной сбоя окна чата ChatGPT является мышь.

В 1968 году в Сан-Франциско учёный-компьютерщик Дуглас Энгельбарт представил миру новый вид компьютерных программ на презентации, позже известной как «Мать всех демонстраций», держа в руках небольшую деревянную коробку с двумя металлическими колёсами.

Это был первый случай, когда люди публично использовали мышь для управления цифровым курсором на экране. В последующие десятилетия эта маленькая стрелка стала практически повсеместной. Она использовалась в офисных программах, игровых интерфейсах, окнах браузеров и бесчисленных электронных таблицах, став самым знакомым, но в то же время негласным ориентиром человечества в цифровом мире.

Однако за последние полвека вычислительная мощность, форма и сценарии применения компьютеров практически не изменились, но суть курсора мыши почти не изменилась: он знает, в каких координатах находится на экране, знает X и Y, но не знает, указываете ли вы на строку кода, счет-фактуру или фотографию пейзажа.

В условиях постоянно мигающих пикселей устройство может выполнять лишь самые элементарные действия: щелкать, перетаскивать и ждать следующего щелчка.

Сегодня Google собирается заново изобрести курсор мыши с помощью Gemini.

На недавно завершившейся выставке Android Show компания Google представила почти все свои планы, касающиеся Android, искусственного интеллекта и аппаратной экосистемы. Среди них — новая функция под названием «Magic Pointer», которая наделяет старый курсор мыши «глазами» и «мозгом».

Намерения Google ясны: в будущем взаимодействие с ИИ не должно основываться на длинных подсказках, а должно просто указывать на экран и говорить: «Переместите это туда», как в реальной жизни. Поэтому вопрос в том, куда это приведет взаимодействие человека и компьютера, когда курсор мыши наконец научится «понимать» экран?

Что именно может делать эта стрела с открытыми глазами, управляемая искусственным интеллектом?

Чтобы понять значимость этой технологии, мы должны сначала разобраться с самым неудобным аспектом современных инструментов ИИ: издержками взаимодействия.

За последние несколько лет возможности больших языковых моделей резко возросли, но порог входа для их использования остается высоким. Для того чтобы ИИ точно понимал намерения, пользователям приходится осваивать сложную «инженерию ключевых слов»: устанавливать роли, добавлять справочную информацию и ограничивать формат вывода. Написание коротких эссе объемом в несколько сотен слов для решения простой задачи стало обычным делом.

Кроме того, типичные инструменты искусственного интеллекта часто работают на отдельных веб-страницах или в окнах приложений, нередко прерывая рабочий процесс пользователя. Например, когда вы читаете 50-страничный PDF-файл и хотите, чтобы ИИ создал диаграмму, вам обычно нужно выполнить следующие шаги: сделать снимок экрана -> сохранить -> открыть браузер -> перейти на веб-страницу ИИ -> загрузить изображение -> ввести ключевое слово.

Google называет эту громоздкую операцию переключения между приложениями «обходными путями ИИ». Такое переключение не только неэффективно, но и легко может нарушить сосредоточенное внимание человека, так называемое состояние «потока».

В этом контексте первым принципом взаимодействия Google является «поток». В экспериментальном прототипе курсора с искусственным интеллектом возможности ИИ больше не ограничиваются конкретным приложением или веб-страницей, а привязаны к курсору мыши и готовы к использованию в любое время.

Способ запуска также сведен к минимуму: запоминать сочетания клавиш не нужно; достаточно просто «встряхнуть» мышь, и интерфейс ИИ автоматически появится на основе наведенного на него контента, предоставляя контекстно-ориентированные подсказки. При выборе изображения появится вопрос, хотите ли вы «сравнить» его; при наведении курсора на абзац будут предложены варианты улучшения.

Весь процесс не требует никаких инструкций и полностью основан на интуиции. Рассмотрим несколько крайне интуитивных сценариев:

Во-первых, высшая форма описания изображения.

При просмотре мультяшного городского пейзажа обычная мышь позволяет только щелкать и увеличивать масштаб. Но теперь вы можете просто навести курсор ИИ на здание на заднем плане фотографии и сказать в микрофон: «Переместите этот элемент изображения сюда».

Нет необходимости объяснять, что это за «место», или описывать внешний вид здания. Курсор, управляемый ИИ, напрямую понимает пиксель, на который вы указываете, идентифицирует соответствующий элемент и успешно перемещается.

Раньше мышь могла лишь сообщать системе, «куда я кликнул»; теперь она начала сообщать системе, «на что я указываю».

Во-вторых, используйте меньше вводных слов и более естественные отсылки.

Когда вы видите на веб-странице чрезвычайно сложный рецепт выпечки, вам не нужно копировать и вставлять его, и вам не нужно писать что-то вроде «Пожалуйста, умножьте все количества ингредиентов в следующем рецепте на два». Вам достаточно просто выделить текст курсором и небрежно сказать: «Удвойте количество „этих“ ингредиентов».

В мгновение ока искусственный интеллект мгновенно создал для вас новый рецепт прямо на месте.

В-третьих, преобразуйте пиксели в интерактивные объекты.

Для компьютера экран — это всего лишь несколько миллионов светящихся пикселей. Но курсор, созданный с помощью искусственного интеллекта, способен превратить эти статичные пиксели в живые объекты.

Например, вы смотрите видеоблог о путешествиях, и в кадре мелькает потрясающе выглядящий ресторан. Вы ставите видео на паузу, наводите на него курсор, и прежде безжизненное видео мгновенно превращается в реальное интерактивное место, рядом с которым появляется ссылка для бронирования столика в этом ресторане.

Например, вы небрежно фотографируете стикер, покрытый каракулями, и одним движением мыши чернила превращаются в список дел с галочками. Заметили что-нибудь? Раньше вам приходилось искать искусственный интеллект; теперь же ИИ следует за вашей мышью и послушно оказывается у вас под рукой.

Откажитесь от подсказок ИИ, вернитесь к человеческой интуиции.

При более внимательном рассмотрении выясняется, что самым мощным средством коммуникации для человечества на самом деле являются местоимения.

Когда вы и ваши коллеги сидите перед экраном и редактируете дизайн, вы никогда не скажете четким, разборчивым голосом: «Пожалуйста, переместите синий прямоугольник в верхнем левом углу экрана (X:120, Y:350) на 50 пикселей вправо». Вы просто укажете на экран и скажете:

«Немного сдвиньте это вправо и слегка разбавьте».

«Этот ресторан выглядит неплохо, как нам туда добраться?»

Что означает это сообщение об ошибке в коде?

В повседневной жизни мы в значительной степени полагаемся на «это» и «то». Жесты в сочетании с минимальным количеством устной речи являются наиболее эффективным способом общения для людей. Причина в том, что мы живем в одном физическом пространстве и разделяем один и тот же визуальный контекст.

Компания Google проницательно подметила этот момент и сформулировала его в виде основного принципа работы продукта: используйте силу «этого» и «того».

Вместо того чтобы заставлять людей изучать сложные системы ключевых слов, нам следует поступить наоборот: избавить нас от рутинной работы по выражению намерений и позволить машинам адаптироваться к самым ленивым и инстинктивным «жестам» человека.

Хорошая новость в том, что этот метод взаимодействия уже реализован. Gemini в браузере Chrome — первый, кто поддерживает его с сегодняшнего дня; в недавно выпущенной линейке ноутбуков Googlebook функция «Magic Pointer» интегрирована непосредственно в операционную систему и охватывает все приложения.

Амбиции Googlebook простираются за пределы простой мыши. Google определяет эту линейку продуктов как «идеальное дополнение к телефонам Android».

Подобно функции зеркального отображения экрана iPhone от Apple, пользователи могут беспрепятственно проецировать приложения Android на рабочий стол Google Books, запуская их в исходном соотношении сторон и свободно перемещаясь между устройствами в файловом менеджере, полностью устраняя барьеры экосистемы между телефонами, планшетами и ноутбуками. Кроме того, Gemini может генерировать пользовательские динамические виджеты на рабочем столе по мере необходимости (например, карту пассажира с информацией о рейсе в режиме реального времени).

Что касается аппаратного дизайна, все модели Googlebook оснащены светодиодной полосой "Glowbar" на корпусе, что позволяет с первого взгляда отличить их от традиционных Chromebook или ноутбуков на Windows.

Первая партия ноутбуков GoogleBook будет произведена компаниями Acer, Asus, Dell, HP и Lenovo и, как ожидается, поступит в продажу этой осенью.

Интересно, что Samsung отсутствует в этом списке. Недавние сообщения предполагают, что Samsung, возможно, готовит ноутбук Galaxy под управлением новой операционной системы Google, а следующее мероприятие Unpacked, по слухам, запланировано на 22 июля.

Что касается лежащей в основе системы, то, хотя Google и не назвала её, акцент в статье на «современной операционной системе, созданной для интеллекта» и глубокая интеграция Android и ChromeOS указывают на давно обсуждаемую систему «Aluminum».

Это означает, что ИИ начинает превращаться в инфраструктуру на уровне операционной системы. И когда ИИ действительно станет вашим курсором мыши, он получит право вмешиваться во всё — что вы видите, то и получаете, то, на что вы указываете, вы и контролируете.

Взаимодействие человека и компьютера в сфере искусственного интеллекта находится на перепутье.

Оглядываясь на 1968 год, можно сказать, что первая мышь, поразившая мир, обладала невероятно простой функцией: отслеживанием положения. За прошедшие пятьдесят лет мышь была усовершенствована: появились колесики прокрутки, боковые кнопки и даже вентиляторы и грузики, но её душа остаётся чистым листом: она точно отмечает координаты, но никогда не может понять смысл, скрытый за этими координатами.

Искусственный интеллект Google, используемый в курсоре, достиг беспрецедентного уровня развития в истории интерактивного взаимодействия: он не только знает, где вы находитесь, но и что это такое.

За последний год бесчисленные стартапы, получившие финансирование, бросились создавать следующий «супер-портал в эру ИИ». Все лихорадочно сосредоточились на реалистичности диалоговых окон и сложности рабочих процессов агентов. Но Google преподал всей отрасли суровый урок:

Какая технология является лучшей? Это тонкое, повсеместное влияние. Чаты никогда не являются окончательной формой ИИ; это всего лишь компромисс в переходный период. Лучший ИИ должен отойти на второй план, став инфраструктурой, встроенной в ваши повседневные действия, а не просто отдельным приложением, которое нужно открывать.

От интерфейсов командной строки (CLI) с черным текстом на белом фоне до графических пользовательских интерфейсов (GUI) с щелчками мыши, а затем и до сенсорного управления в мобильную эпоху (NUI) — большие языковые модели на короткое время вернули нас в эпоху общения с помощью набора текста, вызвав у бесчисленного количества людей тревогу, связанную с подсказками.

Но после сегодняшнего дня мы понимаем, что это был всего лишь небольшой объезд перед рассветом. По-настоящему полезный ИИ в конечном итоге должен научиться мыслить как человек: понимать каждый ваш взгляд и осознавать каждое ваше «положите это сюда».

Пятьдесят восемь лет назад, когда Дуглас Энгельбарт держал в руках эту простую деревянную мышку, его заветной мечтой было «повысить человеческий интеллект».

Спустя пятьдесят восемь лет, когда искусственный интеллект интегрируется в этот древний указатель, машины наконец-то начинают по-настоящему «понимать» мир. Эра инженеров, работающих по подсказкам, подходит к концу, и замкнутый цикл взаимодействия человека и компьютера совершит исторический скачок вперед с каждым неоднозначным «это» и «то».

Вот ссылка, чтобы это увидеть:
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true

https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true

Автор: Мо Чунгюй

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.