Веб-браузеры вступают в новую эру, в которой возможности искусственного интеллекта берут верх над расширениями

«Браузер — это нечто большее, чем чат. Это более цепкий продукт, и это единственный способ создавать агентов. Это единственный способ выстраивать сквозные «рабочие процессы»», — так прокомментировал генеральный директор Perplexity Аравинд Шринивас в недавнем интервью. Соучредитель Perplexity говорил о будущем веб-браузеров, агентов ИИ и автоматизации в веб-браузерах.

Шринивас был настроен оптимистично в отношении перспектив, отчасти потому, что его компания уже тестирует новый браузер Comet. В настоящее время он находится в стадии бета-тестирования, доступ к которому предоставляется только по приглашению. Браузер поставляется с агентом, который может выполнять сложные и трудоёмкие задачи от вашего имени.

Представьте себе инструмент искусственного интеллекта, такой как ChatGPT или Gemini, но работающий исключительно в вашем браузере. Подход «агент в браузере», как утверждает Шринивас, более привычный и гибкий. Вам не придётся иметь дело с обычными локальными разрешениями и ограничениями рабочего процесса между приложениями. Кроме того, браузеры будут работать так же, как мы привыкли, с такими продуктами, как Chrome или Safari.

Но подводные течения совершенно иные, и самым большим изменением может стать отказ от браузерных расширений в пользу навыков ИИ и пользовательских агентов. Примечательно, что базовые инструменты были заложены больше года назад, но мы слышим о них только с появлением браузеров, ориентированных на ИИ, таких как Dia и Comet.

Навыки ИИ — новые чемпионы по трудоустройству

Все разговоры об ИИ-агентах и навыках кажутся просто набором технических терминов, поэтому позвольте мне объяснить их вам. Недавно в браузере Dia я создал навык под названием «Расширить». Как мне это удалось, ведь я не написал ни строчки кода? Я просто описал это следующим образом:

«Когда я использую этот навык и вставляю фрагмент, выполняю глубокий поиск в интернете и получаю всю историю в виде статьи в удобном порядке. Берите информацию только из надёжных новостных источников».

Я зарабатываю на жизнь чтением и написанием статей, и часто натыкаюсь на фрагменты и события в статьях, с которыми не знаком. В таких случаях мне достаточно выделить нужный текст (или скопировать и вставить его в боковую панель чата) и использовать команду «/», чтобы вызвать навык «развернуть».

Как описано выше, ИИ-агент в браузере Dia найдёт упоминания моей целевой страницы в ведущих новостных агентствах и создаст краткий отчёт о ней в хронологическом порядке. Это сэкономит мне массу драгоценного времени, которое я бы потратил на беспорядочные попытки поиска в Google.

Но что ещё важнее, мне даже не нужно открывать другую вкладку, и я могу задавать уточняющие вопросы в том же окне чата на вкладке активного чтения. Это быстро и удобно. Я не знаю расширения, которое могло бы делать то же самое, что и этот навык «Расширить».

Это тоже невозможно. Я создал его с определённой целью и намерением. И я могу создавать столько, сколько захочу, или дорабатывать его в соответствии со своим рабочим процессом. Я создал ещё один ресурс под названием «Исследование», который ссылается на работу (или фразу) и проводит веб-исследование, просматривая исключительно рецензируемые научные статьи.

Сообщество пользователей Dia даже экономит деньги, создавая навыки, которые позволяют находить купоны на товары прямо перед оформлением заказа. Для покупок на Amazon я создал инструмент, который объединяет отзывы, рейтинги и характеристики товаров на разных вкладках Amazon, создаёт сравнительную таблицу и помогает мне сделать лучший выбор. Всё это делается одним-единственным словом!

Другой быстро проверяет грамматические ошибки и стилистическое оформление моих писем. Ещё один создаёт материалы для чтения в формате викторины для детей, которых я преподаю в соседней некоммерческой организации, на основе подготовленных мной учебных материалов.

Студентам нравится весёлый и игривый тон вопросов с несколькими вариантами ответов, которые проверяют их знание текущих событий. Есть даже официальная галерея Dia, где можно найти навыки, созданные пользователями Dia, и краудсорсинговая веб-панель инструментов, где можно найти ещё больше.

Но вот главная причина, по которой я считаю, что навыки работы с браузером важнее расширений. Любой может создать их, просто описав свои потребности. Для работы с расширениями необходимы навыки программирования и базовые знания о том, как работает веб и его архитектура.

Безопасность — ещё одна причина, по которой я бы больше доверял навыкам работы с браузером, чем расширениям. Существует давняя история использования браузерных расширений в качестве оружия, а злоумышленники — для распространения вредоносного ПО. Обычный пользователь не может ни изучить, ни понять, как работает расширение, и осознаёт его несостоятельность только после того, как ущерб уже нанесён.

Ситуация с навыками ИИ в браузерах предельно прозрачна. Принцип работы навыка подробно описан естественным языком и без каких-либо скрытых оговорок. Вам просто нужно внимательно прочитать его или просто скопировать и создать свой собственный с дополнительными изменениями. Такой подход гибок, гораздо безопаснее и предоставляет пользователю полный контроль.

Браузерные агенты никуда не денутся

Далее, у нас есть браузерные агенты. Браузер Opera уже реализовал один из них, и уже предлагает более продвинутую версию под названием Operator . Кроме того, доступны такие инструменты, как ChatGPT Agent и браузер Comet от Perplexity . Это своего рода Siri, но для просмотра веб-страниц.

Агенты больше подходят для сложных, требующих много времени задач. И они работают лучше всего, когда имеют доступ к сервисам, которые вы используете ежедневно, таким как электронная почта и календарь. Например, вот что я сделал вчера вечером в браузере Comet от Perplexity:

«Проверьте мою почту и сообщите мне о всех запросах на интервью с учёными или руководителями компаний, которые я намеревался рассмотреть. Обратите внимание на те разговоры, где я говорил о возможности виртуальных интервью вместо личной встречи».

Не открывая новую вкладку, встроенный помощник просмотрел мой почтовый ящик Gmail, нашёл нужные письма и предоставил мне список таких взаимодействий в удобном формате. Для дополнительного удобства он даже добавил ссылки на Gmail одним щелчком, чтобы я мог сразу открыть нужную цепочку писем, не разбираясь в них вручную.

Он отлично подходит для множества других задач. Например, во время сессии вопросов и ответов в Twitter я просто попросил его выбрать ответы спикера и отобразить их в виде маркированного списка. Это сэкономило мне кучу времени на бесконечную переписку между цепочками диалогов.

Для планирования поездок, покупок и даже просмотра видео помощник в браузере Comet работает отлично. Единственный недостаток заключается в том, что для более личных задач потребуется предоставить доступ к коннекторам. Например, для работы с Gmail, Календарем и Диском потребуется предоставить доступ.

Я проделал то же самое для своего аккаунта WhatsApp, и в браузере Comet всё работало отлично. Не всем будет легко это сделать, и осторожность совершенно оправдана. Для таких случаев Google и OpenAI предлагают аналогичные агентские функции для Gemini и ChatGPT соответственно.

Пути назад нет.

Подобно тому, как вы создаёте навыки в Dia, просто вводя или озвучивая свои требования, Gemini и ChatGPT также позволяют создавать специальные агенты для определённых задач. Google называет их Gems, а OpenAI — GPT. И да, ими можно делиться, как и навыками. Использование их бесплатно, но для их создания потребуется подписка стоимостью 20 долларов в месяц.

Я создал множество самоцветов и специальных GPT-тегов для ускорения рутинных задач. Для личных публикаций в социальных сетях я создал самоцвет, который разбивает написанные мной статьи на более мелкие фрагменты, которые затем публикуются цепочкой в X. Кроме того, я создал специальные агенты для обработки электронной почты.

Один из самоцветов просто требует, чтобы я написал «да» или «нет», и он напишет вежливый ответ, учитывая весь контекст письма. С появлением коннекторов вы сможете связать их с любым количеством сервисов.

Самое приятное в этих жемчужинах то, что их можно без труда использовать как в десктопном браузере, так и в мобильных приложениях. Расширения требуют использования десктопного браузера. Некоторые мобильные браузеры поддерживают расширения, но редко.

Более того, они не обеспечивают той же гибкости и спокойствия, что и пользовательские настройки браузера или агенты, созданные пользователями. ChatGPT Agent и Project Mariner от Google — это новое поколение ИИ-помощников, специально разработанных для веб-задач, подобно помощнику, встроенному в браузер Comet от Perplexity.

В отличие от расширений, они могут обрабатывать многоэтапные рабочие процессы, и вы можете взять управление на себя на любом этапе. Более того, вы можете изменять внутреннюю работу автоматизации веб-браузинга и адаптировать навыки ИИ к вашим конкретным требованиям, что невозможно с расширениями.

Конечно, они не идеальны. В то же время, вы можете взять управление на себя и доделать то, что он не может сделать сам, ведь ни один ИИ-агент не застрахован от ошибок, особенно в наше время, когда модели рассуждений всё ещё далеки от совершенства», — признаёт генеральный директор Perplexity.

Но сдвиг очевиден. Расширения для браузеров не исчезнут в одночасье, но браузерные агенты и навыки искусственного интеллекта, создаваемые пользователями, возьмут верх. Падение барьеров (читай: абонентской платы) — лишь вопрос времени!