Dia, суперпопулярный браузер с искусственным интеллектом, протестированный в режиме реального времени, я увидел будущее браузера на iPhone

Через 30 лет самым большим изменением в браузерах могут стать значки.
Базовая модель взаимодействия, разработанная «отцом Интернета» Тимом Бернерсом-Ли в 1990 году, — переход между веб-страницами посредством гиперссылок (Hyperlinks), и последующая логика ввода URL-адреса, ожидания загрузки, перехода по ссылке и возврата на предыдущую страницу, остается неизменной и сегодня.
На дворе 2025 год, а мы все еще стоим в той же позе, смотрим на экран и ждем загрузки страницы.
За последние десять лет мы стали свидетелями появления множества браузеров, которые заявляли, что «подрывают рынок браузеров». Арк также был назван самым многообещающим посевным игроком в деревне. Однако, имея миллионы пользователей и потратив 150 миллионов долларов, материнская компания The Browser Company объявила, что прекратит обновления и, к сожалению, закроется.

В прошлом году, после завершения финансирования в размере 50 миллионов долларов, они решили переключить свое внимание на разработку собственного браузера с искусственным интеллектом под названием Dia.
Основатель Джош Миллер заявил, что Dia хочет создать браузер совершенно другого типа — более активный, более мощный, более ориентированный на искусственный интеллект и больше соответствующий первоначальному видению. Вы можете назвать его iPhone среди веб-браузеров или «Интернет-компьютером».

Браузер Arc использовал систему кодов приглашения на ранних и общедоступных стадиях бета-тестирования, и The Browser Company, очевидно, получила от этого выгоду.
Недавно этот браузер под названием Dia был наконец запущен с использованием системы кодов приглашения и начал открываться для небольшого опыта. Устройства Experience имеют определенные ограничения и в настоящее время доступны на macOS 14+, оснащенных чипом Mac M1 или более поздней версии.
Поскольку все стремятся интегрировать ИИ в браузер, ближайший к пользователю, мы хотим изучить вопрос, сможет ли Dia выделиться и как ИИ может изменить опыт просмотра.
Google+Perplexity, Dia Хотите использовать ИИ для смены браузеров?
Домашняя страница Dia очень проста, имеет только самое обычное окно поиска. Можно даже сказать, что это немного освежает, но, возможно, это идеальный внешний вид браузера: задавайте вопросы, получайте ответы и заканчивайте. Вместо того, чтобы заполнять горячий список поиска и отвлекать ваше внимание.

После ввода вопроса Диа откроется окно кандидата, предлагающее два варианта: Google и Чат.

Как следует из названия, первый переходит непосредственно на обычную страницу поисковой системы, а второй похож на обычного чат-помощника с искусственным интеллектом, вызывая собственную большую модель Dia, чтобы напрямую давать ответы, и имеет свои собственные исторические записи чата. Конечно, когда он сталкивается со сложными проблемами, он также будет искать в Интернете. 
«Могут ли теперь домашние животные ездить по скоростной железной дороге?» «Сколькими компаниями сейчас управляет Маск?» Качество ответов Диа также нестабильно. Несколько ответов на один и тот же вопрос неоднократно колебались между правильными и неправильными.


Если вопрос задать на английском языке, качество ответа существенно не улучшится, а Starlink может даже принять за независимую компанию. Согласно реальным тестам, Диа иногда прикрепляет картинки к ответам; когда задаешь вопросы на китайском, иногда случайно появляются ответы на английском.

В нижней части поля ввода вы также можете увидеть «Персонализировать Диа», где вы можете указать человека, которым вы восхищаетесь, свой любимый метод обучения и стиль ответа Дайи, что может помочь Диа быстро понять себя и сыграть роль в тренировке личности ИИ.

Просто загрузите интернет-мем, и Диа сможет легко определить значение смайлика. Краткое изложение документа имеется, и 100 000 слов четко разобраны. Однако стоит отметить, что размер документа ограничен 100 МБ, и фактический тест не поддерживает загрузку документов в формате Doc.


▲В левом верхнем углу будут отображаться два ChatGPT, что должно быть ошибкой.
Чтобы подвести итог статье о публичном аккаунте, просто оставьте ссылку.

Стоит отметить, что браузер Dia использует определенную версию движка Chromium. Chromium — это проект с открытым исходным кодом, на котором построены многие современные браузеры, включая Chrome.

Взаимодействие — самый важный момент, но Dia — это еще полуфабрикат.
Дизайн взаимодействия Dia является изюминкой. Традиционные плагины AI в основном представлены в виде боковых панелей и плавающих окон, охватывающих чат AI, перевод, сводку веб-страниц и т. д. Чат в правом верхнем углу можно рассматривать как кастрированную версию плагина AI. Хотя эта функция немного тонкая, она хорошо справляется с интерактивными задачами.
После маркировки слова функция поиска или объяснения может быть предоставлена непосредственно с правой стороны, и в целом работа будет плавной и плавной.

Например, я видел, как кто-то рекомендовал книгу по линейной алгебре о Чжиху. Изначально я хотел прокомментировать: «Я не знаю, насколько это хорошо», но застрял на середине написания. Что я должен делать? В это время, когда я подношу его к курсору, курсор становится синим и толстым, и нажатие на него автоматически вызывает интерфейс чата справа.

Потом я кратко описал идею «Не понимаю, но был в шоке», а ДИа просматривал всю страницу и давал несколько вариантов комментариев.


Эти предложения даже имитируют расслабленный тон области горячих комментариев Чжиху, который краток, прямолинеен и гуманен. Убедившись в правильности, нажмите «Вставить», чтобы автоматически вставить и развернуть комментарий слева.
Если у вас нет времени смотреть видео, вы можете просто суммировать содержание видео. Вот небольшая хитрость, которая также позволяет добавлять субтитры, обобщающие видео. Однако после того, как я попросил его создать документ Word или PDF, обратной связи не последовало.
Кроме того, Dia также может быстро «разделить экран» в браузере, нажав «Меню просмотра-Добавить разделенную панель просмотра», и может разделить до 4 экранов одновременно. Однако практичность этой функции ограничена: она отображает только результаты поиска, а нажатие на определенную веб-страницу все равно приведет к переходу в полноэкранный режим, что действительно «кажется, но бесполезно».

Кроме того, Arc часто критиковали за невозможность перенести закладки Chrome. Теперь Dia, усвоившая урок, предоставляет функцию импорта закладок одним щелчком мыши для поддержки безболезненной миграции. Во-вторых, он не пошел так далеко, как Arc, а выбрал более традиционный дизайн горизонтальных вкладок. Вы можете добавить различные теги веб-страницы в поле ввода и добавить все теги в контекст разговора одновременно, чтобы улучшить возможности связывания информации на страницах с несколькими вкладками.

Подобно тому, как ChatGPT вызывает GPT, Dia также поддерживает вызов каждого тега веб-страницы через @. Геймплей очень простой. Я выбрал несколько прошлых статей об Ai Pin и попросил их обобщить моменты, на которые стоит пожаловаться на Ai Pin. Я быстро получил четкий ответ.

Наступила эра браузеров 2.0, и Интернет еще далек от смерти.
В 2010 году Крис Андерсон и Майкл Вольф стали соавторами статьи «Сеть мертва, Интернет навсегда» в журнале Wired.
В статье резко указывается, что Всемирная паутина (Сеть) постепенно приходит в упадок через двадцать лет после своего рождения. Причина в том, что традиционный режим просмотра веб-страниц постепенно заменяется более простыми и плавными услугами, особенно появлением приложений (Apps), которые проще и эффективнее и могут напрямую удовлетворять их потребности.
Например, вы можете открыть новостное приложение и сразу просмотреть заголовки, не вводя URL-адрес в браузере и не дожидаясь загрузки страницы. Тенденция «Приложения прежде всего» почти доминировала в логике развития интернет-продуктов в последнее десятилетие.

Однако развитие генеративного искусственного интеллекта вернуло фокус разработки продуктов к веб-модели.
Это кажется неожиданным, но в этом есть смысл. Взаимодействие с искусственным интеллектом по существу ориентировано на текст/диалог, а веб-интерфейс естественным образом поддерживает сложный ввод и вывод текста и может облегчить обмен результатами и совместную работу.
Генеративные модели ИИ требуют больших вычислительных ресурсов и имеют высокую скорость итерации. В период исследования, когда еще неясно, какие сценарии применения ИИ являются наиболее ценными, веб-платформа может охватить всех пользователей устройств с наименьшими затратами и ускорить проверку соответствия продукта рынку.
Более того, по сравнению с психологической и фактической стоимостью загрузки приложения, веб-версия позволяет пользователям «щелкнуть и использовать», что особенно важно для естественно незнакомого продукта, такого как ChatGPT, что уменьшает препятствия для пользователей при попытке попробовать его.

Базовая форма и функциональность браузеров сохраняются уже почти тридцать лет. В 1989 году, работая в ЦЕРН, сэр Тим Бернерс-Ли создал Всемирную паутину (WWW), чтобы удовлетворить потребность в обмене информацией между учеными, университетами и другими исследовательскими учреждениями.
Веб-браузер появился на свет, но его первоначальный дизайн был сосредоточен на документах, и эта основная логика до сих пор не изменилась.
От более позднего Netscape Navigator до сегодняшних Chrome, Safari, Firefox и Opera нельзя сказать, что внешний вид основных элементов браузера (вкладки, адресная строка, избранное) остался неизменным, но он не сильно изменился.
Раньше мы получали информацию через поисковые системы следующим образом: вводили ключевые слова, получали дюжину или даже десятки страниц результатов, а затем нажимали, просматривали, оценивали и фильтровали одну за другой и, наконец, находили ту небольшую часть, которая нам нужна, из огромного массива информации.
Этот процесс подобен просмотру стопки книг в библиотеке: отнимает много времени и неэффективен. В ту эпоху способность находить информацию сама по себе была навыком, что даже привело к появлению учебных пособий и курсов, таких как «Расширенные методы поиска».

Позже поисковая система стала умнее, а дизайн интерфейса и производительность были оптимизированы. Например, страница вкладки превратилась из одного окна в многозадачный инструмент управления, а в адресную строку также была интегрирована функция поиска. Однако в конечном итоге эти изменения все же были лоскутными, а не полным пересмотром.
В то время, когда иммерсивные, пространственные вычисления и диалоговый искусственный интеллект находятся на подъеме, мы все еще вынуждены использовать браузеры, разработанные на основе парадигмы документов более 30 лет назад. Это не столько проблема интерфейса, сколько несоответствие всей модели информационного взаимодействия.
Быстрое развитие искусственного интеллекта открыло дыру в изменении интерфейса браузера. В прошлом году охватило увлечение плагинами искусственного интеллекта, и такие игроки, как Кими и Моника, вошли в игру один за другим, привнося некоторые новые способы игры: вы можете получать ответы и выполнять задания, не покидая страницу, и ваша эффективность взлетела до небес.
Судя по текущему опыту, Dia, который все еще является полуфабрикатом, имеет некоторые особенности в деталях, таких как взаимодействие с боковой панелью и объяснение слов, но в конечном итоге он все же не выбивается из категории AI-плагинов, а больше ориентирован на интеграцию и доработку существующих функций.
Джош Миллер однажды сказал, что потребности традиционных браузеров в интерфейсе уже не так актуальны, и его базовая структура будет определять наше будущее. «Большинство людей думают, что мы создаем браузер, — сказал Миллер в разговоре, — но на самом деле мы создаем систему на основе браузера».
Его цель — превратить браузер из простого инструмента отображения контента в нечто подобное операционной системе, которое сможет управлять личными предпочтениями и поведением, а также обеспечивать взаимодействие ИИ между устройствами на системном уровне без необходимости повторять настройки в каждом приложении.

В ранних демонстрациях Диа показывал, как браузеры могут выполнять задачи от имени людей.
Например, Диа сама просматривает Amazon, находит эти товары и добавляет их в свою корзину. Это именно то, что может сделать браузер — использовать свой доступ ко всем вашим веб-приложениям и данным просмотра, чтобы выполнить всю работу за вас.
Хотя сегодняшний Dia все еще далек от этой цели, этот переход от пассивного ответа к концепции исполнения совпадает с нынешним популярным Агентом.
В Операторе, запущенном OpenAI, и недавно выпущенном Агенте «Медитация» от Zhipu мы также видели, что браузер начинает выполнять действия от имени пользователя, такие как бронирование авиабилетов, сравнение цен на продукты, заполнение форм и даже совершение покупок в Интернете.
Чтобы лучше понять эту тенденцию, давайте взглянем на идею «операционной системы LLM», предложенную Андреем Карпати, бывшим гуру искусственного интеллекта в OpenAI:
- LLM как ядро: LLM — это центр всей системы, аналогичный ЦП в традиционной операционной системе, отвечающий за обработку основных задач и координацию других компонентов.
- Система хранения: включая контекстное окно (аналогично ОЗУ), используемое для хранения обрабатываемой в данный момент информации.
- Файловая система: используется для долговременного хранения данных, аналогично традиционному жесткому диску компьютера.
- Базы данных векторов (вложения/базы данных векторов): используются для хранения и извлечения встроенных векторов, которые являются важной основой для LLM для выполнения семантического понимания и поиска.
- Браузер: как одно из периферийных устройств ввода-вывода, он используется для доступа к интернет-ресурсам и получения информации в режиме реального времени.
- Мультимодальные инструменты: поддерживают обработку текста, изображений, аудио и других типов данных.
- Другие инструменты, такие как интерпретаторы кода, калькуляторы и т. д., используются для помощи LLM в выполнении сложных задач.

С самого начала браузеры были тесно связаны с человеческими потребностями с момента их создания, и атрибуты того, что они рождены для людей, присутствуют во всем. Инструменты автоматизации пользовательского интерфейса, на которые полагаются традиционные браузеры (например, Selenium), по сути являются зеркальным моделированием человеческих операций.
В отличие от графических интерфейсов и ручных операций, агентам ИИ необходимо получать доступ к данным и анализировать их с помощью кода для автоматического взаимодействия с веб-страницами. Динамически загружаемый контент, сложные структуры страниц и широкое применение механизмов защиты от сканирования (таких как коды проверки) — все это трудности, которые необходимо решить.
Пол Кляйн, основатель поставщика браузерных услуг Browserbase, также поделился некоторыми техническими идеями:
- Разработайте эффективный браузер с открытым исходным кодом, чтобы сократить время ожидания запуска браузера и количество ресурсов, необходимых для установки, а также повысить скорость работы и удобство развертывания.
- LLM используется для быстрого поиска данных веб-страницы. VLM идентифицирует элементы на основе снимков экрана и поддерживает взаимодействие на естественном языке без сложных сценариев. Он может адаптироваться даже к запутанному или динамическому контенту.
- Предоставьте более надежные инструменты разработки SDK и API, упростите процесс разработки и улучшите работу AI Agent.
Более идеальным состоянием является то, что AI-агент и браузер/веб-сайт должны взаимодействовать напрямую через стандартизированные протоколы, пропуская ссылку визуального взаимодействия, реализуя автоматизированные операции на основе интерфейсов данных (таких как API, базовые протоколы) и выполняя прямое соединение от «человек→интерфейс→данные» к «машина→протокол→данные».
MCP, который часто появлялся в поле зрения общественности в этот период, является решением узкого места традиционной модели «человек → интерфейс → данные». Он соединяет AI-агент (хост/клиент) с внешними ресурсами (сервером) через архитектуру клиент-сервер, заменяя интерфейсные операции протоколами.

Проще говоря, вы можете думать о MCP как о «универсальном интерфейсе», подобном интерфейсу USB-C на компьютере. Этот интерфейс позволяет моделям ИИ легко подключаться к различным внешним ресурсам, таким как файлы, базы данных, онлайн-сервисы и т. д.
Через MCP ИИ-помощник может не только получать данные, но и напрямую работать с ними, например читать содержимое файлов, обновлять записи базы данных и т. д.
Браузеры продолжат служить людям, но будут все больше адаптироваться к потребностям ИИ. Модель сотрудничества, в которой люди отдают приказы, а агенты эффективно их выполняют, станет нормой в будущем.
От раннего интерфейса командной строки (CLI) до графического пользовательского интерфейса (GUI), а теперь переходя к чистому взаимодействию на естественном языке между людьми и машинами и взаимодействию на уровне протокола между машинами, технология становится все более сложной, но методы взаимодействия постоянно упрощаются.
Сейчас началась эра браузеров 2.0, и Интернет еще далек от смерти.
«ИИ не будет существовать в форме приложения и не будет кнопкой. Мы считаем, что это будет совершенно новая среда, построенная на веб-браузере», — говорится на официальном сайте Dia.
# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo