Только что OpenAI выпустила ChatGPT-версию Manus! Ultraman: почувствуйте момент AGI.

За последние полгода Agent стал одной из наиболее часто упоминаемых концепций в индустрии ИИ.

Практически все производители говорят об Agent. Концепций и демонстраций предостаточно, но для полноценной реализации на уровне продукта всегда не хватает полноценной системы исполнения — такой, которая могла бы понимать сложные цели, использовать несколько инструментов для объединения процессов задач и поддерживать прерывание, изменение и восстановление задач в любой момент, полностью подстраиваясь под рабочий процесс пользователя.

Только что OpenAI официально выпустила функцию ChatGPT Agent.

Благодаря интеграции Operator + Deep Research + онтологии ChatGPT пользователям достаточно лишь описать задачу, а ChatGPT Agent может самостоятельно определять необходимые инструменты, автоматически получать доступ к веб-страницам, извлекать информацию, запускать код, генерировать слайды или таблицы и т. д., а также отображать шаги в реальном времени, принимать прерывания и изменять инструкции во время выполнения.

После конференции генеральный директор OpenAI Сэм Альтман написал в социальных сетях:

Наблюдение за тем, как ChatGPT Agent использует компьютеры для выполнения сложных задач, стало для меня настоящим моментом «почувствовать AGI»: было что-то особенное в том, чтобы видеть, как компьютер думает, планирует и выполняет действия.

Основные моменты следующие:

  • ChatGPT Agent объединяет оператора, глубокие исследования и онтологию ChatGPT в единое целое для создания единой интеллектуальной агентской системы.
  • Встроенный графический/текстовый браузер, терминал и API-вызов, а также другие инструменты, поддержка использования мобильных телефонов и автоматическая отправка результатов после завершения задачи;
  • Может подключаться к сторонним приложениям, таким как Gmail и GitHub, глубоко встроенным в реальный рабочий процесс пользователя;
  • Его общая производительность лидирует в нескольких тестах и входит в число лучших в отрасли;
  • Пользователям Pro предоставляется ежемесячная квота в 400 вызовов, а другим платным пользователям — 40 вызовов. Квоту можно расширить по запросу.

Агент ChatGPT официально запущен, он может совершать покупки и создавать презентации PPT, ваш браузер будет управляться искусственным интеллектом

Начиная с сегодняшнего дня вы можете включить эту функцию в любом разговоре, выбрав «Режим агента» в раскрывающемся меню «Инструменты» в левом нижнем углу интерфейса чата.

Просто опишите задачу, которую вы хотите выполнить, и ChatGPT интеллектуально просмотрит сайт, отфильтрует результаты, безопасно предложит вам войти в систему при необходимости, запустит код, выполнит анализ и даже выведет редактируемые слайды и электронные таблицы, обобщающие результаты задачи.

Весь процесс выполнения визуален — этапы операции отображаются на экране в режиме реального времени, и пользователи могут прерывать ее, изменять инструкции или даже вручную «перехватывать управление браузером», чтобы продолжить операцию в любой момент, гарантируя, что задача всегда соответствует вашим целям и потребностям.

На демонстрации сегодня рано утром компания OpenAI продемонстрировала возможности применения ChatGPT Agent в реальных сценариях.

Например, подготовка к предстоящей свадьбе всегда была непростой задачей. Теперь достаточно отправить запрос, и ChatGPT Agent быстро создаст виртуальную среду, самостоятельно определит, следует ли вызывать браузер, текстовый парсер или терминал, и начнёт получать дату свадьбы, проверять погоду на месте проведения, рекомендовать костюмы и подбирать отели. В ходе этого процесса модель может взаимодействовать с исследователями OpenAI и запрашивать подтверждение требований у соответствующих узлов.

Что еще важнее, пользователи могут прервать задачу в любой момент.

Например, когда агент рекомендовал костюм, исследователь OpenAI временно вставил запрос: «Помогите мне найти пару чёрных туфель 9,5 размера». Модель немедленно приостановила текущую задачу и переключилась на обработку нового запроса.

Аналогичным образом, агент будет заблаговременно запрашивать у вас дополнительную информацию, когда сочтет это необходимым, гарантируя, что задача всегда соответствует вашим целям. Если задача выполняется дольше, чем ожидалось, или зависает, вы можете приостановить её выполнение, запросить отчёт о ходе выполнения или просто завершить её и получить уже имеющиеся частичные результаты.

«Этот прерываемый, многораундовый механизм разговора является одним из ключевых моментов обучения нашей модели на этот раз», — пояснил исследователь OpenAI.

В основе этой возможности лежит унифицированная интеграция трех основных систем ChatGPT Agent: Operator обеспечивает возможности взаимодействия с веб-страницами, поддерживая автоматическую прокрутку, щелчки и заполнение форм; Deep Research отличается интеграцией и анализом информации; а онтология ChatGPT отвечает за понимание естественного языка и интеллектуальные рассуждения.

ChatGPT Agent обучается решению сложных задач с помощью обучения с подкреплением. Ранее у всех трёх были свои недостатки: первый затруднял проведение глубокого анализа, а второй не позволял управлять веб-страницами. Агент объединяет преимущества всех трёх в один и дополняется такими инструментами, как браузеры, терминалы и API-вызовы, формируя полноценную систему выполнения.

Пользователи могут запустить режим агента не только на настольном компьютере, но и на мобильном телефоне.

После выполнения задачи уведомление о результате будет отправлено автоматически. Во втором демонстрационном задании исследователи OpenAI загрузили шаблоны наклеек с изображением талисмана команды Берни Дудла в приложение ChatGPT. Агент автоматически вызвал API генерации изображений для разработки стиля наклейки, подключился к платформе электронной коммерции через браузер для сравнения цен, выбора стиля и добавления в корзину, а затем, наконец, упорядочил детали заказа для создания индивидуальных наклеек.

Конечно, чтобы гарантировать безопасность, гибкость, понятность и контролируемость процесса, когда дело доходит до оплаты суммами, пользователю нужно будет только вручную управлять браузером для ее завершения.

С помощью коннекторов пользователи также могут подключать к ChatGPT повседневные приложения, такие как Gmail и GitHub, что позволяет модели считывать контекстный контент, такой как электронные письма, календари или репозитории кода, а также выполнять такие задачи, как подведение итогов содержимого сегодняшнего почтового ящика или поиск свободного времени для встречи на следующей неделе.

Более типичный сценарий применения заключается в том, что исследователи OpenAI могут позволить агенту ChatGPT обобщить результаты своих тестов в нескольких тестах и превратить их в слайд-шоу. После получения команды агент обратится к коннектору Google Drive для чтения файла данных, напишет код в терминале для построения диаграмм и сгенерирует полноценный PPT-документ.

Этот тип возможностей автоматизации является отражением глубокой интеграции Agent в рабочий процесс.

Однако можно заметить, что дизайн PPT-документа, сгенерированного ChatGPT Agent, в целом посредственный. Более того, хотя электронные таблицы можно загружать для редактирования в ChatGPT или использовать в качестве шаблонов, сгенерированный PPT-документ в настоящее время не поддерживает вторичную модификацию.

Следует отметить, что OpenAI не позволяет агенту открывать файлы PPT или Excel, как человек, и вставлять текстовые поля и формулы щелчками, а напрямую генерирует код для создания документов. Преимущество такого подхода заключается в том, что он позволяет использовать естественные преимущества модели при написании кода, избегать неэффективности и ошибок, вызванных имитацией щелчков, и снижать потребление вычислительных ресурсов.

В информации сообщается, что если ChatGPT хочет напрямую редактировать файлы PPT или Excel, ему необходимо запустить «виртуальную машину» (то есть виртуальную компьютерную среду, работающую через ChatGPT), что потребует больше вычислительных ресурсов.

Генерация кода напрямую проще и эффективнее. Несмотря на большой потенциал, эта функция вряд ли сможет оказать влияние на Microsoft Office или Google Workspace в краткосрочной перспективе.

Пользователи версий Pro получат доступ к функции ChatGPT Agent уже сегодня; пользователи версий Plus и Team смогут получить к ней доступ в течение ближайших нескольких дней; версии Enterprise и Education станут доступны в ближайшие недели.

Пользователи Pro могут использовать 400 сообщений в месяц, а другие платные пользователи могут использовать 40 сообщений в месяц и могут приобрести больше с помощью гибкого кредитного плана.

Рекорды «текущего счета» обновляются по всем направлениям, и поле боя Агента приветствует сильнейшего противника.

Улучшение возможностей ChatGPT Agent также отражено в ссылке «текущий счет».

На последнем экзамене человечества (HLE), тесте для оценки способности ИИ решать междисциплинарные задачи экспертного уровня, модель ChatGPT с агентом установила новый рекорд, сдав экзамен на 1 балл (pass@1) на уровне 41,6. После включения стратегии параллельного выполнения этот показатель улучшился до 44,4.

В FrontierMath, который в настоящее время считается самым сложным математическим тестом, решающим чрезвычайно сложные и никогда ранее не публиковавшиеся вопросы, ChatGPT Agent достиг точности 27,4%, имея при этом возможности терминального выполнения кода, что значительно выше, чем у предыдущих моделей.

В ходе внутренних контрольных испытаний этой сложной и высокоценной задачи по обработке знаний ChatGPT Agent продемонстрировал качество вывода, которое соответствовало или превосходило человеческий уровень примерно в половине задач и показало результаты значительно лучше, чем модели o3 и o4-mini.

Агенты ChatGPT также значительно превзошли модели Deep Research и o3 во внутреннем бенчмарке задач моделирования инвестиционного банкинга. Каждая задача оценивается по сотням критериев, таких как корректность формул и форматирование.

Кроме того, в бенчмарке BrowseComp, публично оценивающем возможности моделей в области поиска информации, Agent установил новый рекорд с точностью 68,9%, что на 17,4 процентных пункта выше, чем у Deep Research. В тесте WebArena его способность выполнять задачи на веб-страницах также превосходит модель CUA на основе o3.

С точки зрения платформы базовым интерфейсом возможностей Агента является браузер.

В недавнем интервью генеральный директор Perplexity AI Аравинд Шринивас заявил, что браузер станет «убийственным приложением» для ИИ. По его мнению, браузер изначально обладает всеми необходимыми условиями, чтобы заставить ИИ по-настоящему «двигаться».

В отличие от традиционных чат-ботов, идеальная форма ИИ-агента — не генерация текста в диалоговом окне, а выполнение практических действий — от доступа к веб-страницам, извлечения информации, заполнения форм до выполнения кроссплатформенных операций. Для всего этого браузер имеет необходимые разрешения и возможности получения контекста.

Браузер может напрямую читать страницы, имитировать клики и автоматически выполнять задачи практически без дополнительной авторизации.

В этом процессе пользователи и ИИ сосуществуют в одном интерактивном пространстве: ИИ может автоматически выполнять задачи, а пользователи могут в любой момент прервать их или взять на себя управление, чтобы избежать неопределенности, связанной с операциями «черного ящика». Такая управляемость и прозрачность — это то, чего многим современным контекстным протоколам все еще сложно достичь.

Теперь, с официальным запуском функции ChatGPT Agent, всем производителям, выдающим себя за агентов, возможно, придется пересмотреть пути прохождения своих продуктов.

Когда ChatGPT трансформировался из инструмента языкового взаимодействия в систему исполнения с возможностями совместной работы, планирования и постановки задач и начал подключаться к реальным рабочим процессам пользователей, порог удобства использования Agent существенно повысился в этот момент.

#Добро пожаловать на официальный публичный аккаунт WeChat проекта iFanr: iFanr (WeChat ID: ifanr), где в ближайшее время вам будет представлен еще более интересный контент.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo