Компания MiniMax запустила Mavis, сеть агентов, охватывающую фактически “три провинции и шесть министерств”.

Я назначил задачу, и агент активировал режим планирования, выделив 7 шагов.

Я одобрил запрос, и программа запустилась. После трёх шагов она остановилась и сообщила: «Я выполнил шаги 1, 2 и 3, и результаты следующие… Продолжим ли мы шаги 4, 5, 6 и 7?»

Я сказал «продолжать». Программа выполнила еще два шага, а затем снова остановилась: «Я завершил шаги 4 и 5, и результаты таковы и… Продолжим с шагами 6 и 7?»

После целой ночи, когда я попросил агента выполнить несколько долгосрочных задач, никаких долгосрочных результатов не наблюдалось; в диалоговом окне просто продолжало отображаться сообщение «Продолжить».

Это мой давний опыт, я пользовался услугами различных агентов для решения различных задач.

Этот опыт нелогичен. Хотя "остановка для подтверждения" — хорошая рабочая привычка при работе с ИИ, во многих задачах я никогда активно не просил его остановиться, но он все равно останавливался.

В своей последней технической статье в блоге MiniMax объясняет такое поведение своих агентских продуктов «контекстной тревожностью». Основная проблема заключается в том, что сама модель неоднозначно определяет, когда очень длительная задача считается завершенной. Проще говоря, дело не в том, что они не могут это сделать, а в том, что они боятся. Они боятся совершить ошибку на каждом шаге, поэтому останавливаются на полпути и задают вопросы.

Сегодня настольный клиент MiniMax Agent претерпел крупное обновление. Добавлен новый режим под названием Mavis (на самом деле, это сокращение от "MiniMax в роли Джарвиса").

Хорошо известно, что наличие одного агента в роли босса и группы агентов в роли сотрудников — эта традиционная многоагентная модель не является чем-то новым. Однако MiniMax отмечает, что предыдущие распространенные многоагентные модели, по сути, полагались на расположение ключевых слов, чтобы позволить модели играть роль «ролевой игры». Но такой подход недолговечен, поскольку сталкивается с такими проблемами, как контекстная тревога, долгосрочное снижение качества выполнения задачи и проблемы самопроверки, как уже упоминалось ранее.

Многоагентные системы требуют надежной инфраструктуры, которая постоянно работает и поддерживается, и в которой множество агентов не «сговариваются». Именно это и делает MiniMax.

Реальный опыт тестирования: позвольте агенту "придираться" к другой стороне.

В MiniMax свою инфраструктуру командных агентов называют Team Engine, которая включает три основные роли: Лидер, Работник и Верификатор. Как следует из названий, один управляет, другой выполняет работу, а третий проверяет.

Самое существенное различие заключается в том, что Работник и Проверяющий находятся в «конфликтных» отношениях, и ни одному из них это не сходит с рук.

Некоторое время назад APPSO проводила исследование по следующей теме: «Все поставщики моделей, стремящиеся к развитию в области программирования/агентств, должны разрабатывать собственные независимые продукты для программирования/агентов».

(Да, MiniMax и раньше был негативным примером, но, неожиданно, доказал свою состоятельность еще до публикации статьи!)

Поэтому мы снова запустили эту задачу в команде агентов MiniMax.

Эта задача была разделена между 5 работниками. После выполнения своей задачи каждый работник должен был систематизировать результаты и передать их руководителю (с указанием статуса «Мэвис отправлена ​​генералу» или «Генерал отправлен Мэвис» и т. д.).

Рабочий процесс работал 12 минут, не возвращая никаких результатов. APPSO заметила, что лидер начинает терять терпение, поэтому отправила команду bash для проверки его состояния:

После того, как все 5 работников выполнят свои задачи, руководитель формирует 5 верификаторов, которые отображаются в списке задач как агенты в «желтых шляпах»:

Проверяющий быстро обнаружил ошибку! Один из проверяющих выявил явную ошибку в данных, предоставленных соответствующим работником, и выставил штраф в виде «неудачи». Сразу после этого соответствующий работник перезапустился (отображается как работающий, что обозначено маленьким синим кружком).

Щелкните по рабочему пространству соответствующего сотрудника, чтобы проследить ход его мыслей: «Проверяющий отклонил мои предыдущие результаты работы на основании следующих трех ошибок… Мне нужно вернуться и перепроверить ключевые факты, а также проверить и исправить конкретные числовые ошибки…»

И должна сказать, что все агенты бескомпромиссны друг с другом, что делает их действительно надежными в своей работе.

Подобные перепалки повторялись десятки раз в пяти поединках один на один между агентами. В ходе этих сражений Мэвис также сказал, что «узнал что-то новое» и освежил свою память.

Пока выполняется предыдущая задача, мы начнем новое углубленное исследование, анализируя туристический рынок в период майских праздников на основе авторитетных данных и подготовив многомерный аналитический отчет.

Это исследование гораздо сложнее предыдущей задачи. Более того, из-за продолжающегося противостояния, команда агентов тратит на углубленное исследование значительно больше времени, чем обычный отдельный агент.

Однако итоговый отчет действительно оказался гораздо более четким и заслуживающим доверия по сравнению с другими результатами углубленных исследований в области ИИ.

В последнее время APPSO активно готовится к многочисленным офлайн-мероприятиям, и планирование и разработка решений всегда представляли собой непростую задачу. Мы также поручили эту задачу компании Mavis, чтобы посмотреть, как всё пойдёт.

Мне нужно организовать офлайн-мероприятие для разработчиков ИИ в Гуанчжоу. Пожалуйста, предоставьте мне как можно больше подходящих площадок для технологических мероприятий с сотнями или тысячами участников, а также приблизительные цены и информацию о подобных мероприятиях. Затем, пожалуйста, помогите мне спланировать тематику, продвижение и организацию этого мероприятия по ИИ, составив из всего этого подробный бизнес-план, а также красиво оформленный веб-сайт, соответствующий тематике.

Сам процесс планирования занял больше времени, чем предыдущие углубленные исследовательские задачи. Мэвис ответила: «Эта задача масштабна и требует параллельной работы нескольких специалистов: исследование сайта, анализ конкурентов, планирование тематики, бизнес-план и разработка веб-сайта».

Сила Mavis заключается в ее способности постоянно добавлять новые требования:

В дополнение к подробному отчету, было бы желательно также составить предварительный официальный договор, включающий договоры о сотрудничестве с местом проведения мероприятия, о сотрудничестве с приглашенными гостями и другие возможные договоры, а также предварительную финансовую отчетность. Кроме того, пожалуйста, предоставьте презентацию в PowerPoint, демонстрирующую этот план, чем подробнее он будет, тем лучше.

Получив новые требования, команда агентов доработала план и запустила больше рабочих процессов. В итоге мы запустили целых девять параллельных задач.

Если мы рассмотрим ход мыслей Мэвис, то увидим большое количество сообщений, отправляемых между агентами. Эти агенты работают под управлением выделенного командного механизма, передавая друг другу информацию о своем статусе: одни ожидают, другие выполняют операцию, а третьи проверяют.

Посмотрите на этот верификатор, разве он не похож на придирчивого «клиента»?

В итоге в результате выполнения всей задачи было получено поразительное количество файлов — 10 и более, включая файлы форматов xls, ppt, HTML-страницы и соответствующие версии в формате .md.

▲ Электронная таблица финансового бюджета, созданная Agent Team, включает в себя сводку бюджета проекта, прогнозы движения денежных средств, модели ценообразования билетов и спонсорских пакетов, а также подробную ведомость затрат.

Далее поговорим о еще одной важной особенности Mavis: она может подключаться к чат-платформам и поддерживает многозадачность.

Подобно OpenClaw и Hermes Agent, которые уже поддерживаются MiniMax, Mavis также может назначать задачи через WeChat и Lark, две платформы для обмена мгновенными сообщениями. Процесс интеграции чрезвычайно упрощен: достаточно нажать кнопку настроек, отсканировать QR-код и назвать приложение, и вы сможете использовать Mavis в WeChat/Lark.

Когда обычный агент подключается к системе мгновенных сообщений, и мы назначаем ему задачу, выполнение которой занимает много времени, это часто означает, что после отправки сообщения мы больше не можем обращаться к нему по другим вопросам.

Одна из причин заключается в том, что эти агенты не могут открывать несколько диалоговых окон одновременно; другая причина — ограничение режима работы агента. Выполнение нескольких задач в рамках одной сессии может легко привести к контекстной путанице и загрязнению информации.

Решение MiniMax заключается в разделении логики «мгновенного ответа» и «выполнения».

Я поручил компании APPSO провести исследование недавнего скачка цен на нефть в Lark; после начала работы над заданием я также поручил ей исследовать важные продукты, выпущенные гигантами ИИ из Кремниевой долины за последний месяц.

Мэвис не стала прерывать предыдущее задание, а вместо этого сообщила мне, что новое задание уже выполнено, в то время как задание, касающееся роста цен на нефть, всё ещё находится в обработке.

Это еще один ключевой принцип проектирования Mavis: преимущества контекстной изоляции.

Каждая группа агентов и каждый агент в составе группы видит только краткое изложение информации, относящейся к их собственной миссии, и читает полный текст только тогда, когда необходимы подробности.

Этот подход имеет два преимущества: во-первых, он позволяет контролировать стоимость токенов, предотвращая быстрое переполнение контекста даже при большой команде; во-вторых, он предотвращает загрязнение контекста, гарантируя, что неверная информация, обнаруженная агентом во время поиска, не приведет к уничтожению всей команды.

В самом экстремальном случае мы попытались назначить ему 8 задач за очень короткое время с помощью Lark, и случаев путаницы в контексте не возникло.

Весь процесс очень похож на работу с коллегой, обладающим чрезвычайно высокой когнитивной пропускной способностью: он не только может мгновенно отвечать на сообщения, но и работать в фоновом режиме, не отвлекаясь. Если вы хотите узнать о ходе работы, вы можете просто спросить напрямую, не опасаясь нарушить его «состояние потока».

Агенты, обрабатывающие разные сессии, видят только информацию, относящуюся к их собственным задачам, и не обмениваются данными о постоянно расширяющейся истории разговора.

Вкратце, Mavis обеспечивает сквозную контекстную изоляцию, от канала обмена мгновенными сообщениями до центра обработки задач, а затем до каждого молекулярного агента в молекулярной задаче.

Наконец, отвечая на вопросы о новых продуктах искусственного интеллекта, выпущенных в этом месяце крупными компаниями, занимающимися ИИ, и важных продуктах, воплощающих интеллект, доклад также успешно завершил основную часть миссии, посвященной нефти, предоставив нам подробный отчет, в котором даже упоминалась недавняя новость о том, что упаковка японских картофельных чипсов станет черно-белой.

После тестирования вы заметили, что стратегия расстановки сил у Мэвис чем-то похожа на популярный некоторое время навык «Три провинции и шесть министерств»?

Действия каждого персонажа, момент начала его работы и момент передачи управления будут определяться конечным автоматом на уровне движка, а не «черным ящиком» модели, принимающей собственные решения.

Короче говоря, это означает использование управляемости, строгости и детерминизма на инженерном уровне при организации работы многоагентных систем для фундаментального решения проблем неуправляемости и случайности модели.

Этот подход полностью решает классическую проблему, существовавшую в прошлом, когда агенты/модели "выступали одновременно и в роли арбитров, и в роли игроков".

Единые кредитные лимиты, широкая доступность агентов.

После тестирования Mavis давайте поговорим о другом, не менее важном нововведении MiniMax, которое затрагивает всех платящих пользователей: на этот раз планы Token Plan и Agent Plan были объединены.

После слияния, будь то для «повседневного использования» обычными пользователями, например, для общения и использования Agent на официальном веб-сайте и в приложении, или для доступа к официальному API для вызова других инструментов (таких как продукты для программирования или OpenClaw/Hermes Agent), теперь можно использовать единый тарифный план. Более того, в этот единый план включены как модели M2.7 и последующие флагманские модели, так и мультимодальные модели для музыки, видео и голоса.

Все кредитные лимиты являются общими, и пользователи могут сами решать, как их потратить. MiniMax также предлагает бонус: пользователи, которые ранее одновременно подписывались на два тарифных плана, получат дополнительный месяц членства.

Зачем это делать? С точки зрения пользователя, это вполне разумно.

Проще говоря, в эпоху агентов мотивация пользователей платить обусловлена ​​потребностью в «вычислительной мощности моделей». По мере совершенствования моделей в области программирования, агентских и мультимодальных возможностей, сценарии удовлетворения этих потребностей будут становиться все более разнообразными и естественным образом возникать как в продуктах поставщиков моделей (официальный веб-сайт, независимые продукты, CLI), так и за пределами продуктов (независимо развернутые агенты, обращающиеся к внешним API).

На самом деле, с этой проблемой сталкиваются все крупные гиганты в сфере ИИ: OpenAI в настоящее время разделяет пользовательские подписки и оплату API, как и Anthropic; что касается небольших стартапов, занимающихся разработкой агентов, они используют собственные абонентские платежи для оплаты базовых сборов API, вместо того чтобы пользователи сами их оплачивали.

На этот раз MiniMax взяла на себя инициативу по разрушению внутренних барьеров своей продуктовой матрицы. APPSO считает, что на современном рынке, где доминируют товары массового потребления и пользователи всегда стремятся к новейшим и дешевым API для моделей, эта стратегия унифицированных пакетов фактически помогает производителям моделей поддерживать лояльность пользователей.

Вернемся к самому продукту.

Как уже упоминалось ранее, APPSO пишет статью о том, что «поставщики моделей, серьезно относящиеся к программированию/агентам, должны разрабатывать собственные продукты для программирования/агентов». Можно сказать, что MiniMax появился с опозданием, но он не так уж далек от успеха.

Сегодня Mavis — не первый продукт, сделавший ставку на многоагентную архитектуру. За последние шесть месяцев к этой «многоагентной» войне присоединились такие компании, как ChatGPT, Manus и Genspark.

После завершения фактического тестирования у APPSO сложилось впечатление, что Mavis показала лучшие результаты и обладала более стабильной архитектурой, чем конкуренты, с точки зрения «способности продукта самостоятельно выполнять чрезвычайно сложные/долгосрочные задачи». В то время как многоагентные подходы других продуктов ограничивались упорядочиванием слов-подсказок и разделением задач, Mavis реализовала жесткие ограничения, основанные на противодействии на инженерном уровне, — полученная разница оказалась весьма существенной.

Однако, несмотря на многообещающий внешний вид этой архитектуры, существует неизбежная реальность: она дорога.

В своем техническом блоге MiniMax представила концепцию «стоимости консенсуса». Проще говоря, хотя несколько агентов «проверяют и уравновешивают» друг друга, делая процесс и результаты более надежными, процесс достижения консенсуса имеет свою цену, при этом потребление токенов в несколько раз превышает потребление одним агентом; более того, как и в споре, вступление в жаркий спор может привести к отклонению от темы, и точность может даже снизиться, а не повыситься.

Согласно анализу MiniMax, архитектура Agent Team в её системе включает три типа затрат:

Во-первых, это затраты на передачу. При передаче информации между агентами её необходимо реорганизовывать. Каждая передача требует «перевода» информации в форму, пригодную для использования следующим агентом, что потребляет токены.

Во-вторых, существует стоимость обмена (контекстной информацией). Контекстная изоляция призвана в некоторой степени контролировать эту стоимость. Однако, даже если каждый агент просматривает только «сводку», передаваемую от других агентов, по мере увеличения размера команды агентов хранение и распространение сводок все равно будут влечь за собой затраты.

В-третьих, это стоимость агрегации. APPSO всегда подчеркивала этот момент: не стоит предполагать, что рабочий процесс с сотнями или тысячами навыков и чрезвычайно сложной системой «трех провинций и шести департаментов» — это идеальное решение, зачастую это не так. На самом деле, вы можете попасть в ловушку, расставленную поставщиками токенов… Вы можете сделать работу более детальной, но вам также потребуется потратить больше токенов на агрегацию и организацию конечных результатов.

Совокупность этих затрат означает, что наличие нескольких агентов никогда не сводится к простому принципу «чем больше агентов, тем лучше».

Однако, с другой точки зрения: чем сложнее обмен информацией в задаче, тем выше её ценность. Тщательный исследовательский отчёт, требующий многочисленных проверок и повторных анализов, и простой вопрос не должны оцениваться по той же логике. Mavis дорога из-за своей скрупулёзности, и эти тщательно выполненные задачи стоят своих денег.

Они скорее потратят больше денег, чтобы всё прошло идеально, чем сделают работу некачественно; именно это ценят высокоприоритетные пользователи, работающие над сложными задачами.

Разумеется, команда MiniMax также занималась инженерными разработками, чтобы избежать неэффективного использования токенов, вызванного избыточностью программы.

MiniMax советует пользователям использовать команды агентов для решения «дорогостоящих и сложных» задач; это стратегический вариант, а не вариант по умолчанию. Пользователям следует оценивать сложность задачи, длительность рабочего процесса, риски и ценность повторного использования опыта — чем выше эти факторы, тем целесообразнее использовать команды агентов. И наоборот, можно использовать одного агента или даже обычный чат.

Означает ли наличие большего количества агентов обязательно более высокий уровень интеллекта? Вовсе нет. Но значимость Mavis заключается в том, что она позволяет решать действительно сложные, ресурсоемкие задачи с помощью проверенной инженерной системы с механизмами противодействия, проверкой, четким разделением обязанностей и системами поощрения/наказания, вместо того чтобы позволять модели принимать решения самостоятельно.

Это, возможно, не сделает ИИ умнее, но определенно затруднит проявление нерадивости в работе ИИ, что является давней проблемой для самих крупных моделей.

В конце концов, в реальной работе с межличностными контактами нам совсем не нужно, чтобы наши коллеги были очень умными… просто не ленитесь и не пытайтесь казаться умными, этого часто бывает достаточно, не так ли?

Ду Чэнь и Чжан Цзыхао

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.