Создавая Labubu с нуля до единицы, MiniMax Agent дал мне представление о том, как будет выглядеть будущее интеллектуальных агентов

В первой половине этого года самым ожидаемым и захватывающим событием станет появление инструментов Agent, которые обещают многое: все эти утомительные, повторяющиеся и отнимающие много времени задачи повседневной жизни теперь можно выполнять, просто перемещая пальцы и набирая несколько подсказок.

Пирог действительно заманчив, но подумайте об этом внимательно: если вы хотите быть действительно полезным, вам необходимо какое-то мышление и планирование, подобное тому, что есть у нас с вами, и даже способность соревноваться с самим собой и размышлять о себе.

Учитывая это, мы провели углубленное тестирование новейшей версии MiniMax Agent, не ограничиваясь оценкой начального уровня, а запустив ее в несколько интересных и сложных, но реалистичных рабочих сценариев, чтобы увидеть, насколько она может быть умной.

О MiniMax Agent я могу сказать только одно: вы можете выполнять работу, играя.

Творческий контент: визуальное повествование за гранью воображения

Компания MiniMax имеет большой опыт работы с мультимодальными моделями, и это преимущество очень полезно для тех, кто хочет создавать креативные работы.

Labubu в последнее время был чрезвычайно популярен, поэтому так уж получилось, что нам пришлось составить план продвижения для Labubu. Звучит сложно, но этот агент вообще не паниковал. Сначала он разработал полный план стратегии продвижения, определил список результатов, создал плакаты в упорядоченном порядке, а затем подготовил рекламные плакаты шаг за шагом.

На протяжении всего процесса MiniMax Agent использует свой мозг для размышлений, вызывая соответствующие инструменты, что делает все плавным и упорядоченным.

Что касается результатов, то они оказались довольно неожиданными: не только визуальная эстетика была в сети, но и вводная часть была четко изложена, и один набор тематических постеров шел за другим. Оказывается, MiniMax Agent не только способен выполнять эту работу, но и имеет немного «вкуса».

Аналогично вы можете продолжить использовать Лабубу в качестве главного героя и позволить MiniMax Agent написать 20-страничную иллюстрированную книгу.

Всего за десять минут MiniMax Agent выполнил рисунок + написание истории + макет веб-страницы в три этапа.

Эффект неожиданно выдающийся, изображения персонажей относительно последовательны, текст и картинки на каждой странице не поверхностны, читать осмысленно и не скучно. Он также поддерживает веб-развертывание, макет разумный, а детали изысканные.

Конечно, мне больше нравится, когда Лабубу меняют на прозвище Маленький Медведь-Зайчик. Звучит мило и радует глаз. С картинками и текстом, подходит и детям, и взрослым.

Производство PPT: не только красиво, но и «резьба»

Одной из главных особенностей этого обновления является возможность создания красивых презентаций PPT, что крайне необходимо работающим людям.

Для MiniMax Agent PPT также является своего рода мультимодальностью. Он выглядит как просто картинки и тексты, но будь то набор текста, планирование контента и организация, он должен иметь тему, идеи, логику и иметь возможность самостоятельно дополнять контент.

Например, разработайте презентацию PPT с объяснением физики для учеников младших классов средней школы:

Или бизнес-отчет для инвесторов:

Проще говоря, создание хорошей презентации PPT — это не просто поиск информации, но и проверка способности фильтровать, шумоподавлять и проводить междоменную корреляцию информации.

Все готовые изделия выглядят великолепно, что заставляет задуматься: что делал MiniMax Agent в процессе производства?

Мы провели тест с использованием маркетинговых исследований PPT, которые обычно насыщены данными и информацией. Это была хорошая возможность увидеть, насколько хорошо PPT понимают данные, выбирают соответствующие диаграммы и представляют результаты.

Прежде всего, он может точно разделять задачи и организовывать контент в соответствии с трехслойной структурой «макет страницы + тип диаграммы + стиль данных», а планирование страниц очень хорошее.

Визуализация не только полностью и всесторонне отображает ключевые точки данных, но и использует соответствующие методы визуализации для их отображения в соответствии с различными характеристиками данных. Анимационный переход всего PPT также очень плавный, естественно выделяя ключевые точки, и даже усилия по тонкой настройке анимации сохраняются.

В окончательном варианте поставки, помимо обязательных документов PPT, были также предоставлены дополнительные веб- и PDF-файлы, а также файлы Markdown.

В целом, агент Minimax обладает очень хорошими возможностями во всей цепочке «понимание-интеграция-рассуждение-генерация-выражение», особенно в некодировании, копирайтинге и бизнес-анализе, и его можно полностью охарактеризовать как «профессиональный».

Аудио на веб-сайте: комплексный интеллектуальный рабочий процесс с контентом

Если картинки и тексты недостаточно продвинуты, то появляется сцена, которая еще больше проверяет способности агента: эта задача требует конвертации формата загруженного аудиофайла, а затем его преобразования в транскрипт с временной меткой. Наконец, на основе контента должна быть создана ментальная карта.

По отдельности эти задачи несложны, но сложность заключается в их совместном выполнении.

Раньше нам приходилось либо осваивать инструменты конвертации, либо тратить время на поиск и пробы различных онлайн-инструментов конвертации. MiniMax Agent может делать это напрямую внутри, что значительно экономит нам усилия по поиску, установке и эксплуатации внешних инструментов.

MiniMax Agent очень эффективен и удобен на протяжении всего процесса. Наиболее интуитивное ощущение — это бесшовное преобразование формата. В окне процесса вы можете видеть, что MiniMax Agent быстро и точно генерирует транскрипты.

Помимо возможности конвертировать аудиоконтент в текст, вы также можете получить глубокое понимание аудиоконтента, что отражено в предоставленной ментальной карте.

Интеллектуальные карты могут не только четко выделить основные идеи и логический контекст аудио, но и точно отразить иерархию и ключевые информационные моменты контента.

Это выходит далеко за рамки простого извлечения ключевых слов и демонстрирует мощные возможности MiniMax Agent по структурированию и визуализации разрозненной информации.

Хотя я и дал требования, я на самом деле не имел ни малейшего представления, как их реализовать. Вместо этого он взял на себя инициативу организовать работу самостоятельно: от установки пакетов зависимостей до запуска сервера, он выполнил работу самостоятельно, без каких-либо забот.

Дизайн пользовательского интерфейса: обучение на практике, эффективный результат

Когда мы действительно возвращаемся к нашей повседневной работе, должны быть задействованы следующие шаги: исследование и понимание – обучение и осмысление – практическая практика. Это самый базовый рабочий процесс для людей. В конце концов, без исследования не будет никаких идей.

Так что, если вы хотите стать хорошим агентом, этот процесс также необходим — он сложен, но необходим.

В следующем примере рассматривается реализация всего процесса: изучение стиля дизайна жидкого стекла Apple iOS 26 и создание аналогичного пользовательского интерфейса.

Очевидно, MiniMax Agent также понимал, что это довольно сложная задача, и составил для себя целый план работы.

Следующий шаг — проектирование, развертывание и написание кода шаг за шагом. Шагов много, но они выполняются упорядоченно, без необходимости вмешательства человека — даже если подумать о поиске «визуально впечатляющих» материалов.

Окончательный вариант поставки включает в себя не только пакет кода, но и веб-сайт для демонстрации результатов всего процесса исследования и визуального отображения результатов в различных измерениях.

Есть даже специальная зона для интерактивного опыта, где можно просто опробовать эффект — он полностью превосходит настройки оригинальной подсказки и даже превосходит поставленную задачу.

Исходный запрос на самом деле очень прост. Сравнивая его с окончательными результатами, мы видим , что MiniMax Agent не только обладает способностью проводить глубокие исследования и выполнять задачи с кодом, но и имеет «собственное понимание» задач .

Глубокое исследование: больше, чем просто поиск, больше рассуждений

Исследование данных — это базовый навык. Это несложно, но это кропотливая работа — особенно при проведении исследований на основе последних новостей, получение информации должно быть максимально расширено.

Судя по цепочке мысли и результатам поставки, эффективность Агента при выполнении этого исследовательского отчета значительно превзошла ожидания: он не только завершил структурированную интеграцию информации, но и продемонстрировал свою способность рассуждать.

В отчете MiniMax Agent не просто перечисляет данные, но и выявляет огромную разницу между размером рынка «сверху вниз» и «снизу вниз» и представляет ее как «важную рыночную информацию».

Очевидно, что простое перечисление информации не может быть названо настоящим «глубоким исследованием». Агентам необходимо выявлять закономерности, тенденции и причинно-следственные связи, лежащие в основе данных, и формировать на их основе ценные «инсайты» и «основные представления» — для этого требуются способности к рассуждению, выходящие за рамки сопоставления текста .

Резюме: Модель в левой руке, Агент в правой руке, MiniMax позволяет мне увидеть, как будет выглядеть будущее интеллектуальных агентов.

Agent — один из самых горячих треков в ИИ в этом году. Все говорят о будущем Agent, но на самом деле существует очень мало инструментов, которые действительно могут превратить Agent из показной демонстрации и «пятиминутной горячей» игрушки в инструмент, способный изменить производительность.

MiniMax, у которого есть собственная модель собственной разработки, выпустила свой собственный продукт Agent, показав нам другой способ игры. После тестирования у нас также появилось новое понимание Agent: то, что определяет опыт Agent, — это не только сама модель, но и невидимая инфраструктура.

Здесь есть одна деталь, которую стоит упомянуть особо: как независимая компания, MiniMax является практически единственным производителем, который может обеспечить полный спектр возможностей для всех видов транспорта.

▲ Модель речи MiniMax Speech-02-HD заняла первое место в списке Artificial Analysis Speech Arena

▲ Видеомодель MiniMax Hailuo 02 заняла второе место в списке Artificial Analysis Video Arena

Большая часть возможностей Агента основана на движке модели, и тенденция «модель как Агент» становится все более очевидной.

На этом этапе преимущества модельных компаний в приложениях ИИ полностью продемонстрированы. Поскольку они напрямую контролируют базовую модель, они могут более эффективно оптимизировать логику планирования, сократить эксплуатационные расходы и построить маховик данных для автономной итерации .

MiniMax — типичный пример этого. По мере улучшения возможностей собственной модели, эксплуатационные расходы агента постоянно оптимизируются, а его производительность существенно повышается.

Сегодня MiniMax открыл исходный код первой в мире крупномасштабной гибридной архитектуры модели вывода MiniMax-M1, которая изначально поддерживает длину ввода в 1 миллион токенов и самый длинный в отрасли вывод в 80 000 выходных токенов. Вычислительная мощность вывода, необходимая для генерации 100 000 токенов, требует всего 25% от DeepSeek R1, что еще больше снизило стоимость моделей вывода.

В то время как другие стартапы по-прежнему обеспокоены высокой стоимостью токенов, MiniMax удалось систематически снижать эксплуатационные расходы Agent за счет увеличения доли собственных моделей, что очень важно для пользователей, желающих иметь непрерывный и стабильный опыт.

Это окончательная интерпретация "Минимизируйте усилия, максимизируйте интеллект". Проще говоря, это означает использование минимальных усилий для получения максимального интеллекта.

Компоновка MiniMax «модель в левой руке, агент в правой руке» позволяет компании найти наилучший баланс между техническими возможностями и ценностью для пользователя и действительно имеет все условия, чтобы выделиться в этом соревновании интеллектуальных агентов.

Мы находимся на беспрецедентном переломном этапе: ИИ превращается из инструмента в сложную интеллектуальную сущность с «мозгом, чувствами, руками и ногами», открывая новое и более крутое пространство для воображения для будущей работы и жизни.

#Добро пожаловать на официальный публичный аккаунт WeChat iFanr: iFanr (WeChat ID: ifanr), где вам будет представлен еще более интересный контент как можно скорее.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo