Тестирование MiniMax M2.7 в реальных условиях: когда искусственный интеллект начинает действовать всерьез, он даже сам допускает ошибки.

После того, как омар стал хитом, весь интернет сосредоточился на вопросе «как его использовать» — локальное развертывание или облако, установка в один клик или установка через командную строку, подключение к WeChat или Lark… Вместо этого никто всерьез не задал старый вопрос: достаточно ли «мозг», управляющий омаром?
В этом нет ничего удивительного. Новые модели, недавно выпущенные OpenAI и Google, представляют собой версии Mini или Flash, и официальный вывод практически очевиден: они специально разработаны для агентов, потребляющих большое количество токенов.
Ограничения возможностей модели стали наименее обсуждаемой темой.

Для создания действительно подходящей модели для лобстеров требуется не только большое количество доступных, сытных и недорогих жетонов, но и достаточно умная модель с развитыми практическими навыками и способностью к обучению.
Недавно компания MiniMax официально представила новую модель MiniMax M2.7, которая ориентирована на « обеспечение саморазвития ИИ » и является « самой мощной моделью агента для коворкинга ». Она способна справляться с работой по программированию и стандартными офисными задачами, а также активно обучаться для создания стабильной системы агентов.

В частности, она способна выполнять более широкий спектр задач, чем большинство моделей . При написании кода M2.7 действительно понимает, что происходит с системой во время выполнения, достигая уровня системного анализа SRE (Site Reliability Engineering): анализ журналов, сопоставление временных рамок, определение первопричин и предоставление приоритетных решений. Новая модель показала производительность 56,2% на SWE-Pro, почти сравнявшись с Opus 4.6.
В офисных условиях этого достаточно . Для сложного редактирования и многократных правок документов Excel, Word и PowerPoint M2.7 демонстрирует значительное улучшение, особенно в сценариях, требующих специальных знаний и стандартизированного форматирования, таких как финансовый анализ. Хотя он не может полностью заменить профессионалов, он вполне адекватен в качестве вспомогательного инструмента в рабочих процессах.
Она не "сломается" при взаимодействии нескольких агентов . Эта возможность была специально отточена в версии M2.7, с четкими границами в сценариях с несколькими ролями, и она по-прежнему может поддерживать чрезвычайно высокий уровень соответствия командной строке даже в сложных средах, содержащих более 50 навыков.
Затем следует ключевой момент этого обновления: оно начинает участвовать в самооптимизации . MiniMax заявляет, что M2.7 — это их первая модель, которая глубоко участвует в собственной итерации, не просто «помогая в итерации», а «глубоко участвуя в собственной итерации». Способная к саморазвитию, M2.7 может автономно изменять Agent Harness для обработки большей части рабочего процесса.
Улучшенные результаты в реальных условиях тестирования также позволили MiniMax M2.7 быстро подняться в рейтинге Lobster после своего выпуска, заняв четвертое место в списке устройств с наивысшим баллом.

▲Таблица лидеров PinchBench — это бенчмарк для оценки моделей, разработанный специально для OpenClaw. Он проверяет производительность больших моделей в реальных бизнес-сценариях OpenClaw. На изображении показан показатель успешности выполнения задач. MiniMax M2.7 занимает четвертое место после Claude Opus 4.6. | https://pinchbench.com/
Мы также интегрировали модель MiniMax M2.7 и MaxClaw от MiniMax в Claude Code и локально развернутую систему Lobster, а затем передали ей все ошибки, трудоемкие финансовые данные и большое количество длительных задач, возникающих в процессе разработки.
После двух дней тестирования мы обнаружили, что не только программное обеспечение нуждается в переработке для работы с ИИ, но и сама модель ИИ, помимо понимания намерений человека и выдачи результатов, удовлетворяющих людей, должна также понимать, как работает ИИ и его рабочий процесс, и научиться оптимизировать себя .
Использование рабочих процессов ИИ в качестве человеческих помощников
После того, как такие фреймворки для ИИ стали популярными, как OpenClaw, истинный «рабочий процесс эпохи ИИ» должен заключаться в том, что ИИ выступает в качестве центрального операционного узла, вызывая десятки инструментов, управляя другими членами команды ИИ и даже оптимизируя собственный код ИИ.
Прежде чем тестировать, как MiniMax M2.7 развивается самостоятельно, я хочу сначала рассмотреть его рабочий процесс на основе ИИ. Действительно ли это полезная модель агента, или она хороша только для сравнительных тестов, но разочаровывает в реальном использовании?
Мы загрузили исторические данные о фондовом рынке с известного сайта конкурса по машинному обучению Kaggle, а затем, как того требовал конкурс, дали команду MiniMax M2.7 выполнить соответствующую обработку данных и создание признаков на основе предоставленных данных для генерации отчета с визуальным анализом.
Набор данных довольно большой, содержит более 3000 строк табличных данных, общий размер файла составляет 446,35 МБ. После загрузки пяти файлов с табличными данными на наш локальный компьютер мы использовали Claude Code, интегрированный с MiniMax M2.7, для выполнения этой задачи.

Для эффективного проведения этого анализа необходимы следующие шаги: аналитик данных для очистки и организации данных; макроаналитик для получения информации о соответствующих финансовых рынках; статистический аналитик для завершения первоначального математического моделирования; инженер-алгоритмист для построения соответствующей модели; и, наконец, веб-инженер для создания решения по визуализации.
Столкнувшись с такой сложной задачей, MiniMax M2.7 в полной мере использовал различные установленные мной функции. Сначала он использовал файл xlsx, предоставленный Anthropic, для чтения информации из табличной структуры данных, а затем начал писать код на Python для автоматической установки библиотеки Pandas (часто используемой для обработки табличных данных), выполняя действия шаг за шагом.

Наконец, MiniMax M2.7 также предоставил комплексное решение для визуализации, которое одновременно генерирует несколько изображений для отображения распределения доходности, важности и рейтинга категорий различных характеристик, а также исчерпывающую панель мониторинга.

На визуализированной веб-странице используется библиотека Streamlit для прямого преобразования скрипта данных в интерактивную веб-систему, где вся информация может отображаться динамически.

Компания MiniMax способна успешно выполнять задачи таких масштабных проектов, не говоря уже о наших повседневных офисных и программистских задачах.
Сначала мы запустили приложение Lobster на телефоне, попросив его обобщить файлы, которые у меня были на компьютере. Затем мы попросили MiniMax M2.7 составить на основе этих файлов документ Word с планом исследования, организовать документ Excel с соответствующими статьями и, наконец, создать документ PPT для групповых встреч — всё это можно было сделать прямо на телефоне.

▲Омар, подключенный к системе MiniMax M2.7, может быстро реагировать на спрос.

▲Работа с пакетом офисных программ теперь стала проще простого.
Благодаря своим преимуществам в офисной сфере, MiniMax M2.7 также получил оценку ELO 1495 в тесте GDPval-AA, который измеряет профессиональные знания и способность к выполнению задач, что является наивысшим показателем среди отечественных моделей.
Некоторое время назад панель визуализации для ИИ-помощников стала вирусной, разместив лобстера в реалистичном офисе в стиле аниме и позволив пользователям установить OpenClaw одним предложением. Мы также успешно создали для этого лобстера от Appso собственный дом, но что, если я захочу изменить планировку комнаты в стиле аниме? Пусть этим займется MiniMax.

В визуальном локальном интерфейсе OpenClaw мы можем напрямую отправить запрос "Как изменить стиль этого маленького домика?", и MiniMax M2.7 автоматически прочтет код проекта и сообщит нам, какие части можно изменить и как это сделать.

Поскольку я требовал оформления в стиле редакции научно-технического издания, в итоге его изменили на постер по мотивам «Звездных войн» и добавили дюжину человек, сидящих за компьютерами и печатающих текст.
Однако, поскольку мы не настроили API-ключ Nano Banana Pro в OpenClaw, MiniMax M2.7 автоматически выбрал метод генерации простых изображений на основе кода в OpenClaw.

Затем, пообщавшись с ним, мы сможем разработать игру в жанре «редакционный магнат» в этом стиле. Тот, кто выполнит больше заданий, получит больший офис и сможет повысить свой уровень.

Если это официальная версия MaxClaw от MiniMax, она напрямую поддерживает многомодальную генерацию и может создавать видео, аудио, изображения и т. д. за один шаг без необходимости настройки каких-либо дополнительных API.
Мы использовали официальный инструмент для создания GIF-стикеров, чтобы сгенерировать несколько мемов с Маском. MaxClaw, развернутый в облаке, обеспечивает достаточно безопасную среду выполнения, но не позволяет нам произвольно устанавливать различные файлы библиотек, как это было бы на локальном компьютере.
Наконец, при преобразовании видео в GIF, MaxClaw напомнил мне, что у него недостаточно прав для установки ffmpeg (библиотеки обработки мультимедиа с открытым исходным кодом) на облачном сервере.

▲В рамках MaxClaw вы можете напрямую использовать MiniMax M2.7, который автоматически вызывает модели генерации видео, аудио и изображений, такие как Conch, для создания мультимедийных файлов без необходимости настройки специального ключа API.
Нажав на кнопку «Навыки» в нижней части диалогового окна MaxClaw, вы увидите подробную информацию обо всех навыках, установленных в MaxClaw. Нажав «Спросить MaxClaw», вы автоматически получите сообщение «Расскажите, что умеет frontend-dev и как это использовать», которое проведет вас через процесс обучения использованию этого навыка.

Помимо навыка генерации GIF-анимации, MiniMax также предоставляет библиотеку навыков, включающую фронтенд-разработку, бэкенд-разработку, разработку приложений для Android и iOS, а также технологию шейдинга GLSL для создания потрясающих визуальных эффектов. Мы можем напрямую отправить запрос «Можете ли вы помочь мне установить навыки из этого проекта https://github.com/MiniMax-AI/skills» в Lobster, и Lobster автоматически получит документацию по навыку и завершит установку.

▲Ссылка для скачивания: https://github.com/MiniMax-AI/skills
Когда искусственный интеллект становится действительно сложным, он может даже вмешаться сам.
Помимо полноценного рабочего процесса и реальных возможностей применения в повседневной работе и офисной среде, больше всего нас впечатлила в MiniMax M2.7 его " самоитеративная замкнутая система моделирования ".
В MiniMax однажды упомянули, что исследователям-людям нужно лишь контролировать общее направление, а задачу построения системы оставить модели, которая затем сможет автономно создать среду разработки в качестве архитектора решений.
«Агентский модуль» можно рассматривать как слой операционной инфраструктуры, окружающий ИИ-агента. Модель отвечает за мышление, а модуль — за превращение этого «мыслящего» объекта в систему, способную стабильно выполнять задачи. Эта система выступает в качестве операционного слоя, отвечающего за обеспечение стабильной работы агента в реальной среде.

Чтобы проверить пределы возможностей M2.7, компания MiniMax поручила ему оптимизировать производительность разработки программного обеспечения внутренней системы генерации кода. Результат? M2.7 выполнил итеративный цикл из более чем 100 итераций без какого-либо вмешательства человека.
Программа анализирует собственную траекторию сбоев, планирует собственные модификации, повторно запускает оценку после внесения изменений в исходный код и, наконец, сравнивает результаты, чтобы решить, оставить ли их или откатить. Благодаря этой неустанной внутренней борьбе она находит оптимальное решение, в конечном итоге приводящее к увеличению производительности на 30% на оценочном наборе данных.
Способность ИИ проводить научные исследования также была подтверждена на общедоступных тестовых наборах. MiniMax M2.7 был протестирован на тестовом наборе MLE Lite в Kaggle, крупнейшем в мире конкурсе по машинному обучению.

В M2.7 представлено 22 сложные задачи для соревнований, и программа использует свои внутренние файлы кратковременной памяти и механизм самообратной связи для предоставления рекомендаций по оптимизации после каждого запуска.
В течение 24 часов команда завоевала 9 золотых, 5 серебряных и 1 бронзовую медаль, что составляет 66,6% от общего числа медалей.
Этот результат уступает только Opus-4.6 (75,7%) и GPT-5.4 (71,2%) и совпадает с Gemini-3.1.
Когда модель может выступать в роли архитектора решений, создавая агентскую систему, включающую тестирование и проверку кода, всего за 4 дня без какого-либо ручного кодирования, механизмы разработки ИИ, вероятно, уже переключились в автоматический режим.
Помимо чрезвычайно высокой производительности, базовая архитектура MiniMax M2.7 также обеспечивает ему долговременную стабильную память и высокий уровень эмоционального интеллекта, что позволяет ему значительно превосходить традиционные чат-боты в интерактивных ролевых играх.
Официальная команда разработчиков выложила в открытый доступ на GitHub систему многомодального взаимодействия под названием OpenRoom . Это веб-пространство с графическим интерфейсом пользователя, где всё может взаимодействовать, позволяя искусственному интеллекту взаимодействовать с пространством в режиме реального времени.
Искусственный интеллект начинает учиться "работать самостоятельно", и это важнее, чем написание качественного кода.
После тестирования MiniMax M2.7 нас по-настоящему привлекло не столько его 66,6% успеха в соревнованиях Kaggle, сколько плавная работа пакета Office.
Скорее, речь идет о решении более фундаментальной проблемы: дать возможность искусственному интеллекту по-настоящему понимать рабочие процессы и участвовать в их развитии .
Раньше программное обеспечение писали и использовали люди. Теперь же ИИ начинает писать, модифицировать и использовать программное обеспечение. Когда модель может самостоятельно создавать систему, тестировать её и откатывать изменения без участия человека в программировании, механизмы «исследований и разработок в области ИИ» в некоторой степени переключились на автоматическую трансмиссию.
Вопрос о том, «как использовать лобстеров», скоро перестанет быть проблемой — потому что решать его будет не нам.
Скорее, это искусственный интеллект начал учиться работать самостоятельно.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.