Креветка верхом на лошади! Анонимная модель, которая уже неделю циркулирует в мире лобстеров, на самом деле вот эта Подробности о последнем пользовательском опыте прилагаются

На прошлой неделе в сообществе любителей ловли лобстеров начала распространяться информация о загадочной модели: Pony-Alpha-2.

Без пресс-конференции и официального представления, он незаметно работал на платформе AutoClaw компании Zhipu, будучи открытым для бета-тестирования пользователями. Неожиданно, информация быстро распространилась из уст в уста, и все задали вопрос: что же это за анонимная модель ИИ?

Сегодня загадка разгадана. Это GLM-5-Turbo, «первая в мире модель омара», официально выпущенная сегодня компанией Zhipu, а также первая модель с закрытым исходным кодом от Zhipu с 2025 года.

Почему универсальная модель постоянно дает сбои при работе с лобстерами?

Любой, кто когда-либо разводил лобстеров, наверняка знает: заставить модель общаться или писать проходит гладко. Но когда дело доходит до фактического выполнения задач, проблемы часто начинают возникать примерно на третьем шаге. Вызовы инструментов завершаются с ошибкой, контекст забывается, длительные задачи зависают на полпути — происходит всё что угодно.

Корень проблемы кроется не в самой структуре, а в базовой модели. Целью обучения универсальной большой модели является диалог, в то время как выполнение рабочих процессов — это совершенно другое дело. Как только она попадает в реальный сценарий с множеством шагов, множеством связанных между собой инструментов и непрерывным выполнением, она оказывается неспособной справиться с задачей.

Модель GLM-5-Turbo была разработана для решения этой проблемы. Весь процесс, от построения обучающих данных до целей оптимизации, был специально оптимизирован для сценария с омарами, с упором на обучение пяти ключевых навыков.

Что касается вызова инструментов, то обеспечивается стабильная работа внешних инструментов и различных функций, а также бесперебойная работа, что является базовым требованием. В отношении выполнения инструкций, сложные и многоуровневые длинные инструкции могут быть точно разбиты на части, что поддерживает идентификацию целей, планирование шагов и взаимодействие нескольких агентов.

Еще одним ключевым направлением является планирование и выполнение непрерывных задач. Модель способна понимать инструкции во времени, обрабатывать сценарии, запускаемые по времени, и обеспечивать бесперебойное выполнение длительных задач. Ее программные возможности продолжают сильные стороны серии GLM, позволяя решать задачи агентного инжиниринга на большие расстояния с минимальным участием человека, переходя от Vibe Coding к агентному инжинирингу. Что касается скорости, то она также добилась значительных улучшений для высокопроизводительных сценариев с длинными цепочками, а ее стабильность отклика превосходит аналогичные модели.

В ходе оценки GLM-5-Turbo занял первое место среди отечественных моделей в ZClawBench, комплексном бенчмарке для сценариев ловли лобстеров, разработанном компанией Zhipu.

Создание ZClawBench имеет определённую предысторию.

В связи с растущей популярностью OpenClaw, текущие типы задач охватывают широкий спектр сценариев, таких как установка и настройка, разработка кода, сбор информации, анализ данных и создание контента.

Пользовательская база расширилась от первых разработчиков и теперь включает в себя офисных работников, заботящихся об эффективности, финансовых специалистов, инженеров-операторов, создателей контента и аналитиков-исследователей. ZClawBench построен на основе этих реальных сценариев использования, и его банк вопросов и тестовые трассы теперь полностью доступны для публичного доступа.

Кроме того, GLM-5-Turbo также интегрирован с устройством Mechrevo от iSoftStone, что обеспечивает работу терминала с искусственным интеллектом. Однако стоит отметить один нюанс: цена API для GLM-5-Turbo также второй раз в этом году выросла, увеличившись на 20% по сравнению с GLM-5.

Несмотря на то, что задачи, связанные с лобстерами, часто включают десятки вызовов инструментов и контекстных связей, а потребление ресурсов при составлении протокола типичного межведомственного совещания и распределении задач значительно превышает потребление при обычных разговорах, масштабы учета затрат на предприятиях также меняются.

Количество потраченных токенов уже не является ключевым моментом; самое важное — это то, сколько рабочей силы экономят сотрудники, использующие ИИ.

Наряду с этой моделью, в продажу поступают также комплексные обеды с лобстером для частных лиц и предприятий, доступные как для индивидуальных, так и для командных заказов.

Независимо от того, являетесь ли вы компанией из одного человека, стартапом или крупным/средним предприятием, вы можете гибко подписаться в зависимости от масштаба вашего бизнеса, с максимальным количеством 5 токенов на аккаунт. Предприятия могут гибко подписаться в зависимости от фактического числа сотрудников через командную версию, обеспечивая гарантированное предложение токенов и стабильную работу ИИ-сотрудников в режиме онлайн по контролируемой цене.

Сопутствующая система управления безопасностью корпоративного уровня «Claw for Enterprise Security» поддерживает унифицированное планирование и управление правами доступа для различных типов устройств Claw. Через централизованную консоль управления можно отслеживать и визуализировать в режиме реального времени путь выполнения, цепочку вызовов инструментов и потребление ресурсов каждой задачи агента.

Модель «лобстер», ориентированная на точку входа на рынок для крупных предприятий.

Одного прочтения введения недостаточно; я проверил это на реальном примере, и вот мои впечатления.

Первый сценарий очень прост: установите будильник на 10 минут позже, и когда наступит это время, Lark напомнит вам «встать и подвигаться». Модель напрямую сообщит, что напоминание в 14:22 установлено, и Lark получит сообщение ровно через 10 минут, без каких-либо действий, требующих ручного вмешательства.

Второй сценарий предполагал сбор информации, обобщение самых актуальных тем дня в мире технологий. Модель была запущена с помощью инструмента тестирования, который собирал ключевую информацию, такую ​​как конференция Nvidia GTC, объявление Маска о начале проекта по производству чипов Terafab через семь дней, а также добавление правительством шести новых ключевых отраслей будущего.

Последний сценарий, просто для развлечения, немного сложнее. Омар работает на облачном компьютере, предоставленном Lark, который представляет собой виртуальную машину Alibaba Cloud ECS. Я написал для него навык мониторинга температуры, инкапсулировал его и автоматически загрузил и активировал, отправляя оповещение Lark, если температура превышает 40 градусов Цельсия. Проблема в том, что облачные виртуальные машины не имеют физических датчиков температуры, поэтому прямое считывание температуры не сработает.

Модель не зависла в ожидании моих указаний. Вместо этого она поочередно попробовала пять разных методов считывания данных. После того, как ни один из них не сработал, она переключилась на использование загрузки процессора в качестве косвенного индикатора для оценки температуры и объяснила мне причину этого.

После написания скрипта и его запуска локально, я создал файл SKILL.md, зарегистрировал его в openclaw.json, запустил перезапуск и выполнил команду doctor для подтверждения успешной загрузки. Наконец, Lark прислал подтверждение: текущая температура составляет 27°C, и всё в норме. Весь процесс прошёл без прерываний и не ждал моей следующей команды.

После выполнения трех задач инструмент показал безупречную работу, инструкции по времени были точно интерпретированы, а собранная информация позволила сделать выводы, выходящие за рамки простого перечисления. Конечно, это относительно стандартные задачи, связанные с лобстерами; для более сложных сценариев взаимодействия нескольких агентов требуются дополнительные испытания в реальных условиях.

На момент публикации GLM-5-Turbo уже доступен онлайн. Разработчики и корпоративные пользователи могут вызывать API через открытые платформы BigModel.cn или api.z.ai, либо получать к нему доступ через пакет Lobster.

В GLM-5-Turbo интегрирован план кодирования GLM Coding Plan Max. Поддержка этого плана появится в этом месяце в плане Pro, а план Lite будет доступен в апреле. Для сценариев работы с агентами, требующих длительной стабильной работы, непрерывного фонового выполнения или высокой нагрузки, рекомендуется план Lobster.

В качестве стандартной модели для AutoClaw Aolong теперь используется GLM-5-Turbo. С сегодняшнего дня и до 22 марта действует ограниченная по времени скидка на топливные пакеты, максимальная скидка составляет 34%. Топливный пакет действителен в течение 7 дней с даты покупки.

Стоит отметить, что сценарий с лобстером позволил обычным пользователям по-настоящему ощутить разницу между «ИИ выполняет за меня работу» и «ИИ отвечает на мои вопросы». Первый требует совершенно других возможностей, что объясняет существенный разрыв между моделями, специально обученными для сценариев с лобстерами, и моделями общего назначения.

В эпоху агентов конкуренция, в конечном итоге, может сводиться не к уровню общих возможностей, а к тому, кто действительно сможет работать бесперебойно, стабильно и использоваться предприятиями в качестве инструмента повышения производительности в конкретных сценариях. Возможности — это лишь входной билет; настоящая проверка — это способность стабильно добиваться результатов.

Вот ссылка, чтобы попробовать:

  • Клиент AutoClaw Aolong: https://autoglm.zhipuai.cn/autoclaw
  • Z.ai:z.ai
  • Приложение Zhipu Qingyan/веб-версия

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.