В течение одного дня Claude Opus 4.6 дважды был превзойдён, на этот раз моделью отечественного производства.

Несколько дней назад APPSO упомянула, что крупной модели предстояло пережить самый тяжелый месяц в своей истории, и вот он наступил.

Результат Claude Opus 4.6 «к сожалению» отошел на второй план, будучи превзойден дважды за один день.

Сегодня утром компания Anthropic выпустила предварительную версию Claude Mythos, которая набрала 77,8% в тесте SWE-bench Pro, значительно опередив Opus 4.6 с результатом 57,3%. Этот показатель означает, что программа способна обнаруживать и исправлять сложные инженерные ошибки в реальных репозиториях GitHub, превосходя подавляющее большинство программистов-людей.

Однако Mythos Preview пока недоступен обычным пользователям. Тем временем появилась еще одна модель, превосходящая Opus 4.6 – Zhipu открыла исходный код GLM-5.1.

GLM-5.1 показал результат 58,4% в SWE-bench Pro, превзойдя показатели Opus 4.6 (57,3%) и GPT-5.4 (57,7%). Генеральный директор HuggingFace Клемент Деланг также поздравил компанию в Твиттере: «Лучшая модель в SWE-Bench Pro теперь доступна в открытом доступе на HuggingFace! Добро пожаловать, GLM 5.1!»

Третье место в мире, первое в области открытого исходного кода. Хотя DeepSeek V4 еще не появился, в сфере открытого исходного кода появился новый лидер, и это по-прежнему крупномасштабная модель, разработанная в Китае.

Честно говоря, моей первой реакцией было то, что это снова повторяется, эта "мания хит-парадов" среди крупных моделей. Каждая пресс-конференция должна быть "эпическим событием", когда каждая модель лидирует в чартах несколько часов. Что же изменилось на этот раз?

После ознакомления с техническими характеристиками и пользовательским опытом GLM-5.1, APPSO покажет вам, на каком уровне находится эта модель.

От 20 до 1700 шагов, работая непрерывно в течение 8 часов.

Самое удивительное в GLM-5.1 — это не результаты тестов, а продолжительность его автономной работы.

Один из проектов от Zhipu произвёл на меня глубокое впечатление. Они создали настольную систему Linux с нуля за 8 часов. Это был не тот случай, когда вы пишете несколько демонстрационных файлов; это был настоящий процесс с нуля: разработка архитектуры, написание кода, запуск тестов и исправление ошибок. На это ушло ровно 8 часов, более 1200 шагов, и в итоге получилась полностью функциональная настольная система Linux.

Включает в себя полноценный рабочий стол, менеджер окон, строку состояния, приложения, менеджер VPN, поддержку китайских шрифтов, библиотеку игр и 4,8 МБ сопутствующих файлов. Это эквивалентно недельной работе команды из четырех человек.

Никто не участвовал в тестировании или проверке кода на протяжении всего процесса. GLM-5.1 даже написал регрессионные тесты для собственного кода, и эти тесты прошли успешно.

Блогер-программист Zhihu Тояма Нао провел еще более строгий тест. Он предложил три проекта для проверки GLM-5.1: рендерер OpenGL для macOS, написанный на Swift, полнофункциональное чат-приложение, разработанное на Flutter с серверным компонентом на Golang, и веб-приложение для редактирования видео, разработанное с использованием выбранного пользователем технологического стека. Каждый проект состоял из 10-12 раундов заданий, по 1500-2000 слов в каждом раунде.

В результате GLM-5.1 стала первой моделью отечественного производства, прошедшей все испытания, а также первой моделью отечественного производства, официально превзошедшей концепцию Sonnet 4.5 Thinking.

Его оценка была следующей: «GLM-5.1 значительно расширил область применения программирования. Это уже не просто мощный инструмент только для фронтенда, и не просто одноразовая демонстрация возможностей. Он может служить основным инструментом программирования в сложных ситуациях». Однако он также указал на проблемы: «При очень длинных контекстах легко столкнуться с эффектом взрыва иллюзий. Если вы столкнулись с проблемой, которую нельзя решить за два шага, не рискуйте, просто начните заново».

В конце прошлого года ИИ-агент мог выполнить всего около 20 шагов. Теперь GLM-5.1 может выполнить 1700 шагов. Это переломный момент, определяющий, сможет ли модель действительно «работать независимо».

В своем техническом отчете компания Zhipu объяснила ключевой прорыв: предыдущие модели, включая GLM-5, достигали «узкого места» после быстрого прогресса на ранних этапах. Они неоднократно пробовали известные методы оптимизации, но не могли заблаговременно сменить стратегию, когда один подход становился неэффективным.

Цель обучения GLM-5.1 — преодолеть это узкое место, позволив модели выполнять пошаговую настройку в рамках фиксированной стратегии. Когда прирост производительности начинает стагнировать, модель активно анализирует журналы бенчмарка, определяет текущее узкое место и затем переходит к структурно другому решению.

Пример оптимизации векторной базы данных является типичным примером «ступенчатой» траектории оптимизации. GLM-5.1 использовал 655 итераций для увеличения пропускной способности запросов с 3108 до 21472 запросов в секунду, что составляет 6,9-кратное улучшение.

В этом процессе сама модель проходит всю цепочку оптимизации, от полного сканирования базы данных до оценки полноты выборки методом IVF-группировки, введения сжатия с половинной точностью, добавления грубого ранжирования с квантованием, выполнения двухуровневой маршрутизации и, наконец, предварительной обрезки. Каждый скачок сопровождается кратковременным снижением полноты, поскольку модель временно нарушает ограничения при исследовании новых направлений, а затем возвращается к исходным настройкам. Этот цикл «нарушение-исправление» сам по себе является признаком эффективной оптимизации.

В бенчмарке оптимизации KernelBench Level 3 модель GLM-5.1 прошла более 24 часов непрерывной итерации на 50 реальных вычислительных нагрузках в области машинного обучения, в конечном итоге достигнув геометрического среднего ускорения в 3,6 раза, что значительно выше, чем ускорение в 1,49 раза в режиме torch.compile max-autotune. Модель включает в себя пользовательское ядро ​​Triton и ядро ​​CUDA, использующие слияние эпилогов cuBLASLT и реализующие разбиение на блоки общей памяти и оптимизацию графов CUDA, охватывая весь технологический стек от высокоуровневого слияния операторов до настройки на уровне микроархитектуры.

Существует также ещё более интересный тест: Vending Bench 2. Этот тест требует от модели имитации работы бизнеса по продаже товаров через торговые автоматы в течение года, что предполагает долгосрочное планирование и управление ресурсами. GLM-5.1 достигла итогового баланса в размере 4432 долларов, заняв первое место среди моделей с открытым исходным кодом и приблизившись к уровню Claude Opus 4.5.

Технические характеристики 744B, отсутствие чипов Nvidia, снижение стоимости на 97%.

Технические характеристики GLM-5.1 заслуживают внимания: гибридная экспертная модель (MoE) размером 744 байта с 40 байтами активированных параметров на токен, 28,5 ТБ токенов для обучающих данных и интеграция механизма DeepSeek Sparse Attention (DSA) для снижения затрат на развертывание при сохранении возможностей обработки длинных контекстов. Она имеет контекстное окно размером 200 000 и максимальный выходной объем в 131 072 токена.

Что еще более важно, вся модель была обучена с использованием чипа Huawei Ascend 910B, без участия графических процессоров NVIDIA. Несмотря на ограничения вычислительной мощности, разработанная в стране модель все же заняла третье место в мире и первое место среди моделей с открытым исходным кодом.

Разработчик Бо Джонсон перешел на модель развертывания OpenClaw с Claude Opus 4.6 на GLM-5.1. Пользовательский интерфейс остался прежним, но стоимость снизилась с 1000 долларов до примерно 30 долларов, что составляет 97% снижения. Входные затраты GLM-5.1 в 5 раз ниже, чем у Claude Opus, а выходные — в 8 раз ниже. Короче говоря: возможности, близкие к Opus, при цене в 20% ниже.

Кроме того, GLM-5.1 является открытым исходным кодом, распространяемым по лицензии MIT, одной из самых либеральных лицензий для открытого исходного кода. Вы можете модифицировать его, использовать в коммерческих целях и делать с ним все, что захотите. Он поддерживает основные фреймворки для вывода результатов, такие как vLLM, SGLang и xLLM, и может быть развернут непосредственно локально.

Конечно, GLM-5.1 не лишен возможностей для улучшения. Некоторые разработчики сообщают, что скорость обработки данных в GLM-5.1 составляет всего 44,3 токена в секунду, что не особенно выгодно по сравнению с аналогичными продуктами. Сложные задачи могут занимать не менее часа, и даже тарифный план Pro, с лимитом кредита в 15 раз превышающим лимит Claude, может оказаться недостаточным.

Эти проблемы реальны. GLM-5.1 не идеален, но это не мешает ему быть важной вехой.

Значение GLM-5.1 заключается не в том, насколько он мощнее Opus 4.6, а в том, что он доказывает: даже при ограниченной вычислительной мощности разработанные внутри страны модели могут достигать высочайшей производительности, сравнимой с открытым исходным кодом. Более того, это открытый исходный код; любой может его использовать и модифицировать.

Теперь 8 часов вашего сна могут быть использованы для работы искусственного интеллекта. И этот ИИ имеет открытый исходный код, разработан внутри страны и доступен для использования любым желающим.

Прилагаются методы проведения эксперимента.

1. Официальная интеграция API
– Открытая платформа BigModel: https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
– Z.ai: https://docs.z.ai/guides/llm/glm-5.1

2. Опыт использования продукта
GLM-5.1 скоро будет доступен на Z.ai: https://chat.z.ai

3. Ссылка на открытый исходный код
– GitHub: https://github.com/zai-org/GLM-5
– Обнимающее лицо: https://huggingface.co/zai-org/GLM-5.1
– ModelScope: https://modelscope.cn/models/ZhipuAI/GLM-5.1

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.