Разработанное в Китае программное обеспечение для программирования с использованием ИИ занимает второе место в мире! Протестировано пять моделей – какая из них является лучшим инструментом Vibe Coding?

Превзойдя GPT-5.5, Gemini 3.5 Flash и DeepSeek V4 Pro, новейшая флагманская модель Alibaba, Qwen3.7 Max, заняла второе место в рейтинге конкурса программистов, уступив лишь Claude Opus 4.7.

▲Скриншот рейтинга от 26 мая

Помимо оценки пользователями в реальных условиях, Qwen3.7 Max также одержал победу среди отечественных моделей в традиционных рейтингах крупномасштабных моделей, таких как Terminal Bench и SWE Bench.

Несмотря на то, что за последние четыре года эти рейтинговые таблицы часто обновлялись, нам всё равно хочется испытать модель Qwen, которая может превзойти GPT 5.5, и посмотреть, как она себя покажет на практике.

Стоит отметить, что на данный момент наиболее популярной комбинацией агентов кодирования является Codex, который используется в паре с GPT 5.5.

Если мы изменим модель по умолчанию в Codex на Qwen3.7 Max, а затем будем использовать Codex для выполнения некоторых повседневных задач, будет ли это даже лучше, чем GPT 5.5?

Получите Qwen 3.7 Max

Воспользовавшись различными акциями и предложениями по обмену токенов, проводимыми разными компаниями, Alibaba Cloud также предоставляет 1 миллион токенов для бесплатного использования на платформе Alibaba Cloud Hundred Refinements.

В настоящее время Qwen3.7 Max продается со скидкой 50% на сайте Alibaba Cloud в течение ограниченного времени. Ввод 6 юаней за миллион токенов принесет 18 юаней за миллион токенов. Новые пользователи также могут воспользоваться планом пополнения счета со скидкой 50%, получая токены на сумму 20 юаней за 10 юаней в месяц, в то время как стандартный план с токенами в настоящее время стоит 198 юаней в месяц.

В целом, согласно данным платформы агрегации больших моделей OpenRouter, цена Qwen3.7 Max находится в умеренном диапазоне. Конечно, она не может конкурировать с сильно сниженными ценами DeepSeek, но все же значительно дешевле, чем Opus 4.7 и GPT 5.5.

Мы напрямую пополнили баланс тарифного плана «Выбор новичка», который предлагает скидку в 20 юаней, действующую на все модели. Однако обратите внимание, что скидка 50% распространяется только на один тарифный план. То есть, если вы приобретаете тариф за 10 юаней, вы не можете приобрести тарифы за 50 или 250 юаней по половинной цене.

Давайте протестируем DeepSeek, Claude, GPT, Gemini и Qwen вместе.

Получив ключ API и миллионы бесплатных токенов, мы сначала использовали Qwen3.7 Max на платформе Bailian от Alibaba Cloud и на официальном сайте Qianwen для создания стандартных веб-страниц и проверки возможностей разработки.

Для физических имитационных тестов, где различия более наглядны, мы используем простую подсказку: «Используйте HTML+CSS+JS для создания анимации, имитирующей плескание жидкости в контейнере; перетаскивание контейнера изменит угол наклона».

▲ Qwen3.7-Max, сгенерировано официальным сайтом Qwen

Qwen3.7 Max успешно справилась с задачей моделирования, а также добавила такие функции, как настройка цвета, встряхивание и регулировка объема жидкости.

DeepSeek — относительно простая программа, но ошибок в ней не обнаружено.

▲ DeepSeek V4, сгенерировано с официального сайта

Жидкость, создаваемая GPT-5.5, выглядит несколько странно. Хотя она и течет в соответствующем направлении при изменении угла, общая волна довольно резкая.

▲ GPT-5.5 Ultra High, создано Codex

В веб-страницах, созданных с помощью Flash в Gemini 3.5, похоже, есть ошибка: значок бутылки постоянно скрывается за панелью управления, и его приходится перетаскивать вручную. Однако для того же самого всплывающего сообщения предлагается множество параметров настройки, включая тип бутылки, цвет жидкости и различные другие настройки.

▲В программе Gemini 3.5 Flash, сгенерированной с официального сайта, выберите опцию «Холст».

Бутылка Claude Opus 4.7 слишком примитивна, а имитация плескания жидкости при интенсивном воздействии больше напоминает вибрацию звуковых волн.

▲ Claude Opus 4.7, созданный с помощью приложения Claude Code.

Далее мы попробовали заставить его сгенерировать небольшую игру. Хотя тестирование игр было распространенным заданием для Vibe Coding в прошлом году, на этот раз мы хотели, чтобы ИИ создал игру в 2048 с шестиугольной сеткой. Ввод данных был следующим: «Создайте играбельную игру в 2048, но с шестиугольной сеткой».

Страница, сгенерированная программой Qwen3.7 Max, выглядит довольно неплохо. Видно, что большинство из 10 источников информации взяты из руководства по генерации игр 2048 на сайте CSDN.

В игру по-прежнему можно играть, но иногда случаются моменты, когда что-то идет не по плану, например, когда одинаковые числа складываются в одном направлении, но не на своих правильных позициях.

▲ Qwen3.7 Max, сгенерировано с официального сайта

DeepSeek V4 показал схожие результаты с предыдущей версией, но, несмотря на шестиугольную форму, для прокрутки предлагал только клавиши WASD.

▲DeepSeek V4, сгенерировано официальным сайтом

Лучшим игроком в этом раунде, вероятно, стала игра Claude's Opus 4.7. Она действительно хорошо понимала, как должна быть устроена игра. Перемещение клеток соответствовало правилам сотовой структуры, поэтому игроки не чувствовали себя потерянными.

▲ Claude Opus 4.7, созданный с помощью приложения Claude Code.

GPT 5.5, используя возможности Codex, может автоматически просматривать сгенерированную игру в браузере, чтобы проверять наличие проблем и получать информацию с консоли для исправления кода проекта. Сгенерированная веб-страница также превосходна; однако ее производительность в отслеживании движений мыши на экране не так хороша, как у Opus 4.7.

▲GPT-5.5 Ultra High, создано Codex

В Gemini 3.5 Flash, как всегда, было добавлено множество новых функций. В нём были указаны три темы для игр: Cyber, Dark Gold и Macaron, и даже были включены «встроенные высококачественные гармонии».

В игровом процессе используются ретро-звуковые эффекты в 8-битном космическом стиле, сгенерированные с помощью встроенной функции Web Audio (слияние, скольжение, прохождение уровня, смерть), что мгновенно усиливает эффект погружения.

▲В программе Gemini 3.5 Flash, сгенерированной с официального сайта, выберите опцию «Холст».

Возвращаясь к разработке обычных веб-страниц, мы попросили их создать веб-сайт для музея метро, ​​и в качестве входной задачи было задано всего одно предложение: «Разработайте тематический веб-сайт под названием «Музей метро», требующий сильного ощущения погружения».

Изначально мы планировали, что эти большие модели будут содержать как можно больше информации о метро из разных городов, логотипы метрополитена со всего мира, а также представить общий стиль веб-сайта в художественном ключе, с выразительным дизайном и множеством спецэффектов.

Давайте сначала рассмотрим Qwen3.7 Max. Честно говоря, оценить его довольно сложно. Вертикальное расположение текста действительно напоминает поезд метро, ​​но в целом веб-сайт выглядит очень неряшливо.

▲ Qwen3.7-Max, сгенерировано официальным сайтом Qwen

Компания Gemini пошла еще дальше, снова используя звуковые эффекты. Интересно, что они также создали культурный и креативный продукт на тему метро: генератор памятных билетов на заказ. Пользователи могут ввести свое имя, выбрать станцию ​​и мгновенно сгенерировать высококачественный памятный билет в стиле ретро.

▲ Для создания образа Gemini 3.5 Flash с официального сайта выберите опцию «Холст».

Проект, выбранный DeepSeek, был похож на проект Gemini и включал в себя сувениры в виде билетов и впечатления от вождения, но эти функции, по всей видимости, не были представлены в итоговом варианте.

▲ DeepSeek V4, сгенерировано с официального сайта

GPT 5.5 теперь генерирует веб-сайты с довольно хорошим стилем. Хотя есть очевидные примеры использования шаблонов, общий дизайн соответствует онлайн-формату. Единственный недостаток — недостаток информации. Кажется, разработчики неправильно поняли, что музей метро должен быть веб-сайтом, предоставляющим информацию о метро.

▲GPT-5.5 Ultra High, создано с использованием Codex

Продолжая предыдущую задачу, например, по созданию операционной системы macOS/Windows, на этот раз мы вводим "Создать полноценную операционную систему для браузера с использованием HTML".

Производительность DeepSeek V4 довольно проста, как и у Qwen3.7 Max, за исключением того, что Qwen3.7 Max включает в себя приятное фоновое изображение рабочего стола.

▲ DeepSeek V4, сгенерировано с официального сайта

▲ Qwen3.7-Max, сгенерировано официальным сайтом Qwen

Но больше всего в этом тесте меня впечатлили Gemini 3.5 Flash и GPT 5.5.

▲ Для создания образа Gemini 3.5 Flash с официального сайта выберите опцию «Холст».

Как и Gemini 3.5 Flash, GPT 5.5 также отличается детальным дизайном всей операционной системы и узнаваемым стилем.

▲ GPT-5.5 Ultra High, создано с использованием Codex

Использование Qwen 3.7 Max в Кодексе

После проведенного тестирования выяснилось, что производительность Qwen3.7 Max при генерации небольших веб-страниц с помощью диалога сложно однозначно превзойти Gemini и GPT 5.5, но по сравнению со своим предшественником, на мой взгляд, достигнуто значительное улучшение.

На официальном сайте Qianwen мы увидели несколько примеров кода, таких как 3D-модель Земли, сортировка пищевых цепей, визуализация и личные блоги. Однако задания для этих веб-проектов были довольно длинными, а не простыми предложениями, которые мы тестировали.

▲После ввода предлагаемых слов Цяньвэнь также предоставляет возможность использовать «команды оптимизации».

Мы также использовали те же всплывающие подсказки для проекта 3D Earth на DeepSeek V4 и Gemini 3.5 Flash, и результаты были практически идентичны тем, которые были достигнуты с Qwen 3.7 Max.

Это означает, что на данном этапе подсказки по-прежнему играют значительную роль в том, сможет ли Qwen3.7 Max в полной мере использовать свои возможности.

Один из способов снизить нагрузку на пользователей в плане оптимизации предлагаемых слов — это интеграция с продуктами для агентов и использование их навыков и возможностей для совместной работы агентов, чтобы раскрыть истинный потенциал модели.

Следуя официальному руководству Alibaba Cloud, мы успешно интегрировали Qwen3.7 Max в Codex Terminal Assistant.

Однако это чревато ошибками, поскольку Codex будет постоянно напоминать вам о сообщении "CODEX Missing environment variable".

Согласно официальному руководству, после изменения конфигурационного файла ~/.codex/config.toml необходимо также изменить переменные среды компьютера.

Информация об API-ключе модели хранится в переменных среды компьютера (необходимо проверить тип оболочки вашего компьютера и изменить соответствующий файл переменных среды, например, .bash_profile или .zshrc), а не в конфигурационном файле config.toml Codex.

После внесения изменений введите Codex в терминале, и вы увидите Qwen3.7 Max. Снова откройте приложение Codex, и модель в главном интерфейсе переключится с предыдущей GPT-5.5 на пользовательскую.

Используя тот же метод, мы можем интегрировать в Codex такие модели, как DeepSeek, MiniMax, Kimi и Zhipu.

Некоторое время назад на GitHub появился навык по разработке фронтенда, набравший более 20 000 звезд. Он посвящен улучшению внешнего вида интерфейсов, созданных с помощью ИИ, аналогично задаче, занявшей второе место в таблице лидеров для Qwen3.7 Max.

Сначала мы добавим этот навык в Кодекс, а затем попробуем объединить его с другими навыками, чтобы посмотреть, даст ли это лучший эффект.

▲ Адрес: https://github.com/Leonxlnx/taste-skill

Введите ту же подсказку, и Codex автоматически использует такие навыки, как фронтенд-дизайн и мозговой штурм, для завершения позиционирования и концепции дизайна, а также будет строго контролировать процесс создания проекта в соответствии с системой управления процессами Codex.

Наконец, та же модель демонстрирует значительно лучшие результаты в Codex, чем непосредственно на официальном сайте Qianwen.

Однако здесь всё ещё может возникнуть проблема: "поток прерван до завершения: <400> InternalError.Algo.InvalidParameter: Параметр “function.arguments” модели кода должен быть в формате JSON."

Когда модели требуется вызывать специализированные инструменты, подключение к ней становится невозможным. Мы нашли в интернете похожие примеры, и причина может заключаться в том, что «у поставщика, развертывающего модель, возникли проблемы с форматом потокового вывода, который не является стандартным протоколом OpenAI, поэтому он не поддерживает вызовы API, что приводит к ошибке 400».

Когда у Кодекса попросили объяснить эту проблему, он также указал на проблему с моделью.

Дело не в неправильной настройке; скорее, вызовы API Qwen 3.7 Max / Bailian Responses к инструменту агента Codex пока недостаточно стабильны. Возможность обмена данными не гарантирует стабильную работу Codex. Для длительных задач, модификаций кода и частого чтения файлов переход обратно к официальной модели OpenAI будет гораздо более стабильным.

Поэтому, если вы тоже столкнулись с этой проблемой, вам, вероятно, остаётся только подождать, пока команда Qwen её исправит, или попробовать открыть новую сессию.

▲ Alibaba Cloud предоставляет официальные инструкции по устранению различных ошибок.

В прошлом году мы говорили, что модель — это продукт, и достаточно хорошая модель — это хороший продукт. Теперь же, похоже, одной модели далеко недостаточно.

По мере расширения возможностей модели ее архитектура продолжает развиваться, включая память, Harness, управление агентами, проверку и устойчивость вывода. Но только когда все эти аспекты реализованы должным образом, мы можем сказать: «Это хорошая модель».

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.