Шаг 3.5. Вспышка: Темная лошадка, появившаяся в битве за ИИ во время Весеннего фестиваля, теперь обгоняет конкурентов в эпоху Агентов.

В этом году индустрия искусственного интеллекта чем-то похожа на рынок смартфонов 2008 года. Всем известно, что сенсорные экраны — это будущее, но производители все выпускают «Nokia с сенсорными экранами».
Эра агентов наступила; это общепризнанный факт. Но как создать хорошую модель агента? Следуя общепринятым представлениям, подход, вероятно, останется тем же: больше параметров, более глубокие и широкие сетевые структуры и большие наборы данных.

300 ГБ недостаточно, поэтому мы берем 1 Тб; 1 Тб недостаточно, поэтому мы берем 10 Тб. Как будто, если модель будет достаточно большой, возможности агента появятся сами собой, точно так же, как, если экран Nokia будет достаточно большим, iPhone появится сам по себе.
Хотя модели с большим количеством параметров и предлагают более широкую базу знаний и более надежную основу, простая «оптимизация» моделей предыдущего поколения не улучшит наших агентов. Эра агентов нуждается в агентных моделях .
Существует ли более эффективный, действительно революционный подход, который не полагается на параметры стекирования, а на оптимизацию архитектуры; не требует выделенных облачных серверов и может работать локально; и является одновременно универсальным решением с целенаправленной оптимизацией?

▲Сравнение размера параметров модели и интеллекта: Шаг 3.5. У Flash наименьшее общее количество параметров на графике, но она занимает второе место по показателю интеллекта.
2 февраля Step Star выпустила и открыла исходный код своей последней базовой модели, Step 3.5 Flash, которая представляет собой более эффективную базовую модель поддержки агентов. Она использует разреженную архитектуру MoE с общим количеством 196 миллиардов параметров, но каждый токен активирует только около 11 миллиардов параметров.
Это довольно нелогичная статистика для индустрии крупномасштабного моделирования, кажущаяся «отставание» по сравнению с конкурентами, стремящимися к триллионам параметров. Однако именно это кажущееся «отставание» может скрывать самый большой секрет эпохи агентов.
Модель L3 больше не может подняться по лестнице L1.
Если бы это произошло полгода назад, компания Leap Star, возможно, занималась бы чем-то совершенно другим.
В своем последнем сообщении в блоге Чжу Ибо, соучредитель и технический директор Step2, упомянул, что в эпоху моделей Step2 они также были убежденными сторонниками закона масштабирования. Как и все производители моделей того времени, они усердно продвигались по лестнице, называемой параметрами, разработав большее количество параметров, чем DeepSeek V3, и даже обучив его на несколько месяцев раньше своих конкурентов.
В результате, несмотря на впечатляющие результаты в бенчмарках, традиционная логика послойного размещения компонентов в конечном итоге оказалась неспособна превзойти парадигму вывода DeepSeek R1.
Причина проста: DeepSeek R1 представляет собой скачок вперед, от чат-ботов уровня L1 к логическим моделировщикам уровня L2. Продолжение использования мышления чат-ботов для построения моделей рассуждений не обязательно приведет к провалу, но неизбежно столкнется с препятствием.
Это не только ретроспектива опыта Цзеюэ Синчэня, но и микрокосм всей индустрии. После долгих и мучительных размышлений они обнаружили забытую истину: чат-боты в эпоху L1 и агенты в эпоху L3 требуют двух разных моделей .

▲Пятиуровневая структура OpenAI, от чат-бота первого уровня до логического мышления, агентов, новаторов и организации пятого уровня.
Согласно пятиуровневой архитектуре OpenAI, мы наблюдаем скачок от логического анализатора уровня L2 к агенту уровня L3.
В эпоху чат-ботов с уровнем владения языком L1 основным требованием была беглость речи; модели нужно было лишь быстро отвечать и выражать свои мысли естественно. Нам мог понадобиться «студент гуманитарного факультета», способный декламировать энциклопедии и достаточно эрудированный, чтобы без труда имитировать стиль Лу Синя. На тот момент скорость вывода 20-30 токенов в секунду идеально соответствовала человеческим привычкам чтения.
Эпоха логических рассуждений второго уровня : с появлением длинных цепочек мыслей нам нужны модели, способные представлять собой целостное, глубокое мышление. Глядя на длинные мыслительные процессы, мы считаем их интеллектуальными и даже готовы подождать десятки секунд, чтобы получить более точный результат.

Эра L3-агента : характеристики полностью изменились. Контекст рабочей ситуации находится в диапазоне 32–128 тысяч слов. Мы больше не читаем вывод слово в слово, а сосредотачиваемся только на том, «когда можно будет получить результаты».
В этом сценарии продолжение использования модели с большим количеством параметров из эпохи L2 сродни использованию оборудования с линии Аотай для подъема по «Хутайской линии» в Шешане. Хотя резервы достаточны, эффективность низка, а вычислительные затраты чрезвычайно высоки.
В некоторой степени, агент больше не виден пользователю, а используется для выполнения задачи. Он должен эффективно работать в длительных контекстах, иметь кодовую базу, способную легко обрабатывать сотни тысяч токенов; и он должен повысить скорость, которая напрямую определяет пользовательский опыт; но ядро по-прежнему остается планированием и вызовом инструментов.
Если мы продолжим использовать мощные модели эпохи L1 для выполнения задач уровня L3, это будет все равно что ездить на Ferrari доставлять еду — это не только дорого, но и просто не подходит для движения в условиях плотного дорожного движения и длительных заездов.
Это также объясняет, почему Step Tech осмелилась пойти против течения и представить «новый вид» Step 3.5 Flash, сделав упор на «скорость» и «надежную логику». На первый взгляд, такой компромисс может показаться не соответствующим отраслевым стандартам, но он открывает новые возможности.
В мире боевых искусств скорость — единственный способ прорвать оборону: «жестокая эстетика» эпохи Агентов.
В эпоху Агентов «скорость» перестала быть просто дополнительным преимуществом и стала вопросом жизни и смерти для модели.
Чжу Ибо обратил внимание на деталь, которую легко упустить из виду: в эпоху чат-ботов было достаточно, чтобы скорость вывода модели превышала скорость чтения человека (20-30 токенов в секунду), иначе мы бы не смогли прочитать всё. Но в эпоху агентов этот стандарт совершенно недействителен .
Почему? Потому что пользователи не хотят видеть сам процесс. Когда ИИ помогает нам писать код, искать информацию или бронировать авиабилеты, мы не пялимся на экран, наблюдая, как он переписывает слово за словом; нам нужен только результат.
На данном этапе скорость уже не является вопросом опыта, а скорее вопросом самой производительности, напрямую определяющей эффективность выполнения задачи.
Для достижения такой невероятной скорости компания LeapStar пошла на огромный риск, выбрав этот технологический путь.

▲Шаг 3.5 Общая архитектура Flash: Шаг 3.5 Flash — это большая языковая модель, использующая разреженную гибридную экспертную архитектуру (MoE). Ее архитектура определяется совместным проектированием модели и системы, а основными архитектурными ограничениями являются стоимость и скорость вывода .
В то время как конкуренты слепо следовали тренду линейного внимания, Flash Step 3.5 настоял на выборе архитектуры SWA (Sliding Window Attention) . Эта гибридная схема внимания, с одной стороны, позволяет быстрее обрабатывать вычисления токенов, а с другой — решает проблему вторичного узкого места, связанную с обработкой длинного контекста.
Проще говоря, оно не запоминает весь текст объемом 256 КБ наизусть; вместо этого оно распределяет внимание целенаправленно и ритмично, подобно человеку. Это позволяет ему не только не терять интеллект при обработке огромных объемов данных, но и значительно снижать вычислительные затраты.
То, что кажется «обратным подходом», на самом деле является сложным вычислительным методом эпохи агентов, где «умные методы дают отличные результаты». Это связано с тем, что в современных аппаратных условиях SWA наиболее выгоден для спекулятивной выборки. Этот технический компромисс напрямую увеличивает скорость вывода в задачах на основе кода с одним запросом до максимума в 350 токенов/с .
Молниеносное «мгновенное отключение» — это решающий момент , превращающий ИИ из «игрушки» в инструмент повышения производительности. В первый же день своего выпуска Step 3.5 Flash попал в список самых быстрых моделей OpenRouter .

▲Согласно последнему рейтингу самых быстрых моделей, опубликованному OpenRouter, Step 3.5 Flash имеет скорость генерации 167 токенов/с, что ставит его в число самых быстрых моделей в мире.
Отвергайте "экспертов по запоминанию"; высокий интеллект — основная производительная сила.
Быстрый бег не должен происходить за счет «снижения интеллекта». « Высокий интеллект » также необходим для оценки пригодности модели в качестве агента.
Общепринятое мнение, как среди пользователей, так и среди большинства производителей моделей, заключается в том, что чем больше параметров, тем шире возможности. Однако лучшие результаты, достигнутые моделью Flash на этапе 3.5 в математической области при соответствующих размерах и экстремальной постобучении , были сопоставимы с результатами моделей с большими параметрами.

- В конкурсе AIME 2025 (American Invitational Mathematics Competition) он набрал 97,3 балла ;
- Он набрал 85,4 балла в тесте IMO Answer Bench (Международная математическая олимпиада);
- На конкурсе HMMT 2025 (Гарвардско-Массачусетский математический конкурс) он даже набрал 96,2 балла .
Что это значит? Все эти показатели являются самыми высокими среди лучших моделей с открытым исходным кодом в Китае.
Если включить режим параллельного совместного рассуждения (PaCoRe), его результат даже приближается к идеальному. За этим феноменом «избытка интеллекта» скрывается чрезвычайно тонкая, но точная отраслевая истина: предыдущие модели были подобны «запоминателям», полагающимся на механическое запоминание огромных объемов данных; в то время как Step 3.5 Flash — это настоящий «решатель проблем».

▲Процесс рассуждений PaCoRe (Parallel Coordinated Reasoning). Каждый раунд инициирует обширное параллельное исследование, сжимая сгенерированные траектории в компактную информацию, которая затем передается вместе с вопросом для координации следующего раунда. Этот процесс повторяется 10 раз, достигая эффективного времени выполнения теста (TTC) для миллионов тегов при соблюдении фиксированных контекстных ограничений. Итоговая сжатая информация служит ответом системы.
В рабочем процессе агента эта способность имеет решающее значение. Поскольку реальные задачи полны неизвестных факторов, нам нужен не попугай, способный лишь повторять ключевые моменты, а «супермозг», который может понимать сложные инструкции, анализировать логику задачи и самостоятельно корректировать свои действия.
Способность к рассуждению доказывает интеллект, но агент все равно должен быть надежным в своей работе. Шаг 3.5. Flash занял первое место в отечественном открытом программном обеспечении в нескольких ключевых сценариях.
Уровень владения программированием: один из лучших в мире. 
- Проверено SWE-bench: 74,4 балла (Исправлены ошибки из реального проекта с открытым исходным кодом)
- Terminal-Bench 2.0: 51 балл ( ведущее китайское программное обеспечение с открытым исходным кодом , автоматизирующее задачи терминала)
- LiveCodeBench-V6: 86,4/88,9 баллов ( Лучший проект с открытым исходным кодом в Китае для программирования и отладки в реальном времени)
Основные возможности агента: Множество достижений в области открытого программного обеспечения на внутреннем рынке. 
- τ²-Bench: 88,2 балла ( № 1 среди проектов с открытым исходным кодом в Китае , многоэтапное планирование задач)
- xbench-DeepSearch: 54 балла ( Лучший проект с открытым исходным кодом в Китае для глубокого поиска и интеграции информации)
- BrowseComp: 69 баллов (Высший уровень, веб-браузинг и управление контекстом)
Какими бы впечатляющими ни были данные, они должны выдержать проверку в реальных условиях . В следующих типичных сценариях, шаг 3.5 Flash также доказал, что «искусный, но мощный, быстрый как молния» — это не просто слоган.
Хотя широко распространено мнение, что для написания аналитических отчетов с помощью Deep Research необходимы хорошо составленные и грамотно изложенные модели, на самом деле это требует сильного логического мышления и умения эффективно использовать инструменты.
Дайте ему расплывчатую тему, например, «научное образование для младенцев и детей в возрасте от 0 до 3 лет», и он не будет просто выдумывать что-либо. Вместо этого, подобно настоящему исследователю, он разобьет задачу на части, спланирует путь, проведет поиск в интернете, проанализирует и внесет изменения, а затем предоставит нам подробный отчет объемом в десятки тысяч слов, понятный даже неопытным родителям.

В бенчмарке Research Rubrics от Scale AI его результат превзошел даже аналогичные системы от OpenAI и Gemini. Это еще раз демонстрирует, что он уже достиг «логического замкнутого контура», способного работать независимо.

Шаг 3.5. Flash также может быть интегрирован в среду Claude Code. Когда модель выступает в роли профессионального аналитика данных и сталкивается со сложными задачами анализа данных, она может не только писать код для очистки данных, помогать в повседневных процессах обработки данных и выравнивать форматы данных, но и напрямую генерировать отчеты о рабочих процессах.
Будь то проекты Deep Research или Vibe Coding, они выполняются либо на официальном сайте Step 3.5, либо путем вызова API, но амбиции Step 3.5 Flash выходят далеко за рамки простого извлечения возможностей ИИ с облачных серверов.
Чжу Ибо рассказал, что даже купил устройство за свой счёт, чтобы запустить эту модель. В настоящее время Step 3.5 Flash — это самая мощная из доступных моделей , способная плавно работать с контекстом сверхдлинной длины в 256 КБ на MacBook с 128 ГБ оперативной памяти, используя 4-битное квантование.
Фраза «без исключения» действительно подчеркивает упрямство технологов. Возможно, она также намекает на конечную цель стратегии Leapfrog Space «ИИ + Терминал»: самый мощный мозг должен находиться не только в дорогих кластерах H100; он должен быть в вашем компьютере и даже в будущих мобильных телефонах .
В то время как другие производители все еще борются за финансирование и оценку, LeapStar незаметно снизила ценовой барьер для высокоэффективных агентов. Это подтверждает стратегический прогноз: «шоу» крупномасштабной конкуренции моделей закончилось, и отрасль официально вступила в фазу «выживания сильнейших».
В битве за искусственный интеллект во время Весеннего фестиваля появился еще один «темный лошадка», который встряхивает ландшафт моделей обработки больших данных.
В недавней шумной битве релизов в области ИИ, Step 3.5 Flash, этот «тёмный конь», определённо был несколько недооценён. Это не просто «высокопроизводительная и экономичная» модель; скорее, это нечто вроде внезапного появления DeepSeek год назад, проложившего новый путь для индустрии ИИ.
В реальном мире, где вычислительная мощность не безгранична, настоящим победителем становится тот, кто сможет решать более сложные задачи с помощью более совершенной архитектуры и меньших ресурсов.
Эпоха «из грязи в князи», когда простое накопление технических заданий могло обеспечить финансирование, а манипулирование рейтингами — вызвать аплодисменты, давно прошла. Предстоящая битва принадлежит тем, кто не только «умён», но и «сообразителен».
Эта настойчивость в стремлении к «миниатюризации и высокой эффективности» в основном проистекает из преданности StepStar миссии создания искусственного общего интеллекта (AGI). Чжу Ибо однажды заметил, что важность постоянного обучения базовой модели, помимо коммерческих преимуществ, заключается в осуществлении этой «давней мечты об AGI».
Для LeapStar путь к созданию искусственного общего интеллекта (AGI) — это не рискованный шаг, а прогрессивная методология и точная оценка потребностей времени. Как сказал в интервью Инь Ци, недавно назначенный председатель LeapStar: «Разработка надежных базовых моделей и исследование предельных возможностей интеллекта — вот миссия LeapStar».
От шага 1 до шага 3.5, от мультимодального подхода к голосовому управлению, от облака к терминалу, интеграция ИИ с физическим пространством и глубокая интеграция с терминальным оборудованием — все это необходимые шаги для того, чтобы совершить скачок в развитии и достичь высшей степени искусственного общего интеллекта.

Когда возможности ИИ действительно «войдут в обычные дома», конечной точкой технологической конкуренции перестанет быть гонка вооружений в области вычислительной мощности. ИИ начнет лучше служить нам, и каждый — малые и средние предприятия, индивидуальные разработчики и студенты — сможет использовать возможности высококлассных агентов с низкими затратами. Тогда ИИ перестанет быть просто игрой для гигантов.
Благодаря изобретательности и скорости , Step 3.5 Flash предлагает свой ответ и представляет собой еще один шаг на пути к выполнению миссии AGI.
Те, кто упорно следует своим мечтам, в конце концов проложат свой собственный путь. И этот путь становится все более ясным.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.
ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo
