Стоимость выполнения задачи составляет всего 1/9 от стоимости Claude Opus 4.6, а эффективность пошагового обновления модели Flash значительно улучшена.

2 июня, 2026 Дядя Влад

В 1492 году Колумб отправился в плавание по Атлантическому океану. Хотя скорость имеет решающее значение для морских путешествий, истинным определяющим фактором способности флота достичь пункта назначения является наличие пресной воды, продовольствия, а также способность корабля, мачт и такелажа выдерживать длительные штормы. Именно эта не слишком романтическая инженерная логика переписала историю трансокеанской торговли.

Позже голландцы спроектировали торговое судно «Флютт»: оно было дешевле в строительстве, имело меньше членов экипажа и большие грузовые трюмы, что позволяло ему совершать стабильные круговые рейсы по Атлантическому маршруту. Таким образом, океанские путешествия превратились из одиночных приключений искателей приключений в воспроизводимый, поддающийся расчету и масштабируемый бизнес.

Сегодняшняя конкуренция в области моделей искусственного интеллекта также достигла аналогичного перепутья.

Раньше, когда говорили о моделях, обычно обсуждали параметры, рейтинги и пиковую производительность. Но после использования программных агентов, таких как Claude Code и Codex, компания APPSO ясно поняла, что по мере внедрения агентов ИИ в производственную среду реальные проблемы несколько изменились: смогут ли они непрерывно обрабатывать высокочастотные запросы, смогут ли они стабильно вызывать инструменты, смогут ли они понимать сложные интерфейсы и смогут ли они быть интегрированы в существующие корпоративные процессы и работать в течение длительного времени.

Ответы на эти вопросы зачастую не находят в рейтинговых таблицах.

Недавно компания StepStar официально выпустила и открыла исходный код Step 3.7 Flash. Эта Flash-модель нового поколения для агентов производственного уровня в первую очередь предназначена для рабочих процессов агента, кодирования, поиска и мультимодальных рабочих процессов.

Его появление идеально совпало с этим переломным моментом. Агентам производственного уровня больше не нужны только скорость и доступность; что еще важнее, они должны быть надежными, простыми в использовании, простыми в развертывании и способными ежедневно демонстрировать результаты в реальных рабочих процессах.

Флэш-модели больше не являются заменой флагманским моделям.

В прошлом модель Flash часто рассматривалась как облегченная версия флагманской модели, ее главными преимуществами были скорость и доступность. Однако, поскольку Agent становится ядром рабочего процесса, роль модели Flash изменилась.

Если модель склонна отклоняться от своих целей в многоэтапных задачах, ни предприятия, ни отдельные лица не будут чувствовать себя комфортно, используя её. И наоборот, модель, которая может найти баланс между скоростью, стоимостью, доступностью инструментов, многомодальным пониманием и совместимостью с экосистемой, имеет потенциал стать действительно надежной базовой возможностью для агентных систем.

В некотором смысле, модель Flash, необходимая в эпоху Agent, была модернизирована: из «более быстрой и компактной модели» она превратилась в «базовую модель с высочайшей производительностью».

Она должна соответствовать ограничениям возможностей флагманской модели, одновременно выдерживая давление эффективности, связанное с большим количеством звонков от агентов. Шаг 3.7. Flash позиционируется как модель, отвечающая последнему требованию — базовая модель агентской системы следующего поколения.

Первой задачей для агентов, работающих в производственной среде, является понимание реальных условий работы.

Большое количество задач, выполняемых агентами, распределено по сложным интерфейсам, офисным документам, системам построения графиков, страницам браузера, специализированному программному обеспечению и внутренним инструментам. Агентам, которые хорошо справляются только с ответами на текстовые вопросы, будет сложно эффективно решать эти задачи.

Шаг 3.7. Flash фокусируется на улучшении возможностей понимания и выполнения мультимодальных данных.

Она способна понимать интерфейсы пользователей, диаграммы, документы, изображения и интерфейсы приложений, а также автономно обрезать, увеличивать и повторно интерпретировать изображения в сложных визуальных задачах. При столкновении с неопределенной информацией модель также может заблаговременно инициировать поиск и перекрестную проверку текстовой и графической информации.

Вот нетривиальный подход к проектированию. Для модели Flash с поддержкой 11B нецелесообразно втискивать огромное количество визуальных данных в веса. Step использует противоположный подход: веса содержат только основной механизм вывода, экстраполируя границы восприятия и знания об окружающем мире на этап вывода. Он использует чрезвычайно высокую скорость, чтобы обменять возможность «еще несколько раз взглянуть и проверить» на ту часть функциональности, которая «и так не имела бы достаточно параметров».

Низкая задержка и высокая пропускная способность — это не просто преимущества на этапе развертывания, а неотъемлемая часть самой функциональности, что является изобретательным и продуманным решением.

Например, в этой демонстрации работы кабины пилота пользователю достаточно ввести «как взлететь», и модель автоматически выберет зону кабины, определит приборы, кнопки и информацию об управлении клавишами, поймет логику работы текущего интерфейса и сгенерирует пошаговое руководство.

Ключевой момент здесь заключается не только в том, что система может распознавать изображение из кабины пилота, но, что более важно, в том, что она может преобразовывать сложную, незнакомую и зависящую от контекста визуальную среду в руководство по выполнению задач, которому человек может следовать.

Понять что-либо и научить вас этому — совершенно разные вещи с точки зрения сложности.

Мы также интегрировали Flash из шага 3.7 в процесс мобильного графического агента и продемонстрировали его работу на телефоне vivo.

После подключения телефона к Mac через USB и предоставления ADB прав на отладку, терминал может сделать снимок экрана текущего состояния телефона и синхронно отобразить его с помощью scrcpy. Затем скрипт отправляет этот снимок экрана в Step 3.7 Flash, позволяя модели определить, что происходит на экране.

Например, на шаге 3.7 мы показали Flash-приложению, как просмотреть список популярных книг в WeChat на мобильном телефоне. Оно не только читает слова на странице, но и понимает структуру списка: какие книги являются названиями, какие — обложками, какой текущий рейтинг, сколько людей читают книгу и какая книга соответствует значению рекомендации.

Значимость этой возможности заключается в том, что агент работает с реальным приложением, а не с аккуратно отформатированным скриншотом. Ему необходимо понять содержимое страницы, прежде чем он сможет продолжить помогать пользователю находить книги, сравнивать популярность, составлять рейтинги или даже выполнять следующий шаг.

Затем мы разместили его на странице, подобной «Маленькому судье» Meituan, для рассмотрения апелляций продавцов. Страница включает отзывы пользователей, фотодоказательства, ответ продавца и кнопки обработки, такие как «Сторона пользователя более обоснована» и «Сторона продавца более обоснована».

Для данной модели это уже не простое оптическое распознавание текста; речь идет о понимании бизнес-процесса: кто жалуется, в чем заключаются спорные моменты, каковы доказательства и что платформа позволяет делать дальше. Чтобы мультимодальные агенты могли войти в реальный рабочий процесс, они часто сталкиваются с интерфейсами, которые сочетают текст, изображения, оценки и оперативные действия.

При переходе к сцене Blender, когда пользователь вводит запрос "как удалить этот блок", модель распознает структуру интерфейса Blender, слои, панели инструментов и текущее состояние редактирования, а затем предоставит пошаговые инструкции по удалению указанного блока.

Далее рассмотрим анализ дизайна интерфейса приложения. Когда пользователи просят модель объяснить, «что интересного в этих дизайнах», модель определяет информационное содержание в различных изображениях, понимает взаимосвязи между элементами дизайна и генерирует профессиональный анализ.

Шаг 3.7. Еще одна ключевая возможность Flash — расширенные сетевые возможности и визуальный поиск.

В реальных бизнес-ситуациях агенты часто сталкиваются с проблемами, связанными с динамической информацией, внешними данными, данными из нескольких источников и множеством неполных входных данных. Если модель полагается только на свои собственные ограниченные знания, она подвержена сбоям с точки зрения своевременности и точности.

Демонстрация "Руи Ши Лоу" — типичный пример. Модель сначала считывает видимые подсказки с изображений, загруженных пользователями, генерирует поисковые запросы на основе этих подсказок, использует инструменты веб-скрейпинга для поиска информации и, наконец, объединяет визуальную информацию на изображении с текстовой информацией из интернета, чтобы сформировать полный ответ.

Поиск здесь уже не сводится к простому возврату последовательности ссылок на веб-страницы. Модель активно ищет, фильтрует, сравнивает и систематизирует информацию в соответствии с поставленной задачей. Именно так должны работать поисковые и исследовательские агенты.

В официальной документации указано, что Flash Step 3.7 демонстрирует производительность, приближающуюся к производительности более крупных флагманских моделей на тестах для сложных задач компьютерного зрения, таких как SimpleVQA Search и V* (Python). Это означает, что модель может продолжать работу над задачами даже при недостаточной информации и сокращать количество непроверенных ответов.

Правильный подход для развертывания крупномасштабных моделей — это одновременная работа 40 агентов.

Разница между агентом и обычным чат-ботом заключается в более высокой плотности звонков.

Типичная сессия вопросов и ответов обычно включает только один раунд взаимодействия, в то время как агенту необходимо многократно наблюдать за окружающей обстановкой, запускать инструменты и получать результаты для выполнения задачи. Агенту-программисту необходимо читать код, изменять файлы и выполнять команды; агенту-поисковику необходимо извлекать, проверять и систематизировать информацию; а агенту-офисному специалисту необходимо обрабатывать электронные таблицы, документы и электронные письма.

Если количество звонков значительно возрастет, скорость и стоимость моделирования станут проблемами системного уровня.

Шаг 3.7. Flash использует разреженную архитектуру MoE с общим количеством параметров 196 млрд плюс 1,8 млрд ViT и параметром активации всего 11 млрд, достигая максимальной скорости генерации 400 токенов/с. Для высокочастотных агентов, агентов кодирования, агентов поиска, мультимодальных агентов и агентов корпоративной работы с знаниями это означает, что больше раундов наблюдения, вызова и вывода могут быть выполнены за то же время.

Например, на шаге 3.7 Flash может создать кластер агентов, позволяющий 40 виртуальным пользователям с разными учетными записями выступать в качестве команды оценки продукта, параллельно вынося суждения по проблеме продукта и в режиме реального времени обобщая свои предпочтения по 5 направлениям разработки минимально жизнеспособного продукта (MVP).

Здесь и кроется преимущество запуска агентов в пакетном режиме.

Раньше проведение анализа один раз для каждой модели было приемлемым с точки зрения затрат и задержки. Однако, когда компания запускает одновременно десятки агентов, каждый из которых выступает в роли пользователя, эксперта, продавца, менеджера по продукту, операционного менеджера и представителя службы поддержки клиентов, пропускная способность немедленно становится необходимым условием. Недостаточная скорость приводит к медленной обратной связи; чрезмерно высокие цены делают масштабируемость невозможной.

Аналогичным образом, параллельное построение больших графов знаний агентами в режиме реального времени также является высокочастотной многоэтапной задачей. Ценность модели заключается не только в скорости ее генерации, но и в объеме наблюдений, поиска и рассуждений, которые она может выполнить за единицу времени.

Затем я изучил организацию информации. Я дал ей совет: «Мне нужно написать обзор автономного вождения, поэтому мне необходимо отдельно изучить четыре области: технические аспекты, политику и нормативные акты, структуру рынка и компании-представители».

На первый взгляд, эти задачи могут показаться простой агрегацией данных, но на практике они запускают множество раундов поиска, проверки источников, классификации контента и структурированного вывода. Чем длиннее цепочка задач и чем чаще выполняются вызовы, тем легче могут усиливаться различия в производительности модели.

Шаг 3.7. Flash впечатлил меня своей скоростью, но без ущерба для качества. Он собирал информацию из четырех разных источников в интернете и организовывал ее по соответствующим разделам. Техническая схема была четко объяснена, а информация о политике, регулировании и структуре рынка также была разделена. Не было ситуаций, когда разные источники смешивались бы друг с другом, и структурированный результат имел все необходимые уровни.

Стоит отметить, что шаг 3.7 Flash чрезвычайно экономичен при выполнении задач, особенно для часто выполняемых типов задач, таких как работа с агентом.

Обычно задача, выполняемая одним агентом, включает в себя разбор, поиск, чтение веб-страниц, обращение к инструментам, сравнение результатов и организацию выходных данных, что приводит к гораздо большему количеству обращений по сравнению с типичной сессией вопросов и ответов. Разница в стоимости одной задачи быстро увеличивается, если она включена в полную цепочку задач.

Официальные данные показывают, что при включении режима советника возможности программирования Flash Step 3.7 достигают 97% от возможностей Claude Opus 4.6, но стоимость выполнения задачи составляет лишь около одной девятой от последней.

Таким образом, ценность Step 3.7 Flash нельзя свести просто к понятию «быстрота». В контексте рабочих нагрузок агентов он одновременно решает три задачи: высокая пропускная способность сокращает время ожидания, снижение стоимости задач поддерживает крупномасштабные операции, а его программные возможности, близкие к возможностям моделей высшего уровня, позволяют ему интегрироваться в реальные рабочие процессы и выполнять непрерывные и сложные задачи.

Кроме того, для успешной интеграции агента в производственную систему крайне важны стабильные вызовы инструментов. В версии 3.7 Flash оптимизированы высоконадежные вызовы инструментов и оркестрация. Официально утверждается, что система надежно вызывает API, браузеры, терминалы, инструменты Office и внешние системы в длительных многоэтапных рабочих процессах агента, поддерживая согласованные траектории выполнения задач и снижая вероятность отклонений от заданий и сбоев в выполнении.

Официальная команда опубликовала несколько наборов данных. На этапе 3.7 Flash показала процент успешного прохождения теста Toolathlon, проверяющего взаимодействие нескольких инструментов, на уровне 49,5%; на ClawEval 1.1, проверяющем выполнение повседневных автономных задач в реальных условиях, — 67,1%; и на GDPval, охватывающем 44 различные профессиональные задачи, — 45,8%. На низком, среднем и высоком уровнях сложности теста τ²-bench Telecom процент успешного прохождения превысил 98%.

Конечно, есть еще одно легко недооцениваемое условие для создания агента: модель должна быть адаптирована к рабочему процессу. Обычно модель помещается в среду, окруженную шаблонами подсказок, протоколами инструментов, браузерной средой, файловой системой, исполнителем кода, набором оценок, системой разрешений и бизнес-процессом.

В ответ на это, в версии 3.7 Flash были внесены оптимизации совместимости с основными инструментами программирования и агентами, такими как Claude Code, Kilo Code, Roo Code, OpenCode, Hermes Agent и OpenClaw, а также внесены изменения в протоколы вызова и пути разработки таких инструментов, как MCP и Skills.

Таким образом, разработчики могут легче интегрировать модели в существующие агентские системы, не прибегая к полной переработке всего процесса. Для бизнеса ценность адаптации очевидна: чем проще модель интегрируется в существующие системы, тем короче цикл тестирования и развертывания, и тем ниже затраты на разработку.

В настоящее время Step 3.7 Flash успешно интегрирован и протестирован в проектах экосистемы агентов и разработчиков, таких как Kilo Code, Nous Research и Lemonade. StepStar также работает над совместимостью с платформами инфраструктуры ИИ и платформами для вывода результатов, такими как Fireworks AI, DeepInfra и Modal Labs, и в дальнейшем планирует интегрироваться с зарубежными платформами агрегации моделей и разработчиками, такими как OpenRouter и ZenMux.

▲ https://huggingface.co/stepfun-ai/Step-3.7-Flash

На сегодняшний день официальная документация также предоставляет доступ к Step 3.7 Flash через Model Page, GitHub, Hugging Face, ModelScope, API открытой платформы внутри страны, API открытой платформы за рубежом, онлайн-сервис Studio и приложение Step AI.

Эти точки входа означают, что он одновременно открыт для тестирования разработчиками, доступа к корпоративным API и использования в экосистеме открытого исходного кода. Что еще важнее, Step 3.7 Flash поддерживает как облачное, так и локальное развертывание. Также доступна официальная версия с многоточечным вводом для использования на стороне клиента, оптимизированная для персональных рабочих станций и локальных сред.

Отзывы зарубежных разработчиков также позволяют получить представление о ситуации, выходящее за рамки официальных данных. В одном из местных тестов MoE сравнивались DeepSeek V4 Flash, Step 3.7 Flash и Minimax M2.7, и было показано, что Step 3.7 Flash превзошла другие модели по показателю agg@64, достигнув скорости 2123,13 ток/с.

Некоторые разработчики также отмечали, что после написания кода с использованием Gemini 3.5 Flash и последующей проверки его программой Step 3.7 Flash им удалось обнаружить более семи мелких ошибок. Будь то локальная производительность или отладка кода, это ясно показывает, что Step 3.7 Flash начал использоваться в реальных процессах разработки и применяется разработчиками как долгосрочный инструмент повышения производительности.

Базовая модель должна быть разработана для агентов.

После ознакомления с версией 3.7 Flash, компания APPSO обнаружила, что она уделяет больше внимания практической применимости в инженерной сфере, чем достижению высоких показателей в определенном параметре.

Многомодальный сетевой поиск, вызов инструментов, совместимость с фреймворками, локальное развертывание, низкая стоимость и высокая пропускная способность. Каждый из этих элементов по отдельности не является новым, но вместе они идеально заполняют пробелы, которые больше всего необходимы агентам в производственных средах.

Этот путь не отличается изысканностью, но хорошо подходит для нынешнего этапа развития агентных систем. Раньше, когда мы спрашивали о модели, мы спрашивали, достаточно ли она умна. Но в эпоху агентных систем настоящий вопрос должен звучать так: для кого предназначена эта модель?

Эти два вопроса продиктованы разными мотивами.

Один из аспектов заключается в том, что модель оптимизирована для человека, то есть по умолчанию она используется человеком, который умеет читать, ждать и мысленно заполнять пробелы. Вы задаете вопрос, она отвечает, небольшая задержка в несколько секунд допустима, и вы можете дополнить ответ, если он иногда бывает нечетким.

Но Агент этого не делает. Агент должен работать без перерыва в цикле наблюдения, вызова, вывода и исправления ошибок. За день он может сделать больше запросов, чем человек говорит за год. Он не прикрывает модель; если модель сбивается с пути, то и он сбивается с пути.

Модель, оптимизированная для людей, может не подойти для агента. Именно поэтому термин «Flash» приобрел новое значение в эпоху агентов. Это уже не просто дешевая замена флагманскому продукту, а нечто, что необходимо перепроектировать с нуля, чтобы оно соответствовало специфическим потребностям агента.

Шаг 3.7. Вспышка. Эти характеристики в точности соответствуют данной логике.

Необходима нативная мультимодальная обработка, поскольку агенту сначала нужно увидеть контекст задачи; 400 токенов/с необходимы, потому что высокочастотные вызовы не выдерживают медленной работы; стабильность вызовов инструментов необходима, поскольку разрыв одного звена в длительной задаче приведет к сбою всего процесса; адаптация к существующей системе необходима, потому что, какой бы сильной ни была модель, она бесполезна, если не может интегрироваться в существующую систему.

Цель не в рейтингах, а в том, чтобы показать агентам, «как работать эффективно и экономично». От шага 3.5 Flash до шага 3.7 Flash компания JetStar постоянно совершенствовала одну и ту же модель: создание модели, разработанной специально для агентов, и стимулирование их к масштабному коммерческому использованию.

В будущем это станет важным эволюционным путем для модели, и шаг 3.7 Flash — это не конец. Но он показывает нам изменение: оценивая модель эпохи агентов, мы должны сосредотачиваться не только на том, насколько она умна, но и на том, готова ли она разбираться в этих тривиальных инженерных затратах шаг за шагом.

Что действительно изменило мир в 1492 году, так это не опасное плавание Колумба, а скорее последующее стабильное движение торговых судов Флюка — их способность отплыть, вернуться, загрузить груз и снова отправиться в путь. Авантюристы отвечали за достижение другой стороны, а торговые суда — за превращение этой стороны в судоходный маршрут.

Тот же принцип применим и на этапе конкуренции между моделями, когда дело доходит до этапа агентов. Их действительно отличают не только впечатляющие результаты в бенчмарках, но и модели, позволяющие агентам многократно запускать и надежно прибывать, а их возможности затем преобразуются в траектории полета.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.