Первая развернутая публикация Линь Чуньяна после ухода с работы: размышления о преимуществах и недостатках тысячи вопросов, предсказание того, что во второй половине развития ИИ потребуется «мышление интеллектуального агента».

Возглавляя команду, запустившую серию миниатюрных моделей Qwen 3.5 и получившую публичную похвалу от Илона Маска, Линь Цзюньян объявил о своем уходе из Alibaba в социальных сетях всего через 20 часов. Сам по себе уход Линь Цзюньяна из Alibaba является одним из самых драматичных событий в индустрии искусственного интеллекта в 2026 году.

В 32 года, став самым молодым сотрудником Alibaba на десятом месте в рейтинге, он в одиночку превратил Qianwen в платформу с более чем миллиардом загрузок по всему миру и более чем 200 000 производных моделей, став новым королем моделей с открытым исходным кодом во всем мире. Его уход был вызван разногласиями по поводу организационной реструктуризации:

Компания Alibaba хочет разделить команду Qwen по горизонтали, разделив ее на группы по таким параметрам, как предварительное обучение, последующее обучение, визуальное и речевое обучение, и объединить с другими командами в лаборатории Тонги; Линь Цзюньян твердо убежден, что группы предварительного обучения, последующего обучения и даже инфраструктуры должны быть более тесно интегрированы по вертикали, а не разделены. Это не просто спор о стилях управления, а расхождение во взглядах на фундаментальный вопрос «как обучить наилучшую модель».

Спустя почти месяц после своего ухода Линь Цзюньян опубликовал эту длинную статью. Он не отреагировал ни на какие кадровые перестановки, а прямо изложил свою точку зрения на следующий этап развития ИИ: мы переходим от эры «обучения моделей» к эре «обучения интеллектуальных агентов» .

Эту статью стоит прочитать слово в слово, не только потому, что автор лично курировал постобработку всей серии Qwen в течение последних двух лет, но и потому, что Линь Цзюньян дает редкий обзор достижений и недостатков Qwen3 с точки зрения «гибридного режима мышления».

Ниже приведён перевод работы Линь Цзюньяна, выполненный организацией APPSO:

оригинал  https://x.com/JustinLin610/status/2037116325210829168

От «мышления, основанного на рассуждениях» к «мышлению, основанному на действиях субъекта»

Последние два года полностью изменили подход к оценке моделей искусственного интеллекта.

Модель o1 от OpenAI доказала одно: «мышление» может быть ключевой способностью модели, которую можно специально обучить и передать непосредственно пользователям. DeepSeek-R1 последовала за ней, доказав, что это «постобучение на основе выводов» не является патентом крупных компаний, а может быть воспроизведено и расширено за пределами первоначальных лабораторий. Проще говоря: o1 — это модель, которую научили «думать, прежде чем отвечать», а R1 — это версия той же модели с открытым исходным кодом, которая на равных конкурирует с o1.

Этот этап важен. Но главная тема отрасли в первой половине 2025 года, по сути, по-прежнему вращается вокруг одного: как заставить модель «думать» больше . Заставить ее потреблять больше вычислительной мощности на этапе вывода, обучать ее с использованием более сильных сигналов вознаграждения и выявлять или контролировать эти дополнительные «мыслительные процессы».

Теперь вопрос: а что дальше?

Я считаю, что ответ кроется в мышлении, подобном мышлению разумного агента . Мышление с целью совершения действий, взаимодействие с реальной средой и постоянная корректировка планов на основе обратной связи от окружающего мира.

1. Чему на самом деле нас научило появление O1 и R1?

Первая волна моделей вывода преподала нам простой урок: для запуска обучения с подкреплением на больших моделях необходим надежный стандарт оценки.

Что означает «надежность»? Это означает, что ответ можно оценить как правильный или неправильный, результат можно проверить, а сигнал обратной связи достаточно ясен. Математические задачи имеют стандартные ответы, код может запускать тесты, а логические рассуждения могут проверять шаги решения. Эти области стали основным полем битвы для обучения с подкреплением, потому что сигналы вознаграждения, получаемые моделью в этих случаях, намного сильнее, чем «заставить человека-аннотатора считать этот ответ правильным». Другими словами, обучение с подкреплением наконец-то может оптимизировать правильность и, наконец-то, ему не нужно просто стремиться к чему-то, что выглядит правдоподобным.

Затем внезапно стала очевидной важность инфраструктуры.

Как только вы начинаете обучать модели для более длинных цепочек вывода, обучение с подкреплением перестает быть простым добавлением небольшого элемента к контролируемой тонкой настройке; оно превращается в сложный проект системной инженерии. Вам потребуются крупномасштабные симуляции (внедрение), высокопроизводительная проверка ответов, стабильная итерация политики и эффективные процессы выборки. Появление моделей вывода, хотя на первый взгляд и является прорывом в алгоритмах, по сути, является победой для инфраструктуры .

OpenAI определяет o1 как линейку продуктов для вывода результатов, обученных с использованием обучения с подкреплением; DeepSeek R1 продолжает эту тенденцию и подтверждает правильность выбранного направления, а также демонстрирует, насколько требователен к базовым алгоритмам и инфраструктуре подход обучения с подкреплением, основанный на выводе результатов.

Основные моменты, отмеченные APPSO: Произошёл первый крупный сдвиг. В отрасли акцент сместился с «расширения предварительного обучения» на «расширение постобучения для вывода результатов». Модели становятся сильнее уже не за счёт обработки большего количества данных, а за счёт обучения «способу мышления» на этапе постобучения.

2. Настоящая проблема никогда не сводится просто к «интеграции моделей мышления и обучения».

В начале 2025 года у нашей команды Qwen была грандиозная идея.

Идеальная система выглядела бы так: модель, которая одновременно обрабатывает как «режим мышления», так и «режим выполнения». Глубину её мышления можно было бы регулировать вручную — легкое, среднее или глубокое — подобно регулировке температуры кондиционера. Ещё лучше, если бы сама модель могла определять: эта проблема простая, ответить сразу; эта проблема немного сложная, подумать ещё; эта проблема чрезвычайно сложная, мобилизовать все вычислительные мощности для её решения.

Направление было правильным. Qwen3 был одной из самых очевидных публичных попыток на тот момент. Он представил « гибридный режим мышления », поддерживающий как «подумать, прежде чем ответить», так и «ответить напрямую» в рамках семейства моделей. Он также описал четырехэтапный конвейер постобработки, который явно включал этап «слияния режимов мышления» после холодного старта длинной цепочки вывода и обучения с подкреплением при выводе.

Но интеграция — дело непростое; о ней легко говорить, но невероятно сложно реализовать на практике .

В чём сложность? Сложность заключается в данных.

Когда многие слышат о «интегрированном мышлении и режимах управления», они сразу же думают о проблемах на уровне модели: может ли файл модели работать в двух режимах одновременно? Может ли шаблон диалога переключаться между двумя стилями? Может ли служба вывода предоставить правильный переключатель включения/выключения? Это действительно проблемы, которые необходимо решить, но это не самые серьезные подводные камни.

Главная проблема заключается в том, что эти две модели принципиально различаются по своим целям .

Подумайте, как должна выглядеть хорошая «модель инструкций»? Она должна быть лаконичной, простой, правильно отформатированной и адаптивной. Корпоративные пользователи используют её для пакетной перезаписи текста, добавления тегов, шаблонного обслуживания клиентов и извлечения структурированных данных — сценариев, в которых приоритет отдаётся эффективности и стабильности, без необходимости чрезмерного усложнения.

Хорошая «модель мышления»? Совсем наоборот. Она должна уделять больше времени сложным проблемам, сохранять четкие промежуточные этапы рассуждений, исследовать различные пути решения и оставлять достаточно «запаса времени» для обеспечения правильности окончательного ответа.

Эти две черты характера по своей сути несовместимы. Если объединенные обучающие данные не разработаны должным образом, результирующая модель часто не удовлетворяет ни одну из сторон: она многословна, нерешительна и непоследовательна в своих рассуждениях; она не отличается четкостью, стабильностью, а также является ресурсоемкой и работает медленнее, чем та версия, которая действительно необходима клиенту при выполнении инструкций.

Честно говоря, в процессе балансирования между интеграцией и качеством данных нам не всё удалось сделать правильно .

В ходе непрерывного процесса проверки мы также внимательно наблюдали за тем, как пользователи фактически использовали эти два режима. Вывод очевиден: эти два поведенческих профиля действительно противостоят друг другу.

Реальность оказалась честной. Позже, в 2025 году, после первоначальной гибридной архитектуры Qwen3, в нашем релизе 2507 по-прежнему были отдельные версии для инструкций и анализа, включая отдельные варианты 30B и 235B. Многим корпоративным клиентам не нужно было задумываться о шаблонах ; им требовалась высокая пропускная способность, низкая стоимость и легко управляемое поведение инструкций для выполнения пакетных задач. Для этих клиентов конвергенция была не преимуществом, а ненужными затратами. Разделение позволило командам обеих линий более целенаправленно сосредоточиться на решении своих соответствующих задач.

Другие лаборатории применили противоположный подход:

Компания Anthropic публично сделала ставку на интегрированный подход. Claude 3.7 Sonnet — это гибридная модель вывода, в которой пользователи могут выбирать между стандартными ответами или расширенным мышлением, а API также позволяет устанавливать «бюджет мышления». Компания Anthropic прямо заявила, что вывод должен быть интегрированной возможностью модели, а не отдельной, независимой моделью.

GLM-4.5 также фокусируется на гибридном рассуждении, объединяя рассуждения, программирование и возможности агентов в единую модель.

Позже DeepSeek V3.1 сделал нечто подобное, запустив гибридное решение для вывода данных, сочетающее в себе функции «Думай и не думай».

Итак, вопрос: кто прав?

Ответ кроется не в выборе между «интеграцией» и «разделением», а в том, является ли эта интеграция органичной. Если мыслительный процесс и процесс обучения неуклюже втиснуты в одну модель, как два человека с совершенно разными характерами, которых пытаются втиснуть в одну одежду, то пользовательский опыт будет неудовлетворительным.

Для действительно успешного слияния требуется плавный спектр : модель может свободно переключаться между различными интенсивностями вывода, и в идеале она даже может определять, сколько усилий использовать . Управление усилиями в стиле GPT указывает в этом направлении; это непрерывная стратегия, определяющая, «сколько вычислительной мощности потратить на мышление», а не бинарный переключатель «думать/не хотеть».

Основные моменты от APPSO: Линь Чунь-ян редко откровенно говорит об интеграции Qwen3, заявляя, что она «была сделана не совсем правильно». Основное противоречие на самом деле легко понять: насильственное сочетание быстрого и безжалостного исполнителя с вдумчивым и рассудительным мыслителем легко приводит к неудовлетворительному результату с обеих сторон.

3. Почему направление антропического воздействия является полезной формой коррекции?

Подход Антропика к пунктам 3.7 и 4 книги Клода представляет собой примечательный пример сдержанности.

Вместо того чтобы сосредотачиваться на том, насколько модель способна «думать», они сделали акцент на: интегрированном рассуждении, управляемом пользователем бюджете мышления, задачах реального мира, качестве программирования и важном последующем шаге: предоставлении модели возможности использовать инструменты во время мышления . Claude 3.7 — это гибридная модель рассуждения с контролируемым бюджетом; Claude 4 идет дальше, позволяя чередовать рассуждения и использование инструментов, одновременно думая и действуя. Между тем, Anthropic отдает приоритет программированию, длительным задачам и рабочим процессам агентов.

Здесь кроется глубокая мысль:

Более длинная цепочка рассуждений не означает более совершенную модель . На самом деле, часто бывает наоборот. Если модель использует один и тот же длинный подход к рассуждениям для всех задач, это означает, что она не умеет расставлять приоритеты. Вероятно, она терпит неудачу в трех аспектах: что приоритезировать (приоритизация), что сжимать (конденсация информации) и когда прекратить думать и начать действовать (принятие решений о действиях).

Подход Anthropic предполагает более дисциплинированную перспективу: мышление должно служить конкретным рабочим целям . Если вы программируете, мышление должно помогать вам ориентироваться в кодовых базах, планировать архитектуру, разбивать проблемы на составляющие, восстанавливаться после ошибок и координировать вызовы инструментов. Если вы работаете над рабочим процессом агента, мышление должно помогать вам поддерживать качество на протяжении всего длительного процесса выполнения, а не создавать множество впечатляющих, но в конечном итоге непродуктивных промежуточных документов.

Идея о том, что «мышление должно служить действию», указывает на более масштабное утверждение:

Мы переходим от эры обучения моделей к эре обучения интеллектуальных агентов .

Мы прямо заявили об этом в блоге Qwen3. Что такое интеллектуальный агент? Это система, способная строить планы, принимать решения о том, когда действовать, использовать инструменты, отслеживать обратную связь из окружающей среды, корректировать стратегии и непрерывно работать в течение длительных периодов времени. Короче говоря, его суть заключается в замкнутом взаимодействии с реальным миром .

Главный тезис APPSO : длина не равна силе. Практика Anthropic служит важным корректирующим сигналом. Ценность мышления заключается в том, действительно ли оно служит конечной цели действия, а не в количестве слов, содержащих рассуждения. Это переход от «показных рассуждений» к «практическому мышлению».

4. Что именно означает «интеллектуальное автономное мышление»?

Заложив столь прочный фундамент, давайте перейдем к делу.

Мышление интеллектуального агента и логическое мышление преследуют совершенно разные цели оптимизации.

Для наглядности: рассуждения похожи на экзамен без использования учебников; критерием является правильность вашего ответа в момент сдачи работы. Способность модели решать теоремы, писать доказательства, создавать корректный код и проходить тесты производительности имеет первостепенное значение. Какими бы сложными ни были ваши рассуждения, в конечном итоге важен только результат.

Интеллектуальное мышление больше похоже на работу над проектом в реальном мире . Критерием оценки является не ответ в определенный момент, а способность постоянно двигаться вперед и решать проблемы в процессе непрерывного взаимодействия с окружающей средой.

Суть проблемы изменилась.

Вопрос сместился с «Как долго модель способна мыслить?» на « Может ли модель мыслить таким образом, чтобы поддерживать эффективные действия? »

Это требует от модели решения множества проблем, которые традиционные модели вывода могут обойти:

  • Когда следует перестать думать и начать действовать? Слишком много размышлений приведут к тому, что вы упустите благоприятный момент; слишком мало размышлений — к ошибкам.
  • Какой инструмент следует вызвать и в каком порядке? Это задача планирования и составления расписания.
  • Как нам обрабатывать зашумленную и неполную информацию из окружающей среды? В реальном мире вы не получите чистых входных данных.
  • Что, если мы потерпим неудачу? Мы не можем сдаваться; мы должны пересмотреть план и продолжать двигаться вперед.
  • Как сохранить согласованность после десятков взаимодействий и вызовов инструментов? Это проблема долговременной памяти и согласованности.

Если бы мне нужно было резюмировать это одним предложением:

Мышление интеллектуального агента = модель, которая рассуждает на основе действий. Она непрерывно мыслит, выполняя свои действия.

APPSO подчеркивает этот ключевой момент : мышление, основанное на рассуждениях, подобно экзамену без использования учебников, в то время как мышление, основанное на действиях агентов, подобно выполнению проекта в реальном мире. Первое фокусируется на правильности окончательного ответа, а второе оценивает вашу способность постоянно развиваться в сложных, динамичных и непредсказуемых условиях. Это представляет собой фундаментальный сдвиг в системах оценки возможностей ИИ.

5. Почему инфраструктура для агентного обучения с подкреплением (RL) сложнее?

Когда цель меняется, вся соответствующая инженерная работа должна быть соответствующим образом скорректирована.

Инфраструктура, используемая в классическом обучении с подкреплением, уже недостаточна.

Чтобы интуитивно понять разницу: в обучении с подкреплением на основе вывода модель решает задачу, предоставляет ответ, а оценщик выставляет оценку. Весь процесс, по сути, самодостаточен, и оценщик работает практически бесконтрольно. Это как проверка работ в закрытом экзаменационном зале.

Однако в агентном обучении с подкреплением модель отвечает на вопросы не в экзаменационной комнате; она существует в сложной, реальной среде . Серверы инструментов, браузеры, терминалы командной строки, поисковые системы, симуляторы, песочницы для выполнения кода, API-интерфейсы, системы памяти, системы планирования… стратегии модели встроены во всю эту систему. Среда больше не является судьей, стоящим рядом и оценивающим результаты; она сама является частью системы обучения.

Это вводит новое критическое требование: обучение и вывод должны быть более четко разделены . В противном случае пропускная способность всей системы резко упадет.

Приведу конкретный пример: программист генерирует код и должен запустить его в реальной тестовой среде, чтобы увидеть результаты. На этом этапе механизм вывода ожидает обратной связи по выполнению и ничего больше не может сделать; механизм обучения ожидает завершенных данных траектории и тоже испытывает нехватку ресурсов. Использование графического процессора всем конвейером намного ниже, чем можно было бы ожидать в классическом выводе с подкреплением. Добавьте к этому задержку ответа инструмента, неполную видимость состояния среды и тот факт, что каждое взаимодействие изменяет состояние среды, и эти неэффективности экспоненциально увеличиваются. В результате: вы далеки от достижения желаемого уровня производительности, и эксперименты уже становятся досадно медленными.

Сама окружающая среда стала предметом исследований на уровне граждан первого класса .

В эпоху контролируемой тонкой настройки (SFT) все соревновались в разнообразии данных; преимущество получал тот, у кого было больше и лучше размеченных данных. В эпоху интеллектуальных агентов конкуренция смещается к качеству среды : стабильна ли среда? Достаточно ли она реалистична? Сколько сценариев она охватывает? Является ли градиент сложности разумным? Достаточно ли богато пространство состояний? Достаточно ли информативны сигналы обратной связи? Может ли модель находить уязвимости для использования? Достаточно ли высока эффективность генерации обучающих траекторий в больших масштабах?

Создание среды трансформируется из «случайно собранного экспериментального компонента» в самостоятельное предпринимательское направление . Если интеллектуальный агент, которого вы обучаете, в конечном итоге будет работать в среде, приближенной к производственной, то сама эта среда является частью вашего основного набора компетенций.

Главный вывод APPSO: если резюмировать этот сдвиг одним предложением, то эра SFT была посвящена данным, а эра интеллектуальных агентов — среде. Создание высококачественных обучающих сред превращается из «грязной работы в лаборатории» в «стратегический актив, определяющий ваши возможности».

6. Следующий рубеж — это более практичное мышление.

Я считаю, что разумное мышление, основанное на действиях субъекта, станет доминирующей формой мышления .

Вполне вероятно, что в конечном итоге это заменит устаревший статичный монолог, представляющий собой подход, при котором модель замыкается в себе и бормочет себе под нос длинный внутренний диалог, пытаясь компенсировать фундаментальный недостаток «я не могу взаимодействовать с внешним миром» всё большим количеством слов.

Даже при решении чрезвычайно сложных математических или программных задач по-настоящему продвинутая система должна иметь право на поиск, моделирование, выполнение, проверку, подтверждение и исправление. Цель состоит в том, чтобы эффективно решить проблему, причем сделать это надежно и эффективно . Речь не идет о том, кто напишет самую длинную или самую элегантную цепочку рассуждений.

Однако обучение таких систем представляет собой более сложную задачу, чем что-либо другое: взлом системы вознаграждений .

Как только модель приобретает действительно значимые инструментальные возможности, риск перехвата вознаграждения возрастает экспоненциально. Как это объяснить?

  • Модель, способная к поиску, могла научиться искать ответы непосредственно в процессе обучения с подкреплением, а не путем рассуждений; она находит ответы напрямую.
  • Программист-агент может научиться использовать будущую информацию из репозитория кода (например, тестовые примеры, которые неявно содержат ответ), злоупотреблять журналами или обнаружить способ ускорить выполнение задачи, не выполняя при этом никаких действий.
  • Если в обучающей среде есть скрытые утечки информации, модель может демонстрировать сверхчеловеческие результаты, но на самом деле она была обучена эффективно обманывать.

Именно здесь эра интеллектуальных агентов оказывается гораздо более сложной и опасной, чем эра рассуждений . Чем мощнее инструменты, тем полезнее становятся модели, но тем больше лазеек они могут использовать. Более совершенные инструменты также расширяют поверхность атаки «ложных оптимизаций».

Я предполагаю, что следующим узким местом в исследованиях, которое будет тормозить развитие всей отрасли, станут следующие области: проектирование среды, надежность оценщиков, протоколы борьбы с мошенничеством и более принципиальное взаимодействие между политикой и миром.

Но направление очевидно: размышления об расширении возможностей инструментов более полезны и с большей вероятностью приведут к реальному повышению производительности, чем размышления за закрытыми дверями.

Мышление интеллектуальных агентов также подразумевает совершенно новый вид системной инженерии. Основной интеллект будет все чаще определяться тем, как организованы многочисленные агенты: координатор, отвечающий за общее планирование и распределение задач, группа специализированных агентов и субагенты, выполняющие более специфические задачи, которые помогают контролировать контекстное окно, предотвращать искажение информации и поддерживать четкие границы между рассуждениями на разных уровнях.

Перспективы на будущее предполагают трехэтапный скачок: от обучения моделей к обучению агентов, а затем к обучению систем .

Главный вывод APPSO: инструменты делают модели более полезными, но также упрощают мошенничество. Перехват вознаграждения — это «бомба замедленного действия» в эпоху интеллектуальных агентов. Тот, кто первым решит проблемы проектирования среды и борьбы с мошенничеством, получит преимущество на следующем этапе соревнований.

в заключение

Первый этап волны выводов установил важнейший момент: когда сигналы обратной связи надежны, а инфраструктура способна выдерживать нагрузку, обучение с подкреплением на больших моделях может привести к качественному скачку в познании.

Но более глубокий сдвиг заключается в переходе от мышления, основанного на рассуждениях, к мышлению, основанному на действиях: от «размышления на более длительный срок» к «мышлению, ориентированному на действие» .

Основной объект обучения изменился. Теперь это не отдельная модель, а вся система, состоящая из модели и окружающей среды . Точнее, это сам агент, плюс вся окружающая его инженерная составляющая. Это означает, что изменилось и то, какие исследования наиболее важны: архитектура модели и обучающие данные по-прежнему важны, но проектирование среды, инфраструктура развертывания, надежность оценщика и интерфейсы координации между несколькими агентами имеют не меньшее значение.

Это также меняет определение «хорошего мышления»: лучшая цепочка рассуждений — это та, которая позволяет поддерживать эффективные действия в условиях реального мира . Это не самая длинная цепочка и не самая эффектная на вид, но самая полезная.

Это также изменило источник конкурентного преимущества:

В эпоху вывода информации конкуренция разворачивается за счет более совершенных алгоритмов обучения с подкреплением, более сильных сигналов обратной связи и более масштабируемых конвейеров обучения.

В эпоху интеллектуальных агентов ключ к успеху лежит в улучшенных средах обучения, более тесной интеграции обучения и вывода, более сильных возможностях системной инженерии и способности замкнуть цикл «принятие решения → последствия → обучение» .

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.