48 часов с момента ухода Линь Цзюньяна: пост в WeChat Moments, небольшая модель и гипотеза о триллионе долларов.

6 марта, 2026 Дядя Влад

«Продолжайте следовать первоначальному плану».

В разгар слухов о его уходе Линь Цзюньян, ключевая фигура в команде Qwen, опубликовал две фразы в своих моментах на WeChat:

«Братья Квен, продолжайте в том же духе, никаких проблем».

«Всё уже решено»? Что это значит?

Незадолго до ухода Линь Цзюньяна команда Qwen выпустила продукт, ставший вирусным в мировом сообществе разработчиков: серию Qwen 3.5 Small с параметрами от 0,8B до 9B, разработанную специально для периферийных устройств и способную работать на обычных ноутбуках.

Речь идёт не о наличии более крупной модели, а о наличии набора более мелких моделей. За последние три года в индустрии ИИ сложился самый сильный консенсус: «чем больше, тем лучше». Сэм Альтман из OpenAI изо всех сил пытается привлечь триллионы долларов для создания вычислительной инфраструктуры, а лаборатории участвуют в гонке вооружений, растрачивая деньги и ресурсы, основываясь на одном и том же фундаментальном предположении: чем больше модель, тем она умнее.

Эта логика известна как Закон масштабирования. Это не просто техническое правило, а скорее убеждение — вся стратегия финансирования отрасли, распределение талантов и инвестиции в оборудование основаны на этой предпосылке.

Но выпуск Qwen 3.5 Small и уход Линь Цзюньяна произошли одновременно. Технический сигнал и кадровый сигнал переплелись, создав более сложную картину: что именно происходит с малой моделью? Почему это важно?

Когда 9B побеждает 120B

Даже те, кто не занимается разработкой, могут оценить производительность Qwen 3.5 с помощью бенчмарк-тестов:

В серии Qwen 3.5 Small модель с 9 миллиардами параметров превзошла модель gpt-oss-120B от OpenAI, имеющую в 13 раз больше параметров, в нескольких сравнительных тестах.

Это не просто незначительные преимущества по второстепенным показателям, а систематическое превосходство в основных задачах вывода. Модель, которая помещается в ноутбук, значительно превзошла конкурента, для работы которого в математических, научных и визуальных задачах требуется оборудование уровня центров обработки данных.

Честно говоря, gpt-oss-120B — это не флагманский продукт OpenAI, а скорее предложение среднего уровня среди открытых весов. Кроме того, он использует архитектуру MoE и номинально рассчитан на 120 миллиардов параметров, но каждый токен фактически активирует только около 5,1 миллиарда параметров — поэтому разница в количестве параметров не так значительна, как кажется на бумаге, на инженерном уровне.

Однако это не опровергает обоснованность самой тенденции, поскольку Qwen 3.5 Small не является единичным случаем.

Примерно в то же время журнал Nature сообщил о миниатюрной рекурсивной модели (TRM), которая превзошла несколько лучших больших языковых моделей в логическом тесте ARC-AGI. В начале 2026 года Google Research опубликовал статью, демонстрирующую, что меньшие модели значительно превосходят большие модели в задачах извлечения намерений. Исследование в PNAS показало еще более прямолинейное сравнение: наблюдается резкое снижение отдачи от размера модели и ее убедительности; после определенного момента увеличение размера модели практически не дает улучшений.

В октябре 2025 года газета Wall Street Journal осмелилась заявить: «Крупные модели привлекают все внимание, но именно небольшие модели выполняют реальную работу».

Все эти сигналы указывают на один вывод: достижение большой прибыли при небольших инвестициях — это не единичный случай, а неизбежная тенденция.

Итак, вопрос: что же делает маленькую модель такой особенной?

Это не масштабная альтернативная литература.

Интуитивно люди склонны рассматривать небольшие модели как «альтернативу большим моделям» — тот же метод, только меньший по масштабу и с несколько худшими показателями, но более дешевый.

Но на самом деле все обстоит совершенно наоборот: причина, по которой современные небольшие модели могут достигать отличных результатов при ограниченных ресурсах, заключается в том, что они выбрали совершенно иной путь с точки зрения технической методологии по сравнению с крупными моделями.

Во-первых, качество данных важнее их масштаба. Подход больших моделей заключается в том, чтобы «поглотить как можно больше данных из интернета», в то время как подход небольших моделей — таких как серия Phi-4 от Microsoft — использует избирательный подход: высококачественные синтетические данные в сочетании со строго отобранными общедоступными наборами данных, что позволяет модели обучаться точнее на меньшем объеме данных. Основная логика фундаментальна: это не принцип «чем больше данных вы предоставляете, тем умнее становитесь», а скорее принцип «чем лучше вы учитесь, тем точнее ваше обучение».

Во-вторых, нативная мультимодальная архитектура заменяет собой соединение адаптеров. Традиционный подход заключается в том, чтобы сначала обучить большую модель, ориентированную исключительно на текст, а затем интегрировать возможности обработки изображений, видео и аудио с помощью адаптерных модулей. Qwen 3.5 использует совершенно другую архитектуру: она совместно обучает визуальные и текстовые токены в одном и том же латентном пространстве, что делает её мультимодальной с самого начала. Это означает, что это модель, которая по своей природе понимает как текст, так и изображения. Эта архитектура на самом деле более выгодна при небольшом количестве параметров, поскольку она устраняет необходимость в дополнительных накладных расходах на адаптеры.

Во-третьих, технология квантования обеспечивает не только сжатие. 4-битное квантование часто понимают как «уменьшение модели в 4 раза для экономии места», но его истинное значение заключается в четырехкратном снижении пропускной способности памяти. На периферийных устройствах узким местом часто является не объем памяти, а пропускная способность памяти, то есть скорость передачи данных из памяти в процессор. Технология квантования дает небольшим моделям решающее преимущество в скорости на мобильных телефонах и ноутбуках с ограниченной пропускной способностью.

Эти методологические прорывы начали воплощаться в продуктах. В первую неделю марта Apple выпустила всю линейку чипов M5, каждое ядро GPU которой оснащено встроенным нейронным ускорителем, обеспечивающим до 8 раз более высокую производительность ИИ по сравнению с M1. Одновременно Apple Research представила Ferret-UI Lite — графический агент для устройств с всего 3 байтами параметров, способный локально управлять мобильными и настольными приложениями. В сочетании с базовой моделью Apple Intelligence, занимающей около 3 байт на стороне устройства, Apple продвигает «искусственный интеллект на устройстве» из концепции в продукт, интегрирующий чипы, модели и взаимодействия.

Многомодальный интерфейс Phi-4 от Microsoft также начал коммерческое развертывание на Azure, с параметрами 3.8B, принимающими текстовый, аудио- и графический ввод. Отзывы от сообщества разработчиков открытого исходного кода были еще более прямыми — разработчики на Reddit после тестирования считают версию 4B в Qwen 3.5 оптимальной моделью: стабильной в различных задачах, без сбоев и значительно более быстрой, чем версия 9B.

Технологический подход подтвердил свою эффективность, наступил переломный момент в процессе внедрения продукта, и наступает рассвет.

В тот самый момент Линь Цзюньян решил уйти.

Компания, которая лучше всего умеет создавать миниатюрные модели, — это та, у которой меньше всего мотивации для достижения успеха.

С момента своего выпуска Qwen 3.5 Small получила широкое признание в сообществе разработчиков, а количество отзывов от сообщества открытого исходного кода даже превысило официальные анонсы релиза.

Однако компания, в которой он работает, называется Alibaba, а движущей силой бизнеса Alibaba является Alibaba Cloud.

Между большими моделями и облачными вычислениями существует естественная положительная обратная связь: чем больше модель, тем больше вычислительной мощности требуется для вывода результатов, и тем больше клиентам приходится приобретать облачные вычислительные услуги. Для Alibaba Cloud большие модели — это идеальная бизнес-модель: они одновременно увеличивают потребность клиентов в вычислительных мощностях и их зависимость от облачной платформы.

Логика, лежащая в основе небольших моделей, прямо противоположна. Основная ценность небольших моделей заключается в их способности работать на периферийных устройствах — мобильных телефонах, ноутбуках и периферийных серверах. Это означает, что клиенты могут обойти облако и выполнять вычисления локально. Для пользователей это означает снижение затрат, лучшую конфиденциальность и меньшую задержку. Но для Alibaba Cloud это означает снижение доходов.

Чем лучше будут результаты Qwen 3.5 Small, тем сложнее это будет для бизнес-стратегии Alibaba Cloud.

Это проблема не только для Alibaba. Если посмотреть на китайских технологических гигантов, то почти все ведущие компании, занимающиеся искусственным интеллектом, сталкиваются с теми же структурными противоречиями. Baidu и Tencent находятся в схожей ситуации с Alibaba — их бизнес-модели построены на облачных сервисах и распределении доходов от платформы, а тенденция к использованию периферийных, менее масштабных моделей напрямую ослабляет их ценностное предложение.

Телефон Doubao от ByteDance — интересное исключение, но ByteDance только начинает свою деятельность в сфере производства аппаратного обеспечения и еще далека от создания вертикально интегрированной системы "чип + операционная система + модель".

Теоретически Huawei находится в наилучшем положении, обладая как чипами, так и терминальным оборудованием. Однако под влиянием санкций ограниченные вычислительные мощности вынуждают компанию придерживаться подхода, ориентированного на меньшие масштабы, что скорее является пассивной стратегией выживания, чем проактивным стратегическим выбором. Что касается Xiaomi, OPPO и vivo, у них есть оборудование, но они не являются компаниями, ориентированными на искусственный интеллект, им не хватает генов для разработки собственных моделей и мотивации для постоянных инвестиций.

В глобальном масштабе, возможно, существует только одна компания, которая по-настоящему освоила весь комплекс решений для периферийного ИИ: Apple. Ей принадлежит всё: чипы, устройства, операционные системы и собственные запатентованные модели. Движущая сила Apple заключается в диверсифицированной бизнес-модели, которая заставляет компанию размещать как можно больше вычислительных ресурсов на самом устройстве, поскольку каждое улучшение в работе с периферийным ИИ приводит к повышению качества оборудования и укреплению экосистемы.

Однако нам необходимо честно ответить на возможное возражение: разве поставщики облачных услуг не могут использовать подход «сотрудничество между периферией и облаком»? Использовать небольшую модель в качестве точки входа на периферии и обрабатывать сложные задачи вывода, обращаясь обратно в облако, чтобы ни одна из сторон не оставалась без внимания.

Теоретически это возможно. Но это как раз иллюстрирует проблему: в рамках сотрудничества между периферийными устройствами и облаком небольшие модели являются «инструментами привлечения трафика» для поставщиков облачных услуг, а не «независимыми продуктами». У поставщиков облачных услуг нет стимула делать небольшие модели настолько хорошими, чтобы им больше не требовалось облако.

Еще один неизбежный контрпример — Microsoft, поставщик облачных услуг, который всерьез разрабатывает небольшие модели Phi-4 и уже запустил их в коммерческую продажу. Означает ли это, что аргумент о «борьбе с самим собой» несостоятелен?

Вовсе нет. Способность Microsoft работать на двух фронтах обусловлена её двухсторонней стратегией: аппаратной экосистемой Windows и Surface, облачной платформой Azure и линейкой продуктов Copilot для периферийных вычислений. Для Microsoft Phi-4 — это оборонительный шаг: если тенденция к развитию периферийного ИИ необратима, ради общей картины лучше принять трудные решения и пожертвовать частью собственного бизнеса, чем уступить рынок периферийных вычислений сообществу открытого исходного кода и Apple .

Но у Alibaba нет такой возможности — нет операционной системы потребительского класса, нет массового терминального оборудования и нет линейки продуктов на основе ИИ для индивидуальных пользователей. Как бы хорошо ни работала Qwen, у неё нет собственного «последнего звена» для внедрения своих решений.

Различные источники питания приводят к различным предельным значениям производительности изделия.

Это создает тревожную картину: реальным препятствием для перехода небольших моделей из лаборатории в продукт является не техническая компетентность, а несоответствие спроса и предложения; компания, которая лучше всего умеет создавать небольшие модели (поставщики облачных услуг), имеет наименьшую мотивацию для того, чтобы сделать их по-настоящему успешными; а компания, которая больше всего нуждается в небольших моделях (производители оборудования), не обладает возможностью самостоятельно их разрабатывать.

"Без проблем"

Возвращаясь к посту Линь Цзюньяна в WeChat Moments: «Продолжайте делать все по плану, никаких проблем».

Возможно, технический подход действительно верен, и всё движется в правильном направлении. Но в компании, ориентированной на облачные технологии, даже если будет создана первоклассная модель для малого бизнеса, положение команды неизбежно будет некомфортным.

Это не критика Alibaba — любая компания, чей основной источник дохода — облачные технологии, столкнулась бы с той же дилеммой, когда ей пришлось бы выбирать технологический путь, способный подорвать её прибыль. Это структурное противоречие, а не вопрос личного или управленческого выбора.

Более примечательными, чем кадровые изменения, являются перемены, происходящие внутри самой компании Scaleing Law.

За последние три года принцип «чем больше, тем лучше» стал не просто технологическим правилом, а кредо всей индустрии искусственного интеллекта. Вокруг него строились аргументы в пользу финансирования — инвесторы считают, что более крупные модели означают большие возможности, что приводит к триллионам долларов, вливаемых в вычислительную инфраструктуру. Распределение талантов также основывалось на этом принципе — ведущих исследователей привлекали команды, обучающие самые большие модели. Инвестиции в оборудование также оценивались исходя из этого принципа — оценка Nvidia основана на предпосылке, что спрос на вычислительные мощности будет постоянно расти.

Однако сейчас эта предпосылка начинает меняться. Исследования Массачусетского технологического института показывают, что повышение эффективности позволит моделям на оборудовании среднего размера догнать самые крупные и дорогие модели в течение 5-10 лет. Исследования Чикагского университета указывают на то, что качество данных вытесняет размер данных в качестве ключевого конкурентного преимущества.

Внедрение в производство больше не ограничивается облачными технологиями, а распространяется и на периферию сети. Закон масштабирования трансформируется из монотонно возрастающей кривой в карту, требующую поиска оптимальных решений в нескольких измерениях.

Речь идёт уже не о принципе «чем больше, тем лучше», а о принципе «правильный размер в правильном месте».

Линь Чуньян, вероятно, почувствовал эти изменения раньше большинства людей. Он использовал Qwen 3.5 Small, чтобы доказать одно: при правильной методологии параметр 9B может превзойти 120B. Но он также столкнулся с другой проблемой — техническая корректность не равна коммерческой жизнеспособности, тем более организационному комфорту.

Он сказал: «Нет проблем». Действительно, технический план действий разработан, и оставшиеся проблемы находятся не в лаборатории, а за её пределами.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo