После изучения отчета DeepSeek V4 я обнаружил эту скрытую пасхальную отсылку.

Сегодня утром вышла версия DeepSeek V4, что стало кульминацией масштабных обновлений моделей за этот месяц.

Благодаря миллиону стандартных контекстов, производительности, сравнимой с лучшими моделями с закрытым исходным кодом, и тому, что это первая разработка, адаптированная для чипов Huawei Ascend, любой из этих пунктов может стать поводом для вирусного заголовка.

Однако, просматривая технический отчет по версии V4, я наткнулся на термин, который большинство людей пропустили бы в разделе обучения: оптимизатор мюонов .

Почему этот технический термин кажется таким знакомым?

Оказалось, что в Kimi 2.6, выпущенном пару дней назад, оптимизатор Muon добился двукратного повышения эффективности при том же объеме обучения и решил проблему нестабильности обучения при масштабе в 1 триллион параметров.

Ещё в прошлом месяце Ян Чжилинь выступил на конференции NVIDIA GTC 2026 и посвятил этому большую часть своей речи. Команда Kimi стала первой в мире, опубликовавшей статью, доказывающую возможность использования Muon для обучения больших моделей с триллионами параметров.
(Прилагается ссылка на статью об интерпретации APPSO)

Ян Чжилинь заявил: «Использование MuonClip вместо Adam для обучения больших моделей Transformer дает значительно лучшие результаты». При правильной реализации эффективность использования токенов повышается в два раза. В условиях огромного объема данных это эквивалентно использованию 50 триллионов токенов для достижения эффекта, эквивалентного 100 триллионам.

Эта технология теперь включена в программу обучения DeepSeek V4.

Я вернулся к изучению базовой архитектуры Kimi K2 и обнаружил еще более интересную деталь: она использует MLA (Multi-head Latent Attention), предложенную DeepSeek-V3.

В технических отчетах DeepSeek фигурирует имя Кими, а в архитектурном фонде Кими — имя DeepSeek . Они тесно взаимосвязаны.

Это, пожалуй, самая сюрреалистичная сцена в китайском мире искусственного интеллекта: две звезды в области открытого программного обеспечения, которых неоднократно сравнивали в других странах, давно слились по своим базовым технологиям.

Более того, это не первый случай подобного совпадения с участием Кими.

Пять «столкновений», пять поворотных моментов

С учетом последовательного запуска V4 и K2.6, это уже пятый случай "столкновения" Kimi и DeepSeek за последний год.

▲ Изображение создано программой image-2.

Пять «столкновений» можно было бы считать простым совпадением, если бы они произошли одновременно. Но если проанализировать содержание каждого релиза по отдельности, вы обнаружите четкую скрытую тему: каждое столкновение точно соответствует поворотному моменту в индустрии искусственного интеллекта .

Первый раз был самым драматичным. В 20:10 20 января 2025 года DeepSeek R1 был выпущен и полностью открыт для публичного доступа под лицензией MIT. Менее чем через два часа была представлена ​​Kimi k1.5.

Обе цели совпадают: преобразовать модель из "импровизированной" в "думающую перед тем, как говорить", а также использовать обучение с подкреплением для выполнения рассуждений в рамках длинной цепочки мыслей Long-CoT.

С тех пор возможности Китая в области открытого программного обеспечения полностью изменили глобальный ландшафт искусственного интеллекта.

Позже OpenAI в своей статье особо отметила, что Kimi и DeepSeek были двумя компаниями, которые «первыми воспроизвели OpenAI-o1 Long-CoT». Только эти две китайские компании в мире поняли, что делает OpenAI, и реализовали это по-своему .

Это был переломный момент, когда китайская индустрия искусственного интеллекта начала трансформироваться из «последователя» в «лидера».

Самый недавний пример — сегодняшний. За четыре дня K2.6 увеличил возможности параллельного программирования для кластеров агентов в SWE-Bench Pro на 58,6%, а V4 сделал миллионы контекстов стандартными для всех сервисов, увеличив длину выходных токенов до 384 тыс.

Обе компании одновременно продвигают адаптацию к отечественным чипам: V4 будет поддерживать Huawei Ascend 950 во второй половине года, а Cambricon завершила адаптацию «с первого дня»; K2.6 поддерживает гибридный вывод данных на отечественных чипах.

Возможности агентов, ограничения в программировании, миллионы контекстов, адаптация к отечественным чипам, экосистема с открытым исходным кодом — всё это есть.

От «обучения думать» до «обучения делать», от «модификации Transformer» до «модификации вычислительной мощности» — эти пять столкновений фактически демонстрируют , что китайский ИИ больше не слепо подражает OpenAI, постепенно становясь менее зависимым от Nvidia и прокладывая собственный путь в сфере открытого исходного кода.

Неизбежность автомобильных аварий

Хотя совпадение в выпуске одних и тех же автомобилей и интересно, большего внимания заслуживает неизбежность этого совпадения.

Вернемся к Muon в архитектуре DeepSeek.

В своей презентации на GTC Ян Чжилинь упомянул техническую проблему: когда Kimi масштабировал Muon до 1 триллиона параметров, нестабильность обучения стала серьезным препятствием. Максимальное количество логитов резко возросло до более чем 1000, в то время как нормальный диапазон составлял всего от 50 до 100.

Сначала функция потерь уменьшалась, но затем резко возросла, сделав сходимость невозможной. Их решением стал QK-Clip, который вычисляет максимальное значение обрезки логита для каждого механизма внимания, ограничивая запросы и ключи разумным диапазоном. Функция потерь при обучении осталась неизменной, но проблема со стабильностью исчезла.

Модель K2 была обучена с использованием этой техники, установив рекорд по масштабу обучения модели Muon в истории машинного обучения.

В техническом отчете DeepSeek V4 Muon напрямую упоминается в схеме обучения. Большинство модулей используют Muon для ускорения сходимости, в то время как слой встраивания и блок предсказания по-прежнему используют AdamW, причем в смешанном режиме. Это прямая отсылка к нововведениям Кими.

Напротив, в базовой архитектуре Kimi K2 используется технология MLA, предложенная DeepSeek-V3. Многоголовочное латентное внимание (Multi-head Latent Attention), которое значительно снижает затраты на вывод за счет сжатия кэша ключ-значение, является одним из ключевых архитектурных нововведений V3.

Ваша статья стала моей инфраструктурой, а моя инновация — вашим фундаментом . Это взаимное достижение, зафиксированное в списке цитируемых работ.

В Силиконовой долине такое встречается редко. Технологии, используемые OpenAI и Anthropic, действуют как «ров», скрываясь везде, где это возможно. Но между Kimi и DeepSeek сложились более первобытные и здоровые отношения: позитивный цикл внутри сообщества открытого исходного кода .

Kimi и DeepSeek были одними из первых китайских разработчиков, открывших исходный код моделей с триллионом параметров, и обе компании верят в закон масштабирования. С технической точки зрения, DeepSeek превосходит конкурентов в моделях вывода, в то время как Kimi известна своими возможностями в области агентных вычислений.

На уровне базовой архитектуры обе компании бросают вызов одному и тому же набору «устаревших» инфраструктур. Kimi опубликовала статью об «остаточных механизмах внимания», а DeepSeek реализовала остаточные соединения mHC, обе компании модифицировали методы остаточных соединений, оставшиеся со времен ResNet.

В случае с длинным текстом Kimi исследует линейное внимание (Kimi Linear), а DeepSeek — разреженное внимание (DSA), в конечном итоге сходясь к одной и той же цели.

Поэтому, когда они сталкиваются, это не столько совпадение, сколько неизбежное сближение в одном направлении.

Использование китайских чипов, запуск китайских моделей и предоставление их исходного кода всему миру.

На платформе OpenRouter модели Kimi и DeepSeek неизменно занимают первые два места по популярности в Китае.

Cursor интегрирован с Kimi, а Rakuten AI 3.0 разработан на основе DeepSeek. Два года назад быть "разгромленным" зарубежными продуктами было позором, а теперь это стало знаком отличия.

Когда компания Meta выпустила свою новую модель Muse Spark, в официальном блоге в качестве базового показателя сравнения были указаны Kimi и DeepSeek наряду с GPT-4 и Claude. На конференции NVIDIA GTC Дженсен Хуанг использовал эти две китайские модели для демонстрации производительности чипов.

Помимо международного признания, еще более примечателен путь развития отечественных чипов. В условиях годичных перебоев в поставках чипов H2O, производство высококачественных процессоров для обработки данных внутри страны остается единственным вариантом на краткосрочную перспективу. Обе компании одновременно работают над одной и той же задачей: запуском китайских моделей на китайских чипах.

На прошлой неделе Дженсен Хуанг в интервью для подкаста заявил: « Если бы DeepSeek сначала был выпущен на платформе Huawei, это было бы для нас ужасно».

Сегодня V4 официально запустила свою первую совместимость с Huawei Ascend. Команда разработчиков перевела весь технологический стек с CUDA на фреймворк Huawei CANN, реализовав практически каждый слой с нуля, от библиотек операторов до примитивов связи и управления памятью. Гибридное внимание V4, параллельный алгоритм MoE для экспертов и обучение с квантизацией FP4 были реализованы с нуля. Cambricon также завершила полную совместимость V4 с выводом vLLM в день запуска, и код теперь находится в открытом доступе.

Слова Хуан Жэньсюня оказались пророческими.

Компания Kimi уже давно и основательно занимается разработкой чипов отечественного производства. Чтобы проложить путь для отечественных чипов, Kimi разработала две революционные архитектурные особенности.

Гибридная архитектура внимания Kimi Linear объединяет линейные и полные слои внимания в соотношении 7:1, сжимая размер кэша ключ-значение до чрезвычайно низкого уровня. Данные реальных тестов весьма показательны: в контексте 32K модель гибридной архитектуры достигает пропускной способности кэша ключ-значение всего 4,66 Гбит/с, по сравнению с более плотной моделью того же масштаба, достигающей 59,93 Гбит/с.

Требования к передаче данных через буфер KV снизились до диапазона, доступного для обычного Ethernet, а высокоскоростные сети RDMA перестали быть "обязательной" опцией и стали "дополнительной".

Развивая эту идею, Кими в сотрудничестве с Университетом Цинхуа опубликовал статью PrFaaS (Prefill as a Service), которая полностью разделяет этапы предварительного заполнения и декодирования в процессе вывода и распределяет их по различным гетерогенным аппаратным кластерам. Тестирование в реальных условиях показало увеличение пропускной способности на 54% и снижение задержки первого слова на 64%.

Этот подход опровергает предположение о том, что «вывод больших моделей должен быть привязан к одному и тому же высокопроизводительному графическому процессору»: для предварительного заполнения используются карты отечественного производства с высокой вычислительной мощностью, а для декодирования — карты отечественного производства с высокой пропускной способностью, каждая из которых выполняет свою функцию.

DeepSeek с помощью версии V4 доказал, что чипы отечественного производства способны запускать флагманские модели с триллионами параметров, а Kimi с помощью архитектурных инноваций доказал, что чипы отечественного производства могут работать хорошо и эффективно.

Один подход рассматривает проблему с точки зрения инженерной адаптации, а другой — с точки зрения архитектурного проектирования. Конечная цель одна и та же: сделать так, чтобы Nvidia перестала быть единственным вариантом .

Ранее считалось, что отечественный ИИ использует «видеокарты Nvidia для работы с моделями OpenAI». Теперь же эти две звезды одновременно пишут совершенно другой сценарий: используют китайские чипы для запуска китайских моделей и предоставляют услуги разработчикам по всему миру .

Ваша MLA — это мой фонд, мой Muon — это ваш акселератор.

Оглядываясь на безумные новости в индустрии ИИ, произошедшие на этой неделе, мы понимаем, что достигли нового поворотного момента.

В течение одной недели две китайские команды выпустили модели с открытым исходным кодом, содержащие триллионы параметров, достигнув производительности, близкой или даже сопоставимой с лучшими моделями с закрытым исходным кодом из США. Еще год назад это было бы немыслимо.

Когда цена модели с закрытым исходным кодом в 50 раз выше, чем у модели с открытым исходным кодом, и сторонники открытого исходного кода каждые несколько месяцев представляют нового конкурента с триллионом параметров, конкурентный баланс незаметно смещается.

Это не просто вопрос «победы» или «превосходства». Модели с закрытым исходным кодом по-прежнему обладают значительными преимуществами в сложных рассуждениях и надежности системы, и модели мышления Opus 4.6 остаются целью, к которой стремится V4-Pro. Однако скорость, преимущества в стоимости и охват экосистемы открытого исходного кода меняют сами правила этой конкуренции.

Помимо этих пяти совпадающих релизов, есть еще одно совпадение между двумя компаниями. Лян Вэньфэн родом из Чжаньцзяна, провинция Гуандун, а Ян Чжилинь — из Шаньтоу, провинция Гуандун. Эти два уроженца Гуандуна являются столпами мирового сообщества разработчиков открытого ИИ .

Лян Вэньфэн подобен инженеру-философу, верящему в открытый исходный код и фундаментальные инновации. Анонс релиза V4 завершается цитатой Сюньцзы: «Не поддаваясь искушению похвалы, не боясь клеветы, следуйте Пути и честно исправляйте себя».

Что касается Ян Чжилиня, он мне кажется специалистом по разработке продуктов. Он считает, что пользовательский опыт и технологические прорывы могут сосуществовать. Когда вышла K2.6, он процитировал Линуса Торвальдса, отца Linux, сказавшего: «Слова ничего не стоят. Покажите мне код».

Один — специалист по классической филологии, другой — гик. Эти два основателя, с их контрастными стилями, вместе определили положение китайской модели открытого программного обеспечения на мировой арене.

Ваш MLA — это мой фундамент, а мой Muon — ваш акселератор. Вероятно, это одна из ключевых причин, почему Китай смог за столь короткое время занять лидирующие позиции в мире в области искусственного интеллекта с открытым исходным кодом .

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.