После изучения отчета DeepSeek V4 я обнаружил эту скрытую пасхальную отсылку.

25 апреля, 2026 Дядя Влад

Сегодня утром вышла версия DeepSeek V4, что стало кульминацией масштабных обновлений моделей за этот месяц.

Благодаря миллиону стандартных контекстов, производительности, сравнимой с лучшими моделями с закрытым исходным кодом, и тому, что это первая разработка, адаптированная для чипов Huawei Ascend, любой из этих пунктов может стать поводом для вирусного заголовка.

Однако, просматривая технический отчет по версии V4, я наткнулся на термин, который большинство людей пропустили бы в разделе обучения: оптимизатор мюонов .

Почему этот технический термин кажется таким знакомым?

Оказалось, что в Kimi 2.6, выпущенном пару дней назад, оптимизатор Muon добился двукратного повышения эффективности при том же объеме обучения и решил проблему нестабильности обучения при масштабе в 1 триллион параметров.

Ещё в прошлом месяце Ян Чжилинь выступил на конференции NVIDIA GTC 2026 и посвятил этому большую часть своей речи. Команда Kimi стала первой в мире, опубликовавшей статью, доказывающую возможность использования Muon для обучения больших моделей с триллионами параметров.
(Прилагается ссылка на статью об интерпретации APPSO)

Ян Чжилинь заявил: «Использование MuonClip вместо Adam для обучения больших моделей Transformer дает значительно лучшие результаты». При правильной реализации эффективность использования токенов повышается в два раза. В условиях огромного объема данных это эквивалентно использованию 50 триллионов токенов для достижения эффекта, эквивалентного 100 триллионам.

Эта технология теперь включена в программу обучения DeepSeek V4.

Я вернулся к изучению базовой архитектуры Kimi K2 и обнаружил еще более интересную деталь: она использует MLA (Multi-head Latent Attention), предложенную DeepSeek-V3.

В технических отчетах DeepSeek фигурирует имя Кими, а в архитектурном фонде Кими — имя DeepSeek . Они тесно взаимосвязаны.

Это, пожалуй, самая сюрреалистичная сцена в китайском мире искусственного интеллекта: две звезды в области открытого программного обеспечения, которых неоднократно сравнивали в других странах, давно слились по своим базовым технологиям.

Более того, это не первый случай подобного совпадения с участием Кими.

Пять «столкновений», пять поворотных моментов

С учетом последовательного запуска V4 и K2.6, это уже пятый случай "столкновения" Kimi и DeepSeek за последний год.

▲ Изображение создано программой image-2.

Пять «столкновений» можно было бы считать простым совпадением, если бы они произошли одновременно. Но если проанализировать содержание каждого релиза по отдельности, вы обнаружите четкую скрытую тему: каждое столкновение точно соответствует поворотному моменту в индустрии искусственного интеллекта .

Первый раз был самым драматичным. В 20:10 20 января 2025 года DeepSeek R1 был выпущен и полностью открыт для публичного доступа под лицензией MIT. Менее чем через два часа была представлена Kimi k1.5.

Обе цели совпадают: преобразовать модель из "импровизированной" в "думающую перед тем, как говорить", а также использовать обучение с подкреплением для выполнения рассуждений в рамках длинной цепочки мыслей Long-CoT.

С тех пор возможности Китая в области открытого программного обеспечения полностью изменили глобальный ландшафт искусственного интеллекта.

Позже OpenAI в своей статье особо отметила, что Kimi и DeepSeek были двумя компаниями, которые «первыми воспроизвели OpenAI-o1 Long-CoT». Только эти две китайские компании в мире поняли, что делает OpenAI, и реализовали это по-своему .

Это был переломный момент, когда китайская индустрия искусственного интеллекта начала трансформироваться из «последователя» в «лидера».

Самый недавний пример — сегодняшний. За четыре дня K2.6 увеличил возможности параллельного программирования для кластеров агентов в SWE-Bench Pro на 58,6%, а V4 сделал миллионы контекстов стандартными для всех сервисов, увеличив длину выходных токенов до 384 тыс.

Обе компании одновременно продвигают адаптацию к отечественным чипам: V4 будет поддерживать Huawei Ascend 950 во второй половине года, а Cambricon завершила адаптацию «с первого дня»; K2.6 поддерживает гибридный вывод данных на отечественных чипах.

Возможности агентов, ограничения в программировании, миллионы контекстов, адаптация к отечественным чипам, экосистема с открытым исходным кодом — всё это есть.

От «обучения думать» до «обучения делать», от «модификации Transformer» до «модификации вычислительной мощности» — эти пять столкновений фактически демонстрируют , что китайский ИИ больше не слепо подражает OpenAI, постепенно становясь менее зависимым от Nvidia и прокладывая собственный путь в сфере открытого исходного кода.

Неизбежность автомобильных аварий

Хотя совпадение в выпуске одних и тех же автомобилей и интересно, большего внимания заслуживает неизбежность этого совпадения.

Вернемся к Muon в архитектуре DeepSeek.

В своей презентации на GTC Ян Чжилинь упомянул техническую проблему: когда Kimi масштабировал Muon до 1 триллиона параметров, нестабильность обучения стала серьезным препятствием. Максимальное количество логитов резко возросло до более чем 1000, в то время как нормальный диапазон составлял всего от 50 до 100.

Сначала функция потерь уменьшалась, но затем резко возросла, сделав сходимость невозможной. Их решением стал QK-Clip, который вычисляет максимальное значение обрезки логита для каждого механизма внимания, ограничивая запросы и ключи разумным диапазоном. Функция потерь при обучении осталась неизменной, но проблема со стабильностью исчезла.

Модель K2 была обучена с использованием этой техники, установив рекорд по масштабу обучения модели Muon в истории машинного обучения.

В техническом отчете DeepSeek V4 Muon напрямую упоминается в схеме обучения. Большинство модулей используют Muon для ускорения сходимости, в то время как слой встраивания и блок предсказания по-прежнему используют AdamW, причем в смешанном режиме. Это прямая отсылка к нововведениям Кими.

Напротив, в базовой архитектуре Kimi K2 используется технология MLA, предложенная DeepSeek-V3. Многоголовочное латентное внимание (Multi-head Latent Attention), которое значительно снижает затраты на вывод за счет сжатия кэша ключ-значение, является одним из ключевых архитектурных нововведений V3.

Ваша статья стала моей инфраструктурой, а моя инновация — вашим фундаментом . Это взаимное достижение, зафиксированное в списке цитируемых работ.

В Силиконовой долине такое встречается редко. Технологии, используемые OpenAI и Anthropic, действуют как «ров», скрываясь везде, где это возможно. Но между Kimi и DeepSeek сложились более первобытные и здоровые отношения: позитивный цикл внутри сообщества открытого исходного кода .

Kimi и DeepSeek были одними из первых китайских разработчиков, открывших исходный код моделей с триллионом параметров, и обе компании верят в закон масштабирования. С технической точки зрения, DeepSeek превосходит конкурентов в моделях вывода, в то время как Kimi известна своими возможностями в области агентных вычислений.

На уровне базовой архитектуры обе компании бросают вызов одному и тому же набору «устаревших» инфраструктур. Kimi опубликовала статью об «остаточных механизмах внимания», а DeepSeek реализовала остаточные соединения mHC, обе компании модифицировали методы остаточных соединений, оставшиеся со времен ResNet.

В случае с длинным текстом Kimi исследует линейное внимание (Kimi Linear), а DeepSeek — разреженное внимание (DSA), в конечном итоге сходясь к одной и той же цели.

Поэтому, когда они сталкиваются, это не столько совпадение, сколько неизбежное сближение в одном направлении.

Использование китайских чипов, запуск китайских моделей и предоставление их исходного кода всему миру.

На платформе OpenRouter модели Kimi и DeepSeek неизменно занимают первые два места по популярности в Китае.

Cursor интегрирован с Kimi, а Rakuten AI 3.0 разработан на основе DeepSeek. Два года назад быть "разгромленным" зарубежными продуктами было позором, а теперь это стало знаком отличия.

Когда компания Meta выпустила свою новую модель Muse Spark, в официальном блоге в качестве базового показателя сравнения были указаны Kimi и DeepSeek наряду с GPT-4 и Claude. На конференции NVIDIA GTC Дженсен Хуанг использовал эти две китайские модели для демонстрации производительности чипов.

Помимо международного признания, еще более примечателен путь развития отечественных чипов. В условиях годичных перебоев в поставках чипов H2O, производство высококачественных процессоров для обработки данных внутри страны остается единственным вариантом на краткосрочную перспективу. Обе компании одновременно работают над одной и той же задачей: запуском китайских моделей на китайских чипах.

На прошлой неделе Дженсен Хуанг в интервью для подкаста заявил: « Если бы DeepSeek сначала был выпущен на платформе Huawei, это было бы для нас ужасно».

Сегодня V4 официально запустила свою первую совместимость с Huawei Ascend. Команда разработчиков перевела весь технологический стек с CUDA на фреймворк Huawei CANN, реализовав практически каждый слой с нуля, от библиотек операторов до примитивов связи и управления памятью. Гибридное внимание V4, параллельный алгоритм MoE для экспертов и обучение с квантизацией FP4 были реализованы с нуля. Cambricon также завершила полную совместимость V4 с выводом vLLM в день запуска, и код теперь находится в открытом доступе.

Слова Хуан Жэньсюня оказались пророческими.

Компания Kimi уже давно и основательно занимается разработкой чипов отечественного производства. Чтобы проложить путь для отечественных чипов, Kimi разработала две революционные архитектурные особенности.

Гибридная архитектура внимания Kimi Linear объединяет линейные и полные слои внимания в соотношении 7:1, сжимая размер кэша ключ-значение до чрезвычайно низкого уровня. Данные реальных тестов весьма показательны: в контексте 32K модель гибридной архитектуры достигает пропускной способности кэша ключ-значение всего 4,66 Гбит/с, по сравнению с более плотной моделью того же масштаба, достигающей 59,93 Гбит/с.

Требования к передаче данных через буфер KV снизились до диапазона, доступного для обычного Ethernet, а высокоскоростные сети RDMA перестали быть "обязательной" опцией и стали "дополнительной".

Развивая эту идею, Кими в сотрудничестве с Университетом Цинхуа опубликовал статью PrFaaS (Prefill as a Service), которая полностью разделяет этапы предварительного заполнения и декодирования в процессе вывода и распределяет их по различным гетерогенным аппаратным кластерам. Тестирование в реальных условиях показало увеличение пропускной способности на 54% и снижение задержки первого слова на 64%.

Этот подход опровергает предположение о том, что «вывод больших моделей должен быть привязан к одному и тому же высокопроизводительному графическому процессору»: для предварительного заполнения используются карты отечественного производства с высокой вычислительной мощностью, а для декодирования — карты отечественного производства с высокой пропускной способностью, каждая из которых выполняет свою функцию.

DeepSeek с помощью версии V4 доказал, что чипы отечественного производства способны запускать флагманские модели с триллионами параметров, а Kimi с помощью архитектурных инноваций доказал, что чипы отечественного производства могут работать хорошо и эффективно.

Один подход рассматривает проблему с точки зрения инженерной адаптации, а другой — с точки зрения архитектурного проектирования. Конечная цель одна и та же: сделать так, чтобы Nvidia перестала быть единственным вариантом .

Ранее считалось, что отечественный ИИ использует «видеокарты Nvidia для работы с моделями OpenAI». Теперь же эти две звезды одновременно пишут совершенно другой сценарий: используют китайские чипы для запуска китайских моделей и предоставляют услуги разработчикам по всему миру .

Ваша MLA — это мой фонд, мой Muon — это ваш акселератор.

Оглядываясь на безумные новости в индустрии ИИ, произошедшие на этой неделе, мы понимаем, что достигли нового поворотного момента.

В течение одной недели две китайские команды выпустили модели с открытым исходным кодом, содержащие триллионы параметров, достигнув производительности, близкой или даже сопоставимой с лучшими моделями с закрытым исходным кодом из США. Еще год назад это было бы немыслимо.

Когда цена модели с закрытым исходным кодом в 50 раз выше, чем у модели с открытым исходным кодом, и сторонники открытого исходного кода каждые несколько месяцев представляют нового конкурента с триллионом параметров, конкурентный баланс незаметно смещается.

Это не просто вопрос «победы» или «превосходства». Модели с закрытым исходным кодом по-прежнему обладают значительными преимуществами в сложных рассуждениях и надежности системы, и модели мышления Opus 4.6 остаются целью, к которой стремится V4-Pro. Однако скорость, преимущества в стоимости и охват экосистемы открытого исходного кода меняют сами правила этой конкуренции.

Помимо этих пяти совпадающих релизов, есть еще одно совпадение между двумя компаниями. Лян Вэньфэн родом из Чжаньцзяна, провинция Гуандун, а Ян Чжилинь — из Шаньтоу, провинция Гуандун. Эти два уроженца Гуандуна являются столпами мирового сообщества разработчиков открытого ИИ .

Лян Вэньфэн подобен инженеру-философу, верящему в открытый исходный код и фундаментальные инновации. Анонс релиза V4 завершается цитатой Сюньцзы: «Не поддаваясь искушению похвалы, не боясь клеветы, следуйте Пути и честно исправляйте себя».

Что касается Ян Чжилиня, он мне кажется специалистом по разработке продуктов. Он считает, что пользовательский опыт и технологические прорывы могут сосуществовать. Когда вышла K2.6, он процитировал Линуса Торвальдса, отца Linux, сказавшего: «Слова ничего не стоят. Покажите мне код».

Один — специалист по классической филологии, другой — гик. Эти два основателя, с их контрастными стилями, вместе определили положение китайской модели открытого программного обеспечения на мировой арене.

Ваш MLA — это мой фундамент, а мой Muon — ваш акселератор. Вероятно, это одна из ключевых причин, почему Китай смог за столь короткое время занять лидирующие позиции в мире в области искусственного интеллекта с открытым исходным кодом .

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.