Это официально! DeepSeek V4 станет первым процессором, использующим чип Huawei! Внутренний рынок искусственного интеллекта начинает разрушать «монополию» Nvidia.

25 апреля, 2026 Дядя Влад

Обычно полдень пятницы — самое подходящее время для планирования поездок на выходные. Но DeepSeek неожиданно удвоил усилия, официально выпустив и открыв исходный код предварительной версии модели серии V4.

Всё началось с высокого уровня мастерства игроков, и у обоих было по миллионы жетонов. Контекст:

DeepSeek-V4-Pro (49 млрд параметров активации) имеет 1,6 Тб параметров.
DeepSeek-V4-Flash с параметрами 284B (параметры активации 13B)

Начиная с сегодняшнего дня, вы можете опробовать это на официальном сайте chat.deepseek.com или в официальном приложении. API-сервис также доступен уже сейчас.

Вышла версия DeepSeek V4, что стало огромным поводом для радости игроков Agent.

Основное внимание в этом обновлении уделяется функционалу агентов.

V4-Pro уже ежедневно используется в DeepSeek в качестве инструмента для агентского кодирования.

Отзывы сотрудников показывают, что он проще в использовании, чем Sonnet 4.5, а качество воспроизведения близко к Opus 4.6 в режиме без размышлений, но все же уступает Opus 4.6 в режиме размышлений.

Официальные внутренние тесты производительности программного обеспечения, проводимые отделом исследований и разработок, также показывают аналогичные результаты. В примерно 200 реальных рабочих задачах, выполненных более чем 50 инженерами, процент успешного выполнения для V4-Pro-Max составляет 67%, для Sonnet 4.5 — 47%, для Opus 4.5 Thinking — 73%, а для Opus 4.6 Thinking — 80%.

Из 85 опытных разработчиков и исследователей, принявших участие во внутреннем опросе, более 90% считали, что V4-Pro уже является предпочтительной или почти предпочтительной моделью программирования.

Данная модель была специально адаптирована для популярных программных продуктов, таких как Claude Code, OpenClaw, OpenCode и CodeBuddy, что привело к улучшению как задач, связанных с кодом, так и генерации документации.

Что касается вызовов инструментов, в серии V4 представлена новая схема вызовов инструментов в формате XML, использующая специальный токен "|DSML|" для определения границ вызова. В официальном заявлении утверждается, что такая конструкция эффективно снижает количество ошибок экранирования и ошибок вызова инструментов, что делает ее более надежной, чем предыдущее поколение.

С точки зрения знаний и логического мышления, V4-Pro значительно превосходит другие модели с открытым исходным кодом в глобальных оценках знаний.

SimpleQA-Verified набрал 57,9 балла, что примерно на 20 процентных пунктов выше, чем у ближайшего конкурента с открытым исходным кодом, и лишь немного ниже, чем у Gemini-3.1-Pro, показавшего 75,6 балла. Он превзошел все публично оцененные модели с открытым исходным кодом в категориях «Математика», «STEM» и «Программное обеспечение для соревнований», достигнув уровня лучших моделей с закрытым исходным кодом.

На уровне базовой модели V4-Pro-Base набрала 90,1, 73,5, 55,2 и 51,5 баллов в тестах MMLU 5-shot, MMLU-Pro 5-shot, Simple-QA Verified 25-shot и LongBench-V2 для оценки длинного текста соответственно, значительно превзойдя V3.2-Base (набравшую 87,8, 65,5, 28,3 и 40,2 балла соответственно), которая имеет аналогичное количество параметров.

Стоит отметить, что V4-Flash-Base, с меньшим количеством параметров, также превзошла V3.2-Base в большинстве бенчмарк-тестов, что указывает на то, что сами архитектурные улучшения привели к значительному повышению эффективности.

В горизонтальном сравнении моделей инструкций V4-Pro Max показал результат 93,5 балла по шкале LiveCodeBench Pass@1 и рейтинг 3206 по шкале Codeforces, что является наивысшим показателем среди протестированных моделей.

В рейтинге Codeforces среди людей V4-Pro-Max в настоящее время занимает 23-е место. Его оценка IMO AnswerBench Pass@1 составляет 89,8, уступая только GPT-5.4 с его 91,4. Его оценка HMMT 2026 Feb Pass@1 составляет 95,2, что очень близко к 96,2 у Opus-4.6 Max и 97,7 у GPT-5.4. Его оценка Apex Shortlist Pass@1 составляет 90,2, превосходя все остальные сравниваемые с ним модели.

Что касается оценки агентов, SWE Verified Resolved набрал 80,6 балла, что практически совпадает с показателем Opus-4.6 Max в 80,8 балла.

BrowseComp Pass@1 набрал 83,4 балла, а MCPatlas Public Pass@1 — 73,6 балла, оба показателя вошли в число лучших протестированных моделей. Эти два последних значения демонстрируют, что V4 обладает высокой совместимостью с экосистемой инструментов MCP, а его хорошая производительность выходит за рамки внутренней структуры.

В тестах на длинную текстовую клавиатуру показатель MRCR 1M MMR составляет 83,5, а показатель ACC CorpusQA 1M — 62,0, что превосходит результаты Gemini-3.1-Pro (76,3 и 53,8 соответственно), но все еще отстает от показателя MRCR Claude Opus 4.6 (92,9).

На основе сегментированных данных, возможности поиска в диапазоне 128 тыс. записей достаточно стабильны, но после этого значения начинают значительно снижаться. Тем не менее, его производительность в диапазоне 1 млн записей по-прежнему превосходит большинство аналогичных моделей.

Одной из сильных сторон V4-Pro является также возможность использования китайского языка.

Официальной эталонной моделью для китайского письма является Gemini-3.1-Pro. В функциональной оценке письма с использованием 3170 образцов V4-Pro показала процент успешных результатов 62,7%, в то время как Gemini – 34,1%.

В области художественной литературы V4-Pro показал 77,5% успеха по качеству написания. Однако при решении сложных задач или в многоэтапных сценариях написания текстов Claude Opus 4.5 по-прежнему имеет преимущество, демонстрируя процент успеха 52,0% против 45,9%.

Не стоит воспринимать Flash как "базовую" версию; правильный подход имеет решающее значение.

Многие, увидев комплектации Pro и Flash, сразу думают: «Flash — это просто ухудшенная версия».

Неверно, совершенно неверно. Логика локализации DeepSeek сложнее, у V4-Flash гораздо меньше параметров и активаций, а цена его API более конкурентоспособна. Его возможности по выполнению инференции очень близки к Pro, но его база знаний о мире немного уступает.

В простых задачах, связанных с работой агента, разница между ними невелика. Реальное различие заключается в задачах высокой сложности и выборе режима мышления.

В режиме Think Max производительность V4-Flash в режиме инференции может значительно приблизиться к показателям Pro: LiveCodeBench Flash Max достигает 91,6, рейтинг Codeforces Flash Max — 3052, GPQA Diamond Pass@1 — 88,1, а IMOAnswerBench Pass@1 — 88,4, при этом разрыв с Pro Max довольно незначителен.

Flash используется для рутинных задач, а ThinkMax — для более сложных, предлагая отличное соотношение цены и качества.

Разница в производительности между режимами намного больше, чем разница между версиями. Взяв в качестве примера V4-Pro, можно отметить, что HLE Pass@1 улучшился с 7,7 в режиме без мыслительной нагрузки до 37,7 в режиме Max, Apex Pass@1 — с 0,4 до 38,3, а BrowseComp Pass@1 подскочил с неизмеримого значения до 83,4. Для сложных задач выбор правильной интенсивности мыслительной нагрузки гораздо важнее, чем беспокойство о том, какую версию выбрать.

Обе модели поддерживают три уровня интенсивности вывода, которые можно переключать с помощью параметра reasoning_effort.

Режим «Без размышлений» обеспечивает быстрое время отклика и подходит для выполнения простых повседневных задач; режим «Думай масштабно» позволяет использовать явные логические рассуждения и подходит для решения сложных задач и планирования; режим «Думай максимально» максимизирует возможности рассуждения и подходит для исследования верхних пределов модели. Официальная рекомендация — установить контекстное окно как минимум на 384 000 токенов, а для сложных сценариев с агентами — установить его непосредственно на максимум.

В режиме ThinkMax в начало системной подсказки вводится дополнительная инструкция, требующая от модели «рассуждать с максимальной силой и не допускать упрощений», а также обязывающая явно описывать каждый шаг рассуждения и каждую отклоненную гипотезу.

Эффект от такой конструкции вполне очевиден из данных, что также объясняет, почему одна и та же модель показывает столь разные результаты в разных режимах.

Миллионы длинных контекстов, выжимающие каждую последнюю каплю из каждого токена.

Многие модели рекламируют контекст с миллионом токенов, но затраты на разработку, необходимые для поддержки такого масштаба, совершенно иные.

В DeepSeek V4 произошли значительные архитектурные изменения. В основе этих изменений лежит механизм внимания. Традиционные вычисления с использованием механизма внимания увеличиваются квадратично с длиной последовательности, что делает его основным вычислительным узким местом при работе с длинным контекстом.

В версии V4 представлены два типа сжатого внимания, которые используются попеременно. CSA сжимает кэш ключ-значение (KV) для каждых m токенов в один, а затем использует разреженное внимание для выбора только k из них для основных вычислений; HCA использует более агрессивную степень сжатия для сжатия токенов на более длительном интервале в один, но сохраняет плотное внимание.

CSA также включает в себя индексатор Lightning, который использует FP4 с низкой точностью для быстрого вычисления оценки релевантности между каждым токеном запроса и каждым сжатым блоком, а затем выбирает k лучших блоков для участия в последующем механизме внимания, что дополнительно снижает вычислительную нагрузку. Чтобы избежать потери локальных деталей во время сжатия, оба метода внимания вводят ветвь скользящего окна, позволяющую каждому токену видеть свои ближайшие соседние токены.

Результаты впечатляют. В сценарии с 1 миллионом токенов вычислительная мощность V4-Pro для вывода одного токена составляет всего 27% от мощности V3.2, а использование кэша ключ-значение снижается до 10% от мощности V3.2. V4-Flash демонстрирует еще более агрессивные результаты: вычислительная мощность составляет всего 10% от мощности V3.2 в том же сценарии, а использование кэша ключ-значение снижается до 7%.

В официальном заявлении указано, что теперь миллион контекстов будет стандартным для всех официальных сервисов DeepSeek.

Это очень долго, очень долго, очень долго, очень долго, очень долго, очень долго.

В дополнение к механизму внимания, V4 также вводит гиперсвязи с ограничениями на уровне многообразия (mHC) для усиления остаточных связей.

Традиционные остаточные соединения напрямую добавляют сигналы между слоями, в то время как mHC увеличивает ширину остаточного потока в несколько раз, а затем динамически управляет смешиванием сигналов с помощью трех наборов обучаемых линейных отображений.

Матрица, отвечающая за преобразование остатка, ограничена набором случайных матриц двойного типа, чтобы гарантировать, что спектральная норма не превышает 1, что делает распространение сигнала между слоями более стабильным.

В обучающем слое используется оптимизатор Muon, который обновляет параметры путем итеративной ортогонализации матрицы градиента, тем самым ускоряя сходимость и повышая стабильность. Он используется в сочетании с AdamW: большинство модулей используют Muon, в то время как слой встраивания, блок предсказания и веса RMSnorm по-прежнему используют AdamW.

В ходе обучения мы столкнулись с проблемой резкого увеличения потерь.

DeepSeek обнаружил два эффективных метода. Первый называется «упреждающая маршрутизация», который использует старые параметры из шага t-Δt для вычисления индекса маршрутизации на этапе обучения t, разделяя обновления магистральной сети и сети маршрутизации, тем самым разрывая порочный круг между ними.

Второй подход включает в себя усечение линейной составляющей функции активации SwiGLU, ограничивая её числовой диапазон диапазоном [-10, 10], тем самым напрямую подавляя выбросы. Однако оба метода в настоящее время считаются эффективными, но их основные механизмы ещё не до конца изучены. В своей статье DeepSeek признаёт, что этот вопрос потребует дальнейшего исследования.

Кроме того, обе модели были предварительно обучены на более чем 32 ТБ высококачественных данных, включающих различные категории, такие как математика, код, веб-страницы и длинные документы. На промежуточном этапе обучения были добавлены дополнительные данные от ведомств для повышения возможностей распознавания кода.

На этапе постобучения используется двухэтапная парадигма. Сначала эксперты в предметной области независимо обучаются с помощью методов обучения с подкреплением SFT и GRPO, охватывающих множество направлений, таких как математика, код, агенты и следование инструкциям. Затем метод онлайн-дистилляции (OPD) объединяет возможности каждой предметной области в единую модель.

OPD использует дистилляцию логистической регрессии с полным словарем вместо оценки KL на уровне токенов, что приводит к более стабильной оценке градиента и более полной передаче знаний. Недостатком является значительное увеличение сложности инженерной реализации — веса более чем десяти моделей-учителей хранятся централизованно и загружаются по запросу, а состояния скрытого слоя также специально кэшируются, чтобы избежать чрезмерного потребления памяти.

Конечно, Бог-Источник остаётся тем же Богом-Источником!

Все четыре версии с учетом весовых коэффициентов теперь являются открытым исходным кодом и могут быть загружены с сайтов HuggingFace или ModelScope.

Базовая версия использует смешанную точность FP8, версия инструкций использует сочетание точности FP4 и FP8, параметры экспертного модуля MoE используют FP4, а остальные параметры — FP8.

Деквантование из FP4 в FP8 происходит без потерь, поскольку FP8 (E4M3) имеет на два бита экспоненты больше, чем FP4 (E2M1), что приводит к большему динамическому диапазону и возможности полного поглощения информации квантования из FP4. Для локального развертывания рекомендуется установить параметры выборки на temperature=1.0 и top_p=1.0.

В этом релизе отсутствует шаблон чата в формате Jinja. В официальной документации в папке encoding находятся скрипты на Python и тестовые примеры, объясняющие, как кодировать сообщения, совместимые с OpenAI, в строки входных данных модели и как анализировать текстовый вывод модели.

Что касается доступа к API, V4-Pro и V4-Flash были запущены одновременно, поддерживая как интерфейс OpenAI ChatCompletions, так и антропный интерфейс. Цены указаны выше; при вызове оставьте параметр base_url без изменений и измените параметр model на deepseek-v4-pro или deepseek-v4-flash.

Старые названия API deepseek-chat и deepseek-reasoner будут упразднены через три месяца (24 июля 2026 года). В настоящее время они указывают на нерабочий и рабочий режимы V4-Flash соответственно. Разработчики должны завершить миграцию до указанного срока. Похоже, эти выходные будут напряженными.

Помимо технической архитектуры, более примечательным изменением в DeepSeek V4 является то, что Nvidia больше не является единственным вариантом.

Иными словами, DeepSeek не предоставил Nvidia или AMD возможность оптимизировать и адаптироваться заранее, а вместо этого открыл ранний доступ исключительно для отечественных производителей чипов. Это означает, что отечественные производители сделали важный шаг в «де-Nvidiaизации» своей продукции.

картина
Решение DeepSeek использовать для этого узел V4 было очень обдуманным.

Производительность V4 уже сопоставима с лучшими моделями с закрытым исходным кодом. Если бы она работала только на чипах NVIDIA, звание «самой мощной китайской модели с открытым исходным кодом» всегда казалось бы неполным. Теперь, когда она работает на Ascend, это утверждение стало более полным: алгоритм разработан нами, код является открытым, а чип произведен внутри страны.

По стечению обстоятельств, Дженсен Хуанг недавно заявил в интервью технологическому подкасту Дваркеш Пателя, что разработка DeepSeek — это отнюдь не пустяк.

Он также выдвинул гипотезу о сценарии, при котором новая модель DeepSeek дебютирует на платформе Huawei. Хуан Жэньсюнь заявил, что этот день станет ужасным исходом для Соединенных Штатов, поскольку это будет означать, что модели ИИ оптимизированы для наилучшей работы на китайском оборудовании, и как только эти модели будут распространены по всему миру, они превратят китайские технологии в мировой стандарт.

Демонстрация компанией DeepSeek способности Ascend обрабатывать сложные крупномасштабные модели с триллионами параметров является значительным стимулом для всей отечественной экосистемы вычислительных мощностей. Крупные отечественные производители уже наращивали закупки чипов Ascend, и успешная адаптация версии V4 обеспечивает дополнительную техническую поддержку этому решению. Другие отечественные производители чипов, такие как Cambricon и Hygon, также будут вынуждены ускорить свой собственный прогресс в адаптации крупномасштабных моделей.

Выбор чипа, основанного на высококачественной модели с открытым исходным кодом, вызывает перестройку всей производственной цепочки.

Ссылка на открытый исходный код модели DeepSeek-V4:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
Технический отчет по DeepSeek-V4:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.