Вышла версия DeepSeeek V4, которая может похвастаться рядом революционных побед над Gemini, ChatGPT и Claude.

Китайская компания DeepSeek имеет обыкновение появляться, без приглашения, на вечеринке искусственного интеллекта в Кремниевой долине, и на этот раз она сделала это с долгожданной предварительной версией V4. Компания из Ханчжоу выпустила свою новейшую модель ИИ, которая превосходит популярные американские модели в некоторых областях.

DeepSeek выпустила две новые модели: V4-Pro (экспертный режим) и V4-Flash (мгновенный режим). Первая представляет собой модель с огромным количеством параметров — 1,6 триллиона, а вторая — с более управляемым количеством параметров — 284 миллиарда. Однако обе модели имеют контекстное окно в один миллион токенов.

Что именно выпустила компания DeepSeek?

Что еще важнее, обе модели являются открытым исходным кодом, а это значит, что их можно скачать с сайта Hugging Face и запустить локально на вашем оборудовании. Однако из-за огромных размеров V4-Pro вам потребуется значительный объем видеопамяти для локального запуска.

Одна из самых интересных частей анонса — сравнение с популярными моделями ИИ, такими как Gemini , ChatGPT и Claude . Например, V4-Pro показывает отличные результаты в программировании, набрав 3206 баллов на Codeforces, превзойдя 3168 баллов GPT-5.4 и 3052 балла Gemini 3.1. Это делает её самой сильной открытой моделью для задач соревновательного программирования.

В тесте LiveCodeBench V4-Pro показывает результат 93,5, опережая Claude Opus 4.6 (88,8) и Gemini (91,7), а в Toolathlon для задач, связанных с агентами, он набирает 51,8, превосходя как Claude (47,2), так и Gemini (48,8). Более быстрый и эффективный V4-Flash, тем временем, показывает результаты, сопоставимые с V4-Pro в простых задачах, связанных с агентами, при значительно меньших вычислительных затратах.

В чём V4-Pro превосходит конкурентов?

Бенчмарк DeepSeek V4-Pro Клод Опус 4.6 ГПТ-5.4 Gemini 3.1 Pro
Codeforces (Рейтинг) 3206 3168 3052
LiveCodeBench (Pass@1) 93,5 88.8 91.7
Список кандидатов Apex Shortlist (Pass@1) 90.2 85.9 78.1 89.1
SWE проверено (решено) 80.6 80.8 80.6
Toolathlon (Проход за 1 место) 51.8 47.2 54.6 48.8
Терминальный стенд 2.0 (Acc) 67.9 65.4 75.1 68.5
MRCR 1M Длинный контекст 83,5 92.9 76.3
Математика HMMT 2026 95.2 96.2 97,7 94.7
IMOAnswerBench 89.8 75.3 91.4 81.0

Однако есть несколько областей, где новая модель DeekSeek отстает от конкурентов. Например, Claude Opus 4.6 лидирует по показателю поиска в длинном контексте. Он набирает 92,9 балла в тесте MRCR 1M против 83,5 у V4-Pro. GPT-5.4 по-прежнему лидирует в Terminal Bench 2.0 с результатом 75,1 балла против 67,9 у V4-Pro.

Главное преимущество DeepSeek перед конкурентами заключается в ценообразовании. V4-Pro стоит 3,48 доллара за миллион токенов, что по сравнению с 30 долларами у OpenAI и 25 долларами у Anthropic за аналогичные рабочие нагрузки может показаться гораздо более привлекательным для потенциальных клиентов. Однако для обычных разработчиков, создающих приложения на основе ИИ, эта разница огромна.