Вышла версия DeepSeeek V4, которая может похвастаться рядом революционных побед над Gemini, ChatGPT и Claude.
Китайская компания DeepSeek имеет обыкновение появляться, без приглашения, на вечеринке искусственного интеллекта в Кремниевой долине, и на этот раз она сделала это с долгожданной предварительной версией V4. Компания из Ханчжоу выпустила свою новейшую модель ИИ, которая превосходит популярные американские модели в некоторых областях.
DeepSeek выпустила две новые модели: V4-Pro (экспертный режим) и V4-Flash (мгновенный режим). Первая представляет собой модель с огромным количеством параметров — 1,6 триллиона, а вторая — с более управляемым количеством параметров — 284 миллиарда. Однако обе модели имеют контекстное окно в один миллион токенов.
Что именно выпустила компания DeepSeek?
Что еще важнее, обе модели являются открытым исходным кодом, а это значит, что их можно скачать с сайта Hugging Face и запустить локально на вашем оборудовании. Однако из-за огромных размеров V4-Pro вам потребуется значительный объем видеопамяти для локального запуска.
Одна из самых интересных частей анонса — сравнение с популярными моделями ИИ, такими как Gemini , ChatGPT и Claude . Например, V4-Pro показывает отличные результаты в программировании, набрав 3206 баллов на Codeforces, превзойдя 3168 баллов GPT-5.4 и 3052 балла Gemini 3.1. Это делает её самой сильной открытой моделью для задач соревновательного программирования.
В тесте LiveCodeBench V4-Pro показывает результат 93,5, опережая Claude Opus 4.6 (88,8) и Gemini (91,7), а в Toolathlon для задач, связанных с агентами, он набирает 51,8, превосходя как Claude (47,2), так и Gemini (48,8). Более быстрый и эффективный V4-Flash, тем временем, показывает результаты, сопоставимые с V4-Pro в простых задачах, связанных с агентами, при значительно меньших вычислительных затратах.
В чём V4-Pro превосходит конкурентов?
| Бенчмарк | DeepSeek V4-Pro | Клод Опус 4.6 | ГПТ-5.4 | Gemini 3.1 Pro |
| Codeforces (Рейтинг) | 3206 | — | 3168 | 3052 |
| LiveCodeBench (Pass@1) | 93,5 | 88.8 | — | 91.7 |
| Список кандидатов Apex Shortlist (Pass@1) | 90.2 | 85.9 | 78.1 | 89.1 |
| SWE проверено (решено) | 80.6 | 80.8 | — | 80.6 |
| Toolathlon (Проход за 1 место) | 51.8 | 47.2 | 54.6 | 48.8 |
| Терминальный стенд 2.0 (Acc) | 67.9 | 65.4 | 75.1 | 68.5 |
| MRCR 1M Длинный контекст | 83,5 | 92.9 | — | 76.3 |
| Математика HMMT 2026 | 95.2 | 96.2 | 97,7 | 94.7 |
| IMOAnswerBench | 89.8 | 75.3 | 91.4 | 81.0 |
Однако есть несколько областей, где новая модель DeekSeek отстает от конкурентов. Например, Claude Opus 4.6 лидирует по показателю поиска в длинном контексте. Он набирает 92,9 балла в тесте MRCR 1M против 83,5 у V4-Pro. GPT-5.4 по-прежнему лидирует в Terminal Bench 2.0 с результатом 75,1 балла против 67,9 у V4-Pro.
Главное преимущество DeepSeek перед конкурентами заключается в ценообразовании. V4-Pro стоит 3,48 доллара за миллион токенов, что по сравнению с 30 долларами у OpenAI и 25 долларами у Anthropic за аналогичные рабочие нагрузки может показаться гораздо более привлекательным для потенциальных клиентов. Однако для обычных разработчиков, создающих приложения на основе ИИ, эта разница огромна.