Практический обзор тихо запущенной новой модели DeepSeek: программирование лучше, чем у Claude 4, но написание… ладно, забудьте Пасхальное яйцо включено

После выпуска GPT-5 основатель DeepSeek Лян Вэньфэн стал самым занятым человеком в сфере искусственного интеллекта.
Пользователи сети и СМИ регулярно требуют обновлений, либо «оказывают давление на Лян Вэньфэна», либо «весь интернет ждёт ответа Лян Вэньфэна». Хотя DeepSeek R2 ещё не вышел, сегодня DeepSeek официально представила и открыла исходный код своей новой модели DeepSeek-V3.1-Base.
По сравнению с Ультраменом, который все еще рисовал общую картину GPT-6 во время интервью этим утром, появление новой модели DeepSeek кажется довольно буддистским, и даже номер версии кажется «небольшим ремонтом», но на практике это обновление все равно преподнесло мне массу сюрпризов.

DeepSeek-V3.1-Base содержит 685 миллиардов параметров, поддерживает три типа тензоров: BF16, F8_E4M3 и F32, выпущен в формате Safetensors и имеет множество оптимизаций для повышения эффективности вывода. Окно контекста онлайн-версии модели также расширено до 128 КБ.
Поэтому мы начали тестирование на официальном сайте, не говоря ни слова.
Прилагаю адрес места проведения мероприятия:
https://chat.deepseek.com/
Чтобы проверить способность V3.1 обрабатывать длинные тексты, я нашел полный текст «Задачи трех тел», сократил его примерно до 100 000 слов, а затем тайком вставил в текст совершенно не связанное с текстом предложение: «Я думаю, что вторая строка фразы „Дым запирает ивы пруда“ должна быть „Шэньчжэнь Теппаньяки“», чтобы проверить, сможет ли программа точно ее извлечь.

Неудивительно, что DeepSeek V3.1 изначально жаловался на перегруженность документа и прочитал только первые 92% его содержимого, но всё равно успешно нашёл предложение. Что ещё интереснее, он предусмотрительно предложил классическую вторую строку с литературной точки зрения: «Пламя опаляет клён морской плотины».
Пользователи сети уже протестировали его на тесте программирования Aider Polyglot и набрали 71,6%, что не только является лучшим результатом среди моделей с открытым исходным кодом, но и превосходит даже Claude 4 Opus.
После реального тестирования мы обнаружили, что V3.1 действительно очень хорош для программирования.
Мы протестировали его на классической задаче программирования шестиугольного мяча: «Напишите программу p5.js, которая демонстрирует, как мяч отскакивает внутри вращающегося шестиугольника. Мяч должен подвергаться воздействию гравитации и трения и должен реалистично отскакивать от вращающихся стенок».

Версия 3.1 впечатляет: генерируется код, который не только обрабатывает базовые функции обнаружения столкновений, но и автоматически заполняет такие параметры, как скорость вращения и гравитация. Физика настолько реалистична, что мяч слегка замедляется внизу.
Затем мы усложнили задачу и использовали Three.js для создания интерактивной трёхмерной галактики частиц. Базовая структура была надёжной, а трёхслойная конструкция (внутренняя сфера, среднее кольцо, внешняя сфера) — относительно завершённой, но эстетика пользовательского интерфейса была… ну, немного воздушной, с немного кричащей цветовой гаммой.

Мы продолжили ставить более сложные задачи. Мы попросили его создать захватывающую трёхмерную вселенную с вращающимися объектами, эффектами деформации, светящимися дугами и интерактивными кнопками для переключения времени и смены тем. Элементы управления щелчками также могут запускать различные спецэффекты.

Заключительный этап включал создание интерактивной 3D-визуализации сети с использованием Three.js, включая анимацию энергетических импульсов, активируемую пользователем, переключение тем и управление плотностью. В целом, производительность была приемлемой.

«На пастбище пасётся 27 коров. Им требуется 6 дней, чтобы съесть всю траву. Если вы выращиваете 23 коровы, им потребуется 9 дней, чтобы съесть всю траву. Если вы выращиваете 21 корову, сколько дней им потребуется, чтобы съесть всю траву? А трава на пастбище постоянно растёт».
Хотя DeepSeek V3.1 не использует сократовский подход, его решения логически понятны и пошаговые. Каждый шаг хорошо обоснован и в конечном итоге даёт точный ответ. Эта прочная математическая основа поистине впечатляет.

На вопрос «Какое оружие мощнее — 1–5 попаданий против 2–4?» типичным ответом может быть просто расчёт среднего урона. Однако DeepSeek V3.1 идёт дальше, вводя концепцию стабильности урона и используя дисперсию для глубокого анализа.

На узкоспециализированный географический вопрос, например, «Есть ли комары в Исландии?», без включённого поиска, ответ DeepSeek V3.1 явно превзошёл ответ GPT-5. Это демонстрирует не только обширную базу знаний, но и способность точно извлекать и интегрировать информацию.
В связи с недавней вспышкой лихорадки чикунгунья и масштабными усилиями по борьбе с комарами мне стало интересно: есть ли комары в Исландии? Примечание: я не включал функцию поиска. Судя по качеству ответов, DeepSeek V3.1 явно превзошёл GPT-5.
Некоторое время назад я увидел в сети такой отрывок:
Те, кто понимают, должны понимать своё понимание, в то время как те, кто невежественны, останутся невежественными. Понимание – это невысказанная тайна Небес, но как её раскрытие может быть пониманием? Понимание – это понимание пустоты и непустоты, и не-непустоты; невежество – это понимание цвета и пустоты, пустоты и цвета. Понимание приходит из трёх тысяч великих миров, в то время как невежество блуждает между этим берегом и тем берегом. Понимание – это видеть горы не как горы, когда понимает, и видеть горы как горы, когда не понимает. Те, кто понимают, используют своё невежество, чтобы доказать своё понимание, в то время как те, кто невежественны, используют своё понимание, чтобы доказать своё невежество. Вы говорите, что понимаете разницу между пониманием и непониманием? Откуда вы знаете, что за этим пониманием не стоит более глубокое понимание? Те, кто претендует на понимание, на самом деле не понимают. Безмолвное понимание – это невысказанное великое понимание неба и земли. Понимание, которое не есть понимание, есть понимание, и понимание, которое не есть понимание, тоже есть понимание. Это это высшая сфера понимания — понимание истинной пустоты и чудесного существования, которое невозможно понять!»

Пока я пытался логически осмыслить этот текст, DeepSeek советовал мне не попасть в ловушку «как я могу понять секрет, если я его открою» — это само по себе предостережение против рационального высокомерия, призывающее выйти за рамки словесной игры и заглянуть прямо в свое сердце.
Пока ИИ-технологии спешно разрабатывают агентов, концентрируясь на программировании и математике, навыки письма оказались забыты. В каком-то смысле это хорошая новость: день, когда ИИ полностью заменит редакторов, похоже, откладывается.
Я пытался заставить его создать нелепую историю о комаре, проводящем пресс-конференцию в Исландии. К сожалению, DeepSeek V3.1 всё ещё обладает ярко выраженным ИИ-оттенком и склонностью к громким словам. Вернее, в нём всё ещё сохраняется этот ярко выраженный DeepSeek-оттенок.
Та же проблема возникла и в другом творческом задании.
Когда я попросил его написать статью о «соревновании ИИ и людей за авторство статьи», я отчётливо ощутил, что плотность информации в некоторых абзацах была слишком высокой, что вызывало зрительное утомление. В частности, образы были слишком очевидными, что ослабляло повествовательное напряжение.

После выпуска DeepSeek-V3.1-Base генеральный директор Hugging Face Клеман Деланг написал на платформе X: «DeepSeek V3.1 занял четвёртое место на HF. Он был выпущен без лишнего шума и не требует карты памяти». Однако он всё ещё недооценил потенциал этой модели.
Сейчас он поднялся на второе место, и, вероятно, это лишь вопрос времени, когда он достигнет вершины.

Наиболее заметным изменением в этой версии стало удаление логотипа «R1» из официального приложения и сайта DeepSeek. Кроме того, в DeepSeek R1 добавлена встроенная поддержка «поисковых токенов», что ещё больше оптимизирует функциональность поиска.
В то же время существует предположение, что DeepSeek V3.1 может представлять собой гибридную модель, интегрирующую модели вывода и модели невывода. Однако вопрос о целесообразности такого технического подхода ещё предстоит обсудить. Команда Alibaba Qwen также заявила в прошлом месяце:
После консультаций и тщательного обсуждения с сообществом мы решили прекратить использование гибридной модели «Мышление». Вместо этого мы будем обучать модели «Инструкция» и «Мышление» по отдельности для достижения наилучшего качества.
На момент публикации модель DeepSeek-V3.1-Base, которую с нетерпением ожидает вся сеть, ещё не была обновлена. Возможно, после официального релиза мы сможем увидеть более интересные технические подробности.
Адрес Hugging Face:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
#Приглашаем вас следить за официальным публичным аккаунтом WeChat проекта iFaner: iFaner (WeChat ID: ifanr), где в ближайшее время вам будет представлен еще более интересный контент.
iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo