DeepSeek, пора сбросить оковы отшельничества.
Каждый раз, когда я читаю «Полубогов и полудемонов», мне приходится останавливаться, когда я дохожу до части о павильоне сутр в Шаолиньском храме.
Сяо Юаньшань и его сын Сяо Фэн противостояли Муронг Бо и его сыну Муронг Фу, а Кумараджива подстрекал к конфликту со стороны. Тридцать лет глубоко укоренившейся ненависти переплелись между собой, и казалось, что неминуема борьба не на жизнь, а на смерть. В этот момент появился худой, статный монах.
«Восемнадцать ладоней усмиряющего дракона» Сяо Фэна поразили его, и, несмотря на внутренние повреждения и рвоту с кровью, он выдержал это благодаря своей мощной внутренней силе. Каждое его движение заставляло Муронг Бо впадать в состояние «притворной смерти», а затем возвращало его к жизни. Это состояние, управляющее жизнью и смертью, повергло всех присутствующих лучших мастеров в шок и лишило дара речи.

В данный момент ответ на вопрос о том, кто силен, а кто слаб, очевиден.
В последние годы сообщество разработчиков ИИ часто сравнивало DeepSeek с этим старым монахом. В глазах всех ландшафт сферы ИИ уже определен: есть три зарубежных гиганта, крупные компании и тогда еще восходящая звезда ИИ — шесть маленьких тигров в Китае. Комментировать это уже не место для посторонних.
В результате незаметно появилась китайская компания, имеющая опыт в количественной торговле, которая, используя ряд неожиданных тактик, напрямую противостояла этим людям в различных ключевых оценках, что привело к ожесточенной борьбе.

Однако появление Монаха-уборщика происходит в тот момент, когда «Полубоги и Полудемоны» приближаются к своему завершению. Его миссия — положить конец конфликту, уладить вражду, и тогда книга подойдет к концу. Но у великой истории нет конца, нет заключительной главы, есть только следующая глава и та, что после нее.
Сравнивать DeepSeek с непревзойденным инструментом — это высшая похвала его прошлому, но если эти три слова постепенно превращаются в оковы, сковывающие его, то я думаю, что похвала и предзнаменование гибели иногда — это всего лишь вопрос одной мысли.
Как монах-подметатель стал монахом?
Когда Цзинь Юн писал о монахе-уборщике, он никогда напрямую не описывал его навыки боевых искусств. Он писал о реакции окружающих: Сяо Фэн был ошеломлен, Муронг Фу был ошеломлен, и зрители тоже были ошеломлены. Уровень мастера можно передать только в тот момент, когда другие теряют дар речи.
История DeepSeek также соответствует этой логике.
В хедж-фонде, базирующемся в Ханчжоу, при упоминании Magic Quant первым делом вспоминаются фьючерсы, алгоритмическая торговля и математические гении, завороженно наблюдающие за прыгающими на экране цифрами. Это кажется совершенно не связанным с крупномасштабными моделями искусственного интеллекта, однако они незаметно собрали группу инженеров и исследователей для создания таких моделей.

В ноябре 2023 года они выпустили свою первую крупномасштабную модель с открытым исходным кодом, DeepSeek Coder, за которой последовала языковая модель 67B. В нескольких официальных тестах 67B превзошла LLaMA2 70B, а 67B Chat превзошла GPT 3.5 в некоторых китайских и открытых тестах. Однако это заметили лишь немногие хорошо осведомленные люди в отрасли; большинство — нет. Скромные монахи все еще подметали пол, а люди в Шаолиньском храме были заняты практикой Шаолиньского длинного кулака.
Его истинный потенциал раскрылся с выходом версии V2 7 мая 2024 года. V2 использует архитектуру MoE (Hybrid Expert) с общим количеством 236 миллиардов параметров, но при каждом инференсе фактически активируется только 21 миллиард. В то же время, V2 первым внедрил механизм MLA (Multi-Head Latent Attention), что значительно снизило использование памяти GPU во время инференса.
Сочетание этих двух методов позволяет модели работать быстрее и использовать меньше ресурсов, достигая при этом того же эффекта. По словам Цзинь Юна, это называется использованием мягкости для преодоления жесткости, применением тонких методов внутренней энергии для компенсации недостатка общей внутренней энергии.

▲
https://arxiv.org/abs/2405.04434
Но наибольший резонанс вызвала ценовая политика. API V2 стоил 1 юань за каждый миллион введенных токенов и 2 юаня за каждый миллион выданных токенов. GPT-4 Turbo стоил в семьдесят раз дороже, а Meta Llama3 70B — в семь раз дороже. Один юань за миллион токенов примерно равен количеству слов в такой книге, как «Роман о трёх царствах».
Это объявление о ценах вызвало шок на всем внутреннем рынке крупногабаритных моделей. В том же месяце ByteDance, Alibaba, Baidu, Tencent, iFlytek и Zhipu объявили о снижении цен на целых 97%, а некоторые облегченные модели даже стали доступны бесплатно.
Ценовая война, длившаяся более полугода, началась с одного-единственного заявления о ценах от DeepSeek. В то время в отрасли DeepSeek прозвали «убийцей цен».
Примерно в то же время американская консалтинговая фирма SemiAnalysis, специализирующаяся на полупроводниковых технологиях, опубликовала анализ, в котором предполагалось, что эта компания может стать конкурентом OpenAI и потенциально вытеснить другие крупные модели с открытым исходным кодом. Тогда около половины читателей сочли это паникерством. Оглядываясь назад, спустя более года, уже никто так не считает.

Выпуск V3 в конце 2024 года и R1 в начале 2025 года стали двумя последовательными шагами, которые ошеломили их противников. DeepSeek добился близкого результата с минимальными инвестициями.
Ещё более поразительным является количество участников: проект завершили 139 инженеров и исследователей, по сравнению с 1200 исследователями в OpenAI и 500 в Anthropic за тот же период. Александр Ван, руководитель лаборатории суперинтеллекта Meta, позже сделал широко распространённое заявление: «Пока американцы отдыхали, они работали и догоняли нас, создавая более дешёвые, быстрые и мощные продукты».
Далее идет R1, ориентированный на глубокое рассуждение, включая математику, программирование и логику. Он достойно конкурирует с OpenAI o1 по многим параметрам тестирования. Метод обучения использует обучение с подкреплением GRPO, которое улучшает способность к рассуждению, позволяя модели самостоятельно разбираться в ситуации.

Самый важный шаг — это открытие исходного кода.
Открытие исходного кода R1 широко интерпретируется как акт щедрости. Весовые коэффициенты моделей, технические документы и подробности обучения становятся общедоступными, позволяя разработчикам по всему миру делиться результатами. В этой истории DeepSeek — это тот, кто открыл двери библиотеки, приветствуя всех желающих войти, не опасаясь потери данных.
Учебное пособие по боевым искусствам разложено прямо на столе, и любой желающий может его взять. Этот шаг打破 монополию нескольких гигантов на передовые модели, предоставив десяткам тысяч мелких и средних разработчиков по всему миру возможность конкурировать с лучшими моделями.
В образе Монаха-подметальщика, созданном Джин Ёном, в основном прослеживаются несколько ключевых элементов: его скромное происхождение, годы затворничества, стремительный взлет к славе, исключительные навыки и великодушное сердце. Возможность DeepSeek V2 снизить стоимость, V3 — добиться чудесного соотношения цены и качества, а R1 — быть доступным через открытый исходный код, также позволяет людям по-настоящему увидеть тень этого старого монаха в DeepSeek.
Кандалы и то, что следует за кандалами
Но романы о боевых искусствах в конце концов закончатся, а вот область искусственного интеллекта – нет.
Каждый раз, когда я пишу статью о DeepSeek, в комментариях разгорается ожесточенная битва, словно в тайной библиотеке. Одни говорят, что компания тихонько фокусируется на разработке продукта, предлагая бесплатные услуги без создания определенного имиджа, ставя во главу угла удобство использования — и это правильный путь. Другие утверждают, что она даже не может конкурировать с другими крупными отечественными игроками и больше не способна изменить рынок.

Некоторые считали, что с DeepSeek обошлись несправедливо, другие же полагали, что его следовало удалить давным-давно. Один человек даже сказал: «Мы никогда не относились к DeepSeek как к лучшему ученику, а скорее как к скрытому мастеру, и мы искренне надеемся, что он оправдает наши ожидания», — заявление, в котором чувствовались и предвкушение, и оттенок необъяснимой меланхолии.

Резкая поляризация мнений говорит о многом. DeepSeek привлекла к себе гораздо больше внимания, чем следовало бы типичной компании, занимающейся искусственным интеллектом. Ее сторонники возводят ее в ранг божества, в то время как противники осуждают ее до основания. Немногие компании способны одновременно противостоять обеим крайностям в общественном дискурсе.
Вероятно, эту статью постигнет та же участь: одни назовут её клеветнической кампанией, другие — пиар-ходом, не угождающим ни одной из сторон. Но это не имеет значения; общественное мнение всегда такое — битва в библиотеке, и независимо от того, кто победит, всегда найдутся те, кто не согласен.

Возвращаясь к главному, появление Монаха-Уборщика ознаменовало конец «Полубогов и Полудемонов». Его вмешательство утихомирило конфликт, и история постепенно приблизилась к своей заключительной главе. Эта повествовательная структура, кажется, пронизана атмосферой грандиозного финала: появляется герой, решительно уничтожающий мир одним движением, и в мире боевых искусств воцаряется мир.
Согласно источникам, на которые ссылается Chuangzhiji, официальный релиз DeepSeek V4 состоится в конце апреля, как и было объявлено внутри компании основателем Лян Вэньфэном.
В типичном романе, исполняющем желания, главный герой должен совершить прорыв в каждой главе, и читатели всегда ожидают еще большего сюрприза, перевернув страницу.
V3 и R1 покорили мир своим умным и впечатляющим подходом, заставив многих считать их стандартной продукцией DeepSeek. Каждый их шаг неизбежно наносил огромный ущерб гигантам Кремниевой долины и обрушивал акции Nvidia. V4 должен пойти по тому же пути.

Однако за этот более чем годичный период ожидания внешний мир стал несколько беспокойным, и появились различные голоса, утверждавшие, что задержки вызваны нехваткой идей и что скрытый мастер вот-вот сдастся. Те, кто так говорил, считали, что DeepSeek должен каждый раз совершать чудо, и что если он отстаёт хотя бы на шаг, это значит, что у него закончились идеи.
Есть причины, по которым это происходит медленно.
29 марта серверы DeepSeek вышли из строя почти на тринадцать часов, установив рекорд по продолжительности простоя с момента запуска веб-версии и мобильного приложения платформы. Эта серия инцидентов выявила существенные недостатки в системах оперативного мониторинга DeepSeek, планах реагирования на чрезвычайные ситуации и механизмах восстановления после катастроф, став тревожным сигналом для всей индустрии искусственного интеллекта.

Разумеется, судя по различным сообщениям, причина неоднократных задержек с выпуском версии V4 кроется в самом чипе.
Успех версий V3 и R1 отчасти обусловлен развитой экосистемой NVIDIA CUDA. Инженеры DeepSeek, работая в среде с полным набором инструментов, подробной документацией и активным сообществом, довели эффективность алгоритма до предела, тщательно прорабатывая каждый шаг.
Цель версии V4 — перенести эту технологию на чипы для искусственного интеллекта, производимые внутри страны. Инструментарий всё ещё быстро развивается, базовый интерфейс значительно отличается от CUDA, а распределенную систему обучения практически необходимо перестраивать с нуля.
Результаты DeepSeek, особенно с учетом возникших ограничений, имеют дополнительный вес во всех отношениях. Даже если бы Лян Вэньфэн был готов отложить этот вопрос еще на несколько месяцев, это все равно было бы очень оправданным решением.
Что касается самой версии V4, то в отчете компании "Creative Intelligence" говорится, что технологический фокус, как сообщается, сосредоточен на прорывах в возможностях долговременной памяти (LTM), а также на интеграции нативной мультимодальности в архитектуру с самого нижнего уровня, при этом текст и изображение объединяются на этапе предварительного обучения.
Еще одно примечательное изменение — это незаметное изменение приоритетов Лян Вэньфэна. Хотя некоторые ключевые сотрудники DeepSeek, включая Го Дая, основного автора R1, покинули компанию за последний год, по наблюдениям LatePost, кадровый резерв DeepSeek остается стабильным, и масштабной потери талантов не произошло.
Во второй половине 2025 года Лян Вэньфэн уделяет все больше внимания коммерциализации и внедрению технологий в производство, активно привлекая стратегических менеджеров по продуктам для руководства направлением «Агенты». Одновременно он инициирует процесс оценки компании, предоставляя сотрудникам четкую основу для их опционов на акции и формируя у команды более ясное видение будущего.

Учитывая все эти тенденции, легко сделать вывод: DeepSeek, которая когда-то сосредоточилась исключительно на искусственном общем интеллекте, теперь должна столкнуться с реалиями, с которыми сталкивается зрелая технологическая компания: замкнутый цикл бизнеса, построение экосистемы и устойчивые потоки доходов.
Скрытый мастер может десятилетиями оставаться оторванным от мирских дел, сметая священные писания из своей библиотеки до самого конца; компания не предлагает такой возможности.
В «Улыбающемся, гордом страннике» Линху Чун мог победить все техники боевых искусств с помощью своих девяти мечей Дугу. Однако, когда он по-настоящему взял на себя руководство сектой Хэншань, ежедневно встречая и провожая гостей и защищая своих учеников, одного навыка оказалось недостаточно. Ему было необходимо внутреннее управление, сердца людей и основа для дальнейшего существования секты. Необыкновенные техники не могли решить повседневные проблемы с дровами, рисом, маслом и солью.

Поэтому мы должны активно помогать DeepSeek избавиться от ярлыка «скрытого лидера». Этот титул — высшая похвала прошлому, но излишняя нагрузка на будущее. Даже если V4 не обеспечила резкого преимущества на старте, это была просто хорошо сбалансированная машина с солидной производительностью в режиме долговременного мониторинга, нативной многомодальной интеграцией и сбалансированной производительностью по различным показателям.
С точки зрения отрасли, это по-прежнему огромный успех, успех, который может доказать способность DeepSeek трансформироваться из компании-конкурента, творящей чудеса, в поставщика стабильной инфраструктуры.
Интересно, что в этом вопросе, возможно, был и взаимный. В предыдущем отчете LatePost сообщалось, что внешняя коммуникация DeepSeek была заметно более сдержанной, чем раньше, без масштабной предзапусковой кампании и каких-либо технических сигналов, призванных подогреть интерес.
Трудно сказать, что такая замкнутость была случайной.
Они лучше всех понимали, что скрывается за названием «Подметающий монах». Каждый их шаг, если он не приводил к полному перевороту, усиливал общественное недовольство. Это была форма управления ожиданиями, а также способ самоосвобождения — они тоже больше не хотели нести это бремя.

▲Мир моделей искусственного интеллекта превратился из игры, доступной лишь немногим учреждениям, в инфраструктурный проект, в котором участвуют разработчики со всего мира, и эта тенденция ускоряется.
https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026
С другой стороны, пока все были сосредоточены на DeepSeek, мало кто обращал внимание на другие проекты.

▲Список уровней моделей с открытым исходным кодом, источник изображения: https://www.interconnects.ai/p/2025-open-models-year-in-review
В условиях жесткой конкуренции каждая китайская компания, занимающаяся разработкой искусственного интеллекта, усердно совершенствует свои навыки, делая ставку на мультимодальные вычисления, экосистемы агентов и развертывание вычислительных мощностей, и каждая прокладывает свой собственный путь в своей области.
DeepSeek, несомненно, самое захватывающее название, но сосредотачиваться только на нем — значит сужать наше представление об этой эпохе. Что действительно сделало "Полубогов и Полудемонов" тем, чем они являются сегодня, так это разнообразие происхождения и уникальные навыки всего того поколения, чье взаимодействие и обмен опытом создали эту великолепную эпоху.
Легенда о Подметающем Монахе завершается битвой у Павильона Сутр; за пределами Павильона Сутр находится истинный мир боевых искусств.
Автор: Мо Чунгюй
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.