Компания DeepSeek намерена использовать стратегию Mixue Ice Cream для создания китайской версии «Кода Клода».

DeepSeek для больших моделей — это то же самое, что мороженое Mixue для молочного чая. Вам не нужно беспокоиться о стоимости, потому что его возможности безупречны, и он никогда не обременит ваш кошелек.

Недавно компания DeepSeek официально объявила о постоянном снижении цены на свой API-интерфейс DeepSeek-V4-Pro. DeepSeek также сообщила об улучшении скорости обработки данных и расширении функционала API, что привело к повышению скорости, стабильности работы и поддержке по умолчанию 500 одновременных подключений. Корпоративные пользователи могут подать заявку на увеличение количества одновременных подключений онлайн.

Стандарты ценообразования для API больших моделей пересматриваются: выпуск модели, предложение скидки, снижение цены за попадание в кэш и, наконец, превращение временного предложения в долгосрочную цену. Следующим шагом после появления недорогих моделей, вероятно, станет агент.

DeepSeek навсегда снизила свою цену; Лян Вэньфэн резко снизил цену токена.

Давайте сначала кратко рассмотрим хронологию снижения цен компанией DeepSeek:

  • 24 апреля состоялся официальный релиз предварительной версии DeepSeek V4.
  • 25 апреля компания DeepSeek объявила о 25-процентной скидке на модель V4-Pro.
  • 26 апреля DeepSeek объявила о том, что цена за попадание в кэш будет скорректирована до одной десятой от первоначальной цены.
  • 28 апреля компания DeepSeek объявила о продлении 25-процентной скидки на V4-Pro до 31 мая.
  • 22 мая компания DeepSeek объявила о постоянном снижении цены на V4-Pro, в результате чего она упала до четверти от первоначальной стоимости.

Ключевой момент в этой хронологии заключается в том, что временная скидка превратилась в постоянное снижение цены. После корректировки цена попадания в кэш ввода DeepSeek-V4-Pro снизилась с 0,1 юаня за миллион токенов до 0,025 юаня, а цена промаха в кэше ввода снизилась с 12 юаней за миллион токенов до 3 юаней.

Цена выпуска токенов снижена с 24 юаней за миллион токенов до 6 юаней. В сочетании с возможностью одновременного подключения до 500 устройств и ускорением работы сервиса официальный API стал еще более привлекательным для разработчиков и предприятий.

 https://api-docs.deepseek.com/zh-cn/quick_start/pricing

Наиболее прямое следствие снижения цен заключается в том, что это смещает акцент в затратах на выполнение задач на более непосредственный уровень при принятии решений разработчиками.

В сценарии, основанном на коде, одна задача может включать чтение файлов проекта, анализ логов, внесение нескольких изменений и многократное выполнение тестов, что может легко привести к значительному увеличению потребления токенов.

Сценарии с высокой интенсивностью использования ресурсов, такие как длительные контексты, анализ кодовой базы, пакетный рефакторинг, автоматизированное тестирование и многоэтапное выполнение агентов, становятся все более доступными для отдельных разработчиков и небольших команд в рамках их бюджета.

Раньше разработчики выбирали Claude, OpenAI или Gemini, основываясь в первую очередь на возможностях моделей, стабильности, экосистеме и привычках пользователей. Значительно сниженная постоянная цена DeepSeek означает, что привычки разработчиков в использовании могут легко измениться, когда они столкнутся с абсолютной экономической эффективностью.

Следуя этой логике, становится яснее рыночная роль DeepSeek: постоянно наращивать ценовое преимущество на рынке больших моделей за счет низких цен, открытого исходного кода и мощных возможностей вывода. Для отечественных производителей моделей постоянное снижение цены V4-Pro равносильно пересмотру ценовой политики API.

Такие модели, как Zhipu, MiniMax и Lunar Dark Side, которые также полагаются на комиссию за использование API и ориентированы на разработчиков и корпоративных клиентов, испытывают значительное давление. В отличие от них, ведущие зарубежные модели, такие как Claude, OpenAI и Gemini, испытывают относительно ограниченное краткосрочное влияние из-за различий в рыночной структуре, структуре клиентов и позиционировании в экосистеме.

Однако, если DeepSeek впоследствии выпустит инструмент кодирования, аналогичный Claude Code, и будет поддерживать высокочастотные звонки с низкими затратами токенов, это привлечет разработчиков, чувствительных к цене.

Предыдущее объяснение Лян Вэньфэном философии ценообразования DeepSeek остается актуальным и сегодня.

Ещё в 2024 году, когда DeepSeek V2 снизил цену, Лян Вэньфэн упомянул, что DeepSeek работает в своём собственном темпе, рассчитывая затраты и устанавливая цены соответствующим образом, руководствуясь принципом не терять деньги и не получать непомерную прибыль. Он также сказал, что снижение цены частично обусловлено сокращением затрат, достигнутым благодаря исследованию структуры модели следующего поколения, а частично – тем фактом, что API и ИИ должны быть доступными и приемлемыми по цене для всех.

Вместо того чтобы использовать API в качестве высокодоходного источника прибыли, DeepSeek, похоже, использует свои мощные инфраструктурные возможности для снижения затрат на обработку данных, а затем привлекает разработчиков, приложения и всю экосистему к своей платформе низкими ценами.

В недавней статье под названием «Гранд-стратегия DeepSeek на 10 триллионов долларов США» блогер @bookwormengr на платформе X предложил более радикальное объяснение.

Он считает, что настоящая цель DeepSeek заключается не обязательно в конкуренции с Zhipu, Lunar Dark Side и MiniMax, и не в спешке с завершением разработки таких продуктовых линеек, как мультимодальные, голосовые и видеосистемы. Скорее, она состоит в содействии формированию более дешевой и децентрализованной экосистемы аппаратного обеспечения для ИИ за счет постоянного снижения требований к ресурсам для обучения и вывода результатов.

По его мнению, долгосрочная ценность DeepSeek заключается не только в самой модели, но и в том, что она позволяет большему количеству отечественных устройств хранения данных, графических процессоров, специализированных интегральных схем, сетевых чипов и гетерогенного оборудования интегрироваться в системы обучения и вывода больших моделей.

Возможно, это предсказание не сбудется полностью, но оно объясняет направление, в котором DeepSeek приняла ряд решений:

MoE, MLA, DSA, GRPO, RLVR, сжатие кэша ключ-значение, Dual Path и TileLang на первый взгляд представляют собой оптимизацию архитектуры модели и инженерии вывода. Но если копнуть глубже, все они направлены на снижение зависимости от высокопроизводительной памяти HBM, топовых графических процессоров и экосистемы CUDA.

Среди серии объявлений о снижении цен наиболее примечательным является не только снижение цены выпускаемой продукции, но и снижение цены попадания в кэш.

В крупномасштабном выводе моделей кэширование ключ-значение (KV) является критически важным элементом затрат. Когда модель обрабатывает длинные контексты, ей необходимо хранить ключ и значение, соответствующие историческим токенам, для повторного использования в последующих поколениях. Чем длиннее контекст, тем больше кэша необходимо сохранять и извлекать, и тем больше нагрузка на память графического процессора, пропускную способность и системы хранения данных.

В обычном чате нагрузка на кэширование может быть неочевидной, но структура затрат быстро меняется при переходе к коду, длинным документам и задачам агента. @bookwormengr в подробной статье рассчитал стоимость кэширования типа «ключ-значение».

Исходя из контекста в 1 миллион токенов, 8-битной точности ключ-значение и 16-битной точности индекса, он оценил, что DeepSeek V4 требует приблизительно 5,48 ГБ памяти HBM, GLM5 — приблизительно 60 ГБ, а Qwen3-235B-A22B — приблизительно 89 ГБ.

Реальная стоимость длительных задач, связанных с контекстом и агентами, сводится не только к самой генерации модели, но и к кэшированию, памяти графического процессора, пропускной способности и повторной обработке контекста.

Когда агент обработки кода обрабатывает проект, он может многократно считывать одну и ту же структуру кодовой базы, один и тот же пакет файлов, одну и ту же историю задач, один и тот же набор системных подсказок и один и тот же пакет журналов тестирования. Если каждый раунд будет оплачиваться заново на основе полного контекста, длительные задачи быстро станут дорогостоящими. После снижения стоимости попаданий в кэш, стоимость повторного использования контекстов значительно снизится.

Постоянные инвестиции DeepSeek в архитектуру MoE, длинный контекст, сжатие кэша ключ-значение и эффективность вывода в последние годы принесли замечательные результаты. Снижение цен является неизбежным следствием технологического прогресса и полностью изменит ландшафт рынка программирования ИИ.

Зачем нужно создавать китайскую версию «Кодекса Клода»?

В первую очередь пострадают модели подписки на инструменты программирования искусственного интеллекта.

Большинство распространенных на рынке инструментов для программирования ИИ предлагают ежемесячные подписки на тарифные планы, предоставляя пользователям такие преимущества, как автозавершение кода, запуск моделей и выполнение агентов. В эпоху облегченных систем автозавершения кода стоимость одного запуска чрезвычайно низка.

Однако программирование в области ИИ эволюционировало от однократных итераций до полностью автоматизированного кодирования с помощью агентов. Модель может самостоятельно выполнять модификацию кода, запуск тестов и исправление ошибок, что значительно увеличивает потребление токенов на задачу.

Когда базовые API также значительно снижают свою стоимость, Coding Plan должен найти новую поддержку. Эта поддержка, скорее всего, будет заключаться в инженерных возможностях — например, в способности лучше понимать структуру проекта, точно выбирать контексты, контролировать потребление токенов, надежно модифицировать код, работать с Git, терминалами, CI/CD, а также управлять разрешениями и журналами аудита в корпоративной среде.

Необходимо также переосмыслить роль API-посредников. Для отдельных разработчиков доступность и простота использования остаются важными. Но для бизнеса стабильность, возможность аудита, управляемость и переносимость имеют еще большее значение.

Следуя этой логике, изменения в плане застройки и на транспортной станции носят лишь поверхностный характер. Помимо снижения цен, более насущный вопрос заключается в следующем: кто в конечном итоге контролирует точку входа застройщика на рынок?

В недавнем интервью изданию Hard Fork генеральный директор Google Сундар Пичаи впервые публично признал, что Google очень конкурентоспособен в области обработки текста, мультимодальных вычислений, голосового ввода, логического мышления и общего интеллекта, но все еще отстает в таких возможностях, как программирование, особенно в вызове инструментов, выполнении инструкций и решении задач длительного цикла.

Он также упомянул, что, что более важно, речь идет о внедрении модели в реальные приложения, обеспечении обратного потока данных и продолжении итераций. Пичай особо отметил, что программирование — это область, требующая работы с потоками данных.

Инструменты терминала позволяют разработчикам отслеживать, как они предлагают задачи, задают уточняющие вопросы, принимают предложения, отменяют задачи и запрашивают дальнейшие улучшения модели. Они также могут определять, завершилось ли выполнение задачи агентом, на основе результатов тестирования, журналов терминала, изменений файлов и коммитов Git. Этот тип данных чрезвычайно ценен для разработки моделей и продуктов на основе агентов.

Судя по публичным объявлениям о наборе персонала, компания DeepSeek в последнее время активизировалась в деятельности, связанной с агентами.

Также в объявлениях о вакансиях можно увидеть такие должности, как исследователь алгоритмов глубокого обучения для агентов, инженер по стратегии данных для агентов, менеджер по продукту и инженер по исследованиям и разработкам. Что еще более важно, старший научный сотрудник DeepSeek Чен Дели напрямую разместил объявление о вакансии, упомянув, что он будет создавать Code Harness с нуля.

Как и сказано, Модель + Инструкция = Агент. В продуктах типа «Агент» модель отвечает за понимание и генерацию, а Инструкция отвечает за внедрение возможностей модели в реальную инженерную среду, что эквивалентно «системе выполнения» вне модели.

Версия Claude Code от DeepSeek должна предоставлять разработчикам не просто диалоговое окно, а инженерную систему, способную непрерывно выполнять задачи.

Внимание Цуй Тяньи после прихода в DeepSeek также связано с инженерными особенностями Code Agent.

Согласно общедоступной информации, Цуй Тяньи окончил факультет компьютерных наук Чжэцзянского университета. Он поступил в университет по результатам конкурса по компьютерным наукам и шесть раз становился золотым призёром регионального конкурса ACM Asia. Затем он девять лет проработал в компании Jane Street и стал соучредителем TSY Capital.

Сложность Code Agent заключается не только в генерации кода, но и в его способности непрерывно выполнять задачи в рамках реальных проектов. Системы количественной торговли давно делают акцент на низкой задержке, стабильности, автоматическом исполнении и контроле рисков; этот опыт, по крайней мере с точки зрения инженерной парадигмы, применим к Agent Harness.

Функциональные возможности инструментов Agent включают не только написание кода, но и управление правами доступа, аудит, изоляцию данных и политики безопасности.

Это, в свою очередь, открывает возможности для отечественных моделей, таких как DeepSeek. Если DeepSeek сможет объединить недорогие модели, программный код, локальное развертывание и контроль доступа на корпоративном уровне, он будет иметь большую альтернативную ценность в отраслях, чувствительных к данным, таких как государственное управление, финансы, производство и энергетика.

Логика DeepSeek в создании китайской версии Claude Code заключается в следующем: низкие цены на токены привлекают больше разработчиков; низкие затраты на кэширование снижают затраты на выполнение задач агентами; CodeWharger интегрирует модели в среду разработки; а реальные рабочие процессы, в свою очередь, помогают DeepSeek улучшать свои модели и продукты.

Подобно снежному кому, катящемуся с горы, он становится всё больше и быстрее с каждым качением. Снижение цен — это лишь первый толчок, который заставляет его катиться вниз; после этого он будет катиться всё тяжелее и тяжелее, и никто не сможет его остановить.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете быстро найти еще больше интересного контента.