Xiaomi: Называйте меня убийцей цен токенов.

Те, кто делал ставку на резкий рост цен на токены в 2026 году, дважды за одну неделю ошиблись.
22 мая DeepSeek объявила о постоянном снижении цены на DeepSeek V4 Pro; сегодня рано утром аналогичная ситуация повторилась с серией MiMo-V2.5 от Xiaomi, цены на которую снизились до 99%.
Одновременно с этим была оптимизирована система оплаты по тарифным планам Xiaomi Token Plan: цена осталась неизменной, но доступное количество увеличилось в 5-8 раз по сравнению с первоначальным объемом.

Неудивительно, что обсуждения снижения цены на модель Xiaomi MiMo на зарубежных платформах Reddit, X и различных форумах разработчиков также быстро набрали обороты.

Однако, в то время как вся индустрия сетует на непомерные затраты на токенизацию, почему Xiaomi осмеливается идти против течения и снижать цены? И что еще важнее, к чему приведет это снижение цен в индустрии искусственного интеллекта?
Цены на токены резко падают, индустрия искусственного интеллекта встречает своего самого строгого отца.
В заявлении Xiaomi указано, что цена на API для крупномасштабных моделей искусственного интеллекта серии MiMo-V2.5 будет постоянно снижена, максимальное снижение составит 99%, и цена больше не будет зависеть от длины входных данных. Новая цена вступила в силу во всем мире в 00:00 по пекинскому времени 27 мая.

Однако снижение на 99% не означает, что каждый звонок будет оплачиваться по самой низкой цене; ключевым фактором является то, будет ли использован входной кэш.
Рассмотрим в качестве примера MiMo-V2.5-Pro. После попадания в кэш цена на входе падает примерно до 0,025 юаня за миллион токенов. Однако, если кэш на входе не полон, цена остается на уровне 3 юаня за миллион токенов, а цена на выходе составляет 6 юаней за миллион токенов.
Иными словами, предпосылкой для такой чрезвычайно низкой цены является то, что запросы должны попадать в кэш большое количество раз.
Эта цена очень привлекательна для задач с высокой частотой повторения контекстов, высокой частотой агентов, многоэтапными задачами кодирования и задачами пакетного вывода. Однако, если в вашем сценарии приложения низкий коэффициент попаданий в кэш, фактическая стоимость, очевидно, не достигнет минимального значения.
План с токенами работает по аналогичной логике.

Xiaomi подчеркнула, что цены останутся без изменений, но лимиты кредитов будут значительно увеличены: ежемесячная плата за четыре уровня подписки — Lite, Standard, Pro и Max — останется на уровне 39 юаней, 99 юаней, 329 юаней и 659 юаней соответственно. Лимиты кредитов также будут увеличены с 60 миллионов, 200 миллионов, 700 миллионов и 1,6 миллиарда до 4,1 миллиарда, 11 миллиардов, 38 миллиардов и 82 миллиардов соответственно.
Согласно новой системе конвертации, для попадания в кэш MiMo-V2.5-Pro требуется всего 2,5 кредита/токен, а для промаха — 300 кредитов/токен, что в сумме составляет 600 кредитов/токен.


Это в точности та же стратегия, которую использует DeepSeek.
Вот краткая хронология событий: предварительная версия DeepSeek V4 была выпущена 24 апреля; на следующий день V4-Pro предлагалась со скидкой 25%; 26 апреля цена попаданий в кэш резко упала до одной десятой от первоначальной цены; а к 22 мая временная скидка превратилась в постоянное снижение цены, и V4-Pro была окончательно снижена до одной четверти от первоначальной цены.
После некоторых корректировок цена попадания во входящий кэш DeepSeek-V4-Pro снизилась с 0,1 юаня до 0,025 юаня. Xiaomi MiMo-V2.5-Pro быстро последовал этому примеру, и цена попадания во входящий кэш отечественных моделей полностью зафиксировалась на этом уровне.

И DeepSeek, и Xiaomi сосредоточили свои наиболее эффективные ценовые стратегии на показателях попадания в кэш и сценариях использования, и причина проста. Более крупная модель смещается от чата к реальной работе, и именно в агенте потребление токенов действительно возрастает.
В сценариях чата пользователь задает вопрос, а модель отвечает, что позволяет относительно легко оценить стоимость.
Однако в сценарии, основанном на работе агентов, задача может включать в себя длинные контексты, несколько раундов вывода, генерацию кода, вызовы инструментов, чтение веб-страниц, анализ файлов и проверку результатов. Пользователь видит только конечный результат, в то время как бэкэнд может уже обработать множество запросов и большое количество чтений контекста.
Именно здесь важны попадания в кэш.
Агенты, вспомогательные программы для работы с кодом и приложения с длительным контекстом имеют общую характеристику: большая часть контента повторяется. Это включает в себя системные подсказки, код проекта, документацию API, описания инструментов, историю диалогов и файлы зависимостей. Пересчет этого контента каждый раз был бы очень дорогостоящим; однако, если его можно кэшировать и оплачивать только на основе попаданий в кэш при следующем использовании, стоимость вывода значительно снизится.
Другими словами, чем ниже цена попадания в кэш, тем лучше он подходит для реальных рабочих сценариев, включающих высокую частоту обращений, многократные циклы и длительные контексты. Низкие цены, предлагаемые DeepSeek и Xiaomi, на самом деле направлены на привлечение разработчиков и высокочастотных приложений, стимулируя большее количество агентов, программных помощников и приложений для автоматизации офисных процессов использовать их модели.

Ранее Xiaomi использовала такие инициативы, как MiMo Orbit и программа поощрения создателей токенов Trillion Token Creator Incentive Program, чтобы дать большему количеству людей возможность познакомиться с MiMo и решать реальные проблемы. В рамках этой программы, запущенной 28 апреля, все 100 токенов были распределены досрочно, к 16:08 26 мая.
С точки зрения платформы, низкая стоимость токенов и бесплатные квоты приводят к огромному объему реального использования. Это реальное использование включает в себя сложные задачи, примеры сбоев, отзывы пользователей, рабочие процессы агентов, сценарии кода и долгосрочные контекстные данные, которые, в свою очередь, помогают модели и системе вывода совершенствоваться.
Феномен «креветочного фермерства» в сообществе также можно объяснить этой логикой. Максимизируя свои лимиты расходов, пользователи одновременно помогают платформе оказывать давление, выявлять проблемы и накапливать данные.
Следовательно, анализ нельзя основывать исключительно на валовой прибыли с каждого вывода. Хотя краткосрочная выручка снижается, выгода достигается за счет миграции разработчиков, увеличения объема звонков и получения реальной обратной связи. Для поставщиков моделей, стремящихся занять место в экосистеме Agent, это представляет собой очень выгодную инвестицию в платформу.
«Закон истинного аромата» Ло Фули основан на применении насилия в инженерных целях.
Однако одной лишь воли недостаточно; главное — иметь возможность снизить цену. Особенность этого снижения цен от Xiaomi заключается в том, что оно контрастирует с предыдущими публичными заявлениями Ло Фули, главы подразделения крупных моделей MiMo.
Месяц назад Ло Фули публично выступила против ценовой войны токенов. Тогда она оценила ситуацию так: низкие цены на токены в сочетании с открытой системой сторонних агентов могут легко привести к неконтролируемым издержкам для платформы.
Она отметила, что сторонние фреймворки для работы с агентами часто имеют плохое управление контекстом. Один пользовательский запрос может инициировать несколько раундов малоэффективных вызовов инструментов, при этом каждый запрос содержит чрезмерно длинный контекст, включающий более 100 000 токенов. Если платформа не может ограничить эти потери, фактическая стоимость API может в десятки раз превышать стоимость подписки.

Она также считает, что глобальные вычислительные мощности больше не могут справляться с растущим спросом на токены, генерируемым агентами. Крупные компании, не прояснив структуру затрат на программирование и сценарии работы с агентами, будут вести слепые ценовые войны, что приведет к замедлению работы, истощению ресурсов и снижению стабильности, в конечном итоге ухудшая пользовательский опыт.
Однако на этот раз снижение цен Xiaomi не отменило предыдущих решений, а скорее изменило предпосылки для ценовой войны. Ранее Ло Фули выступал против низких цен без обоснованной структуры затрат. Теперь Xiaomi демонстрирует теоретическое инженерное решение, которое, по ее мнению, может обеспечить низкие цены.
Согласно заявлению Xiaomi, её техническая команда, используя SGLang HiCache, полностью поддерживает SWA (Sliding Window Attention — скользящее окно внимания). Это уменьшает объём перемещения данных между несколькими уровнями хранения, такими как память GPU, память CPU и SSD в KV Cache, почти в семь раз по сравнению с тем, что было до оптимизации, и увеличивает количество кэшируемых токенов почти в пять раз по сравнению с тем, что было до оптимизации.
Одновременно с этим Xiaomi оптимизировала свое экспертное решение для параллельной обработки и стратегию группировки входных данных по длине, чтобы повысить пропускную способность кластера. Без такого уровня инженерных возможностей низкие цены легко могут превратиться в неустойчивые субсидии. Только при наличии достаточно надежной инфраструктурной системы низкие цены могут превратиться в долгосрочное преимущество.

Ценовые войны проверяют инженерные возможности, а также надежность системы поддержки.
В отличие от компаний, занимающихся исключительно разработкой моделей искусственного интеллекта, бизнес Xiaomi в сфере смартфонов, автомобильной промышленности, интернета вещей и бытовой электроники обеспечивает ей более длительный инвестиционный цикл и большую стратегическую выдержку. Компания может рассматривать свои масштабные сервисы моделирования как точку входа в экосистему ИИ, избегая ловушки, связанной с сосредоточением исключительно на краткосрочной прибыли от API.
Это неблагоприятно для малых и средних компаний, занимающихся разработкой моделей. Без основного бизнеса, который бы их поддерживал, без развитой инфраструктуры и без игроков достаточного масштаба для снижения издержек, им суждено оказаться неспособными выдерживать такие цены в долгосрочной перспективе.
Низкие цены DeepSeek напрямую угрожают рыночным позициям многих отечественных поставщиков моделей. Последовав примеру Xiaomi MiMo, всё больше крупных производителей будут вынуждены корректировать свои цены или переосмысливать ценность своей продукции. Более мелкие поставщики услуг по предоставлению моделей могут быть вынуждены работать на более узких вертикальных рынках.

Этот раунд снижения цен в некоторой степени является процессом отбора на рынке для поставщиков моделей, ориентированных на повышение эффективности. Компании, обладающие инженерными возможностями, вычислительными мощностями для планирования задач и точками входа в экосистему, могут выдержать давление со стороны более низких цен. Компании, которые обладают только возможностями моделирования, но не могут снизить затраты на вывод результатов, будут становиться все более пассивными.
Более того, по мере того, как возможности для дальнейшего снижения цен постепенно сужаются, чем ближе цена к физической стоимости, тем менее ценными становятся простые снижения цен. На следующем этапе качество моделей, адаптация агентов, инструменты для разработчиков, интеграция экосистемы, стабильность сервисов и возможности предоставления услуг на уровне предприятий столкнутся с новым витком жесткой конкуренции.
Возможности моделей определяют верхний предел развития ИИ, а стоимость вывода результатов определяет масштабы внедрения ИИ. Только когда действительно доступные токены заполонят прикладной уровень, мы по-настоящему увидим, как будет выглядеть следующая эра взрыва ИИ.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.