Целую неделю весь интернет гадал о DeepSeek V4, но оказалось, что это разработка Xiaomi.

20 марта, 2026 Дядя Влад

На прошлой неделе на известной платформе агрегации API OpenRouter незаметно появились две анонимные модели под кодовыми названиями «Hunter Alpha» и «Healer Alpha». Без какой-либо рекламы их использование начало расти необычайно быстрыми темпами.

Hunter Alpha несколько дней подряд возглавлял ежедневные чарты, а суммарное использование превысило 1 триллион токенов. Это вызвало дискуссию в сообществе. Наиболее распространенное предположение указывает на DeepSeek, предполагая, что это внутренняя бета-версия DeepSeek V4.

Питер Штайнбергер, основатель OpenClaw, также разместил свой вопрос на платформе X, что еще больше подогрело энтузиазм сообщества в отношении спекуляций.

Компания Xiaomi официально объявила, что Hunter Alpha и Healer Alpha — это ранние внутренние бета-версии большой модели Xiaomi MiMo. Одновременно с этим, Ло Фули, руководитель проекта Xiaomi MiMo, также публично подтвердил их существование на платформе X.

По стечению обстоятельств, Ло Фули — бывший научный сотрудник DeepSeek. Другими словами, она, пришедшая из DeepSeek, создала в Xiaomi модель, из-за которой весь интернет считал, что она разработана DeepSeek.

Главный вывод: Xiaomi выпустила сразу три модели, каждая со своей направленностью, но все они указывают в одном направлении: на развитие ИИ от простого «умения общаться» до «умения выполнять задачи».

MiMo-V2-Pro — это флагманская текстовая платформа, разработанная для высокоинтенсивных рабочих нагрузок агентов, ориентированная на вывод информации, планирование и вызов инструментов.
MiMo-V2-Omni — это мультимодальная агентская платформа, которая изначально интегрирует восприятие текста, изображений и звука, создавая полную связь от понимания до выполнения.
MiMo-V2-TTS — это крупномасштабная модель синтеза речи, которая наделяет агентов способностью к теплой и эмоциональной передаче голоса, являясь заключительным звеном во всей системе.

MiMo-V2-Pro: Большая вместимость, неограниченное количество еды, цена всего в пять раз ниже, чем у конкурентов.

Общее количество параметров для MiMo-V2-Pro превышает 1 Тл, а параметр активации составляет 42 Бл, что примерно в 3 раза больше, чем у предыдущего поколения MiMo-V2-Flash.

Несмотря на значительное увеличение количества параметров, эффективность вывода не снизилась благодаря инновационной гибридной архитектуре внимания.

Соотношение смешивания в архитектуре было дополнительно улучшено с 5:1 в предыдущем поколении до 7:1, а внедрение облегченного слоя MTP (Multi Token Prediction) также ускорило фактическую скорость генерации.

Между тем, MiMo-V2-Pro поддерживает сверхдлинные контекстные окна до 1 млн, что является значительным структурным преимуществом при обработке длительных задач, выполняемых агентами.

В авторитетном мировом рейтинге моделей искусственного интеллекта для крупномасштабного анализа данных MiMo-V2-Pro в настоящее время занимает восьмое место в мире и второе в Китае.

Помимо бенчмарк-тестирования, Xiaomi делает упор на «реальный пользовательский опыт». По показателям Coding Agent, General Agent и Tool Use MiMo-V2-Pro находится на одном уровне с Claude Sonnet 4.6.

В ходе углубленных исследований, проведенных внутренними инженерами Xiaomi, было установлено, что возможности разработки кода MiMo-V2-Pro близки к возможностям Claude Opus 4.6, при этом устройство обладает превосходными возможностями проектирования системы и более элегантным стилем кодирования.

В ходе анонимного бета-тестирования Hunter Alpha наиболее часто используемыми типами приложений были в основном инструменты программирования, что само по себе является наиболее прямым подтверждением возможностей модели на рынке.

В рамках платформы OpenClaw компания MiMo-V2-Pro также продемонстрировала свои возможности в области фронтенд-разработки, позволяющие создавать изысканно оформленные и полностью функциональные веб-страницы за один шаг, сочетая визуальную привлекательность с практичностью использования.

Что касается ценообразования, то цена API MiMo-V2-Pro составляет всего 1/5 от цены конкурирующих продуктов в той же категории. В контексте 256 тыс. токенов входные данные стоят 1 доллар за миллион токенов, а выходные — 3 доллара; в контексте 1 млн токенов входные данные стоят 2 доллара, а выходные — 6 долларов.

Такая ценовая стратегия посылает четкий сигнал: Xiaomi надеется использовать свое ценовое преимущество для быстрого увеличения проникновения MiMo-V2-Pro в экосистему разработчиков.

С этой целью Xiaomi заключила партнерские соглашения с пятью ведущими командами разработчиков фреймворков Agent — OpenClaw, OpenCode, KiloCode, Blackbox и Cline — для предоставления бесплатной поддержки API в течение ограниченной недели. Для получения подробной информации о бесплатной поддержке каждого фреймворка, пожалуйста, обратитесь к официальному сайту MiMo и объявлениям MiMo Open Platform.

В настоящее время MiMo-V2-Pro официально открыл свой API-сервис, и разработчики могут получить к нему доступ и протестировать его по адресу https://platform.xiaomimimo.com. На официальной странице тестирования моделей, https://aistudio.xiaomimimo.com, также запущена функция MiMo Claw, позволяющая разработчикам бесплатно оценить возможности агента MiMo-V2-Pro.

MiMo-V2-Omni: Он умеет видеть, слышать и даже сам может договориться о цене.

Если MiMo-V2-Pro — это мозг, то у MiMo-V2-Omni ещё более амбициозные планы: он пытается наделить этот мозг глазами, ушами и руками.

MiMo-V2-Omni — это первая полнофункциональная модель Xiaomi, которая объединяет восприятие и действие на базовом уровне, глубоко интегрируя текст, изображение и звук из базовой архитектуры.

Одной из наиболее отличительных особенностей MiMo-V2-Omni является функция распознавания звука. Она поддерживает более 10 часов непрерывного воспроизведения звука в течение длительного времени, охватывая сложные сценарии, от классификации окружающего звука до разделения нескольких динамиков, превосходя Gemini 3 Pro по общей производительности.

В плане обработки изображений MiMo-V2-Omni превосходит Claude Opus 4.6 и приближается к уровню лучших моделей с закрытым исходным кодом, таких как Gemini 3 Pro, в междисциплинарном визуальном анализе и анализе сложных графов.

Что касается понимания видео, модель поддерживает совместный ввод аудио и видео, а не обработку аудио и видео по отдельности, что обеспечивает преимущества в плане понимания мультимодальных данных на архитектурном уровне.

В реальных сценариях работы с агентами MiMo-V2-Omni продемонстрировал впечатляющие возможности по выполнению задач от начала до конца.

В сочетании с фреймворком OpenClaw он позволяет управлять браузером как реальный человек: просматривать отзывы на Xiaohongshu, формировать предложения по покупке, переключаться на JD.com для сравнения цен в разных магазинах, связываться со службой поддержки для согласования скидок и оформлять заказ. Он также может обрабатывать переключение между вкладками и обеспечивать взаимодействие в режиме реального времени.

Ещё один более наглядный пример: пользователям достаточно сказать: «Создайте вступительное видео, добавьте несколько современных звуковых эффектов и опубликуйте его в TikTok», и модель сможет выполнить весь процесс, включая автоматическое исправление ошибок шрифтов при рендеринге и, наконец, подтверждение того, что видео прошло проверку и успешно запущено.

В задаче поиска текстовых агентов MiMo-V2-Omni также продемонстрировал высокий уровень конкурентоспособности, показав в бенчмарке OpenClaw PinchBench результаты, сопоставимые с результатами Gemini 3 Pro.

В ходе анонимного бета-тестирования Healer Alpha модель показала наивысший средний балл на PinchBench, а положительные отзывы пользователей сообщества и результаты бенчмарка стали редким подтверждением этому.

Что касается офисных сценариев, MiMo-V2-Omni сотрудничает с Kingsoft Office и интегрирован с WPS Lingxi, поддерживая прямую генерацию высококачественных документов Word, структурированных файлов Excel, форматированных PDF-файлов и полных презентаций PowerPoint. Модуль Claw в MiMo Studio также полностью интегрирован с экосистемой Kingsoft WebOffice, обеспечивая поддержку четырех основных форматов: Word, Excel, PPT и PDF, охватывая более 95% повседневных типов документов.

Адрес для пробной версии WPS Lingxi: lingxi.wps.cn

MiMo-V2-Omni открыл свой API, поддерживающий контекст длиной 256 КБ, с ценой за вход в 0,4 доллара за миллион токенов и ценой за выход в 2 доллара. Интеграция также возможна по адресу https://platform.xiaomimimo.com.

MiMo-V2-TTS: Он умеет зевать, напиваться и петь.

Идеальный агент должен не только думать и действовать, но и говорить. MiMo-V2-TTS разработан для того, чтобы восполнить этот пробел.

MiMo-V2-TTS основан на разработанном компанией Xiaomi аудиотокенизаторе и архитектуре совместного моделирования речи и текста с использованием нескольких кодовых книг, а также прошел масштабное предварительное обучение с использованием сотен миллионов часов речевых данных.

Огромный объем данных, «сотни миллионов часов», означает, что модель может охватывать чрезвычайно богатое разнообразие стилей речи, акцентов и сценариев, что составляет основу ее способности к обобщению.

На этапе постобучения в многомерном обучении с подкреплением модель непрерывно оптимизируется по нескольким параметрам, таким как естественность просодии, стабильность качества звука, качество клонирования тембра и адаптация тональности сцены.

Благодаря многослойной архитектуре моделирования на основе кодовой книги, на этапе обучения с подкреплением можно напрямую использовать сигналы вознаграждения, связанные с речью, для оптимизации модели, вместо того чтобы полагаться на косвенную обратную связь со стороны текста. Это позволяет многомерным сигналам вознаграждения более эффективно влиять на процесс генерации.

MiMo-V2-TTS поддерживает многоуровневое управление, от общего тона до локальных эмоций внутри предложений, что позволяет изменять тон и эмоциональную окраску в пределах одного предложения, что редко встречается среди аналогичных продуктов.

Модель способна интеллектуально распознавать сигналы форматирования, такие как знаки препинания, междометия и знаки ударения, и автоматически преобразовывать их в естественные речевые выражения, не требуя от пользователя ручной разметки.

Поддержка диалектов включает северо-восточный мандаринский диалект, сычуаньский диалект, хэнаньский диалект, кантонский диалект и тайваньский акцент, а также обладает возможностями воспроизведения ролевого стиля и высококачественного синтеза голоса, позволяя одной и той же модели говорить, играть и петь.

В официальном заявлении указывается, что в будущем MiMo-V2-TTS будет глубоко интегрирован с MiMo-V2-Omni, что позволит Agent не только видеть и понимать мир, но и рассказывать историю мира выразительным голосом.

Искусственный интеллект — это та самая связующая нить, которая объединяет всю экосистему людей, автомобилей и домов.

Одновременный выпуск трех моделей, как по времени, так и по сочетанию продуктов, не был случайностью. В своем заявлении Ло Фули признал, что переход от парадигмы чата к парадигме агента произошел настолько быстро, что «даже нам самим трудно в это поверить».

Однако команда Xiaomi MiMo на самом деле всё спланировала заранее. Ло Фули рассказал, что базовая модель 1T начала обучение несколько месяцев назад, с первоначальной целью повышения эффективности вывода длинного контекста. Гибридная архитектура внимания, сверхдлинное контекстное окно 1M и вывод с низкой задержкой MTP — это не архитектурные решения, принятые в угоду трендам, а скорее структурные преимущества, созданные ещё до того, как они понадобились.

Переориентация команды на работу с агентами произошла в переломный момент. Когда Ло Фули впервые столкнулась со сложной структурой работы с агентами, это произвело на нее глубокое впечатление, и она немедленно отдала команде твердое указание: любой член команды MiMo, у которого на следующий день будет менее 100 разговоров, может уйти в отставку.

За этим несколько экстремальным требованием скрывается её твёрдая убеждённость в парадигме Агента. В результате воображение команды получило полную свободу действий, и скорость исследований резко возросла.

Такие темпы исследований и разработок в сочетании с существующей экосистемой Xiaomi делают значение этого запуска выходящим за рамки простого конкурса моделей.

Компания Xiaomi Group уже давно продвигает стратегию «Интегрированная экосистема «Человек-Транспорт-Дом»», используя Surge OS для полного подключения смартфонов, автомобилей (серия SU7) и устройств умного дома. Эта экосистема уже физически взаимосвязана, но ранее ей не хватало по-настоящему интеллектуального центра, способного понимать намерения разных устройств, автономно планировать и выполнять задачи.

В настоящее время MiMo-V2-Pro отвечает за вывод информации и планирование, MiMo-V2-Omni — за многомодальное восприятие и выполнение, а MiMo-V2-TTS — за обработку речи. Вместе они образуют полный набор возможностей искусственного интеллекта, который управляет всей экосистемой.

В большую модель MiMo интегрирован miclaw (ИИ-агент Xiaomi для мобильных телефонов), обладающий возможностями выполнения на системном уровне и глубокой интеграцией с «экосистемой человек, транспортное средство и дом», что представляет собой первую конкретную реализацию этого стека возможностей. Последующая интеграция WPS Lingxi и Xiaomi Browser также иллюстрирует тот же момент: MiMo — это не просто диалоговый продукт, а фундаментальный функциональный слой, встраиваемый в различные сценарии применения.

На протяжении многих лет крупные технологические компании описывают концепцию «искусственный интеллект объединит всё», и Xiaomi, благодаря своим агентным моделям и глубокому пониманию стратегий экосистемы, явно готова воплотить это в жизнь.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.