Целую неделю весь интернет гадал о DeepSeek V4, но оказалось, что это разработка Xiaomi.

На прошлой неделе на известной платформе агрегации API OpenRouter незаметно появились две анонимные модели под кодовыми названиями «Hunter Alpha» и «Healer Alpha». Без какой-либо рекламы их использование начало расти необычайно быстрыми темпами.

Hunter Alpha несколько дней подряд возглавлял ежедневные чарты, а суммарное использование превысило 1 триллион токенов. Это вызвало дискуссию в сообществе. Наиболее распространенное предположение указывает на DeepSeek, предполагая, что это внутренняя бета-версия DeepSeek V4.

Питер Штайнбергер, основатель OpenClaw, также разместил свой вопрос на платформе X, что еще больше подогрело энтузиазм сообщества в отношении спекуляций.
Компания Xiaomi официально объявила, что Hunter Alpha и Healer Alpha — это ранние внутренние бета-версии большой модели Xiaomi MiMo. Одновременно с этим, Ло Фули, руководитель проекта Xiaomi MiMo, также публично подтвердил их существование на платформе X.
По стечению обстоятельств, Ло Фули — бывший научный сотрудник DeepSeek. Другими словами, она, пришедшая из DeepSeek, создала в Xiaomi модель, из-за которой весь интернет считал, что она разработана DeepSeek.

Главный вывод: Xiaomi выпустила сразу три модели, каждая со своей направленностью, но все они указывают в одном направлении: на развитие ИИ от простого «умения общаться» до «умения выполнять задачи».
- MiMo-V2-Pro — это флагманская текстовая платформа, разработанная для высокоинтенсивных рабочих нагрузок агентов, ориентированная на вывод информации, планирование и вызов инструментов.
- MiMo-V2-Omni — это мультимодальная агентская платформа, которая изначально интегрирует восприятие текста, изображений и звука, создавая полную связь от понимания до выполнения.
- MiMo-V2-TTS — это крупномасштабная модель синтеза речи, которая наделяет агентов способностью к теплой и эмоциональной передаче голоса, являясь заключительным звеном во всей системе.
MiMo-V2-Pro: Большая вместимость, неограниченное количество еды, цена всего в пять раз ниже, чем у конкурентов.
Общее количество параметров для MiMo-V2-Pro превышает 1 Тл, а параметр активации составляет 42 Бл, что примерно в 3 раза больше, чем у предыдущего поколения MiMo-V2-Flash.
Несмотря на значительное увеличение количества параметров, эффективность вывода не снизилась благодаря инновационной гибридной архитектуре внимания.
Соотношение смешивания в архитектуре было дополнительно улучшено с 5:1 в предыдущем поколении до 7:1, а внедрение облегченного слоя MTP (Multi Token Prediction) также ускорило фактическую скорость генерации.
Между тем, MiMo-V2-Pro поддерживает сверхдлинные контекстные окна до 1 млн, что является значительным структурным преимуществом при обработке длительных задач, выполняемых агентами.

В авторитетном мировом рейтинге моделей искусственного интеллекта для крупномасштабного анализа данных MiMo-V2-Pro в настоящее время занимает восьмое место в мире и второе в Китае.

Помимо бенчмарк-тестирования, Xiaomi делает упор на «реальный пользовательский опыт». По показателям Coding Agent, General Agent и Tool Use MiMo-V2-Pro находится на одном уровне с Claude Sonnet 4.6.
В ходе углубленных исследований, проведенных внутренними инженерами Xiaomi, было установлено, что возможности разработки кода MiMo-V2-Pro близки к возможностям Claude Opus 4.6, при этом устройство обладает превосходными возможностями проектирования системы и более элегантным стилем кодирования.
В ходе анонимного бета-тестирования Hunter Alpha наиболее часто используемыми типами приложений были в основном инструменты программирования, что само по себе является наиболее прямым подтверждением возможностей модели на рынке.
В рамках платформы OpenClaw компания MiMo-V2-Pro также продемонстрировала свои возможности в области фронтенд-разработки, позволяющие создавать изысканно оформленные и полностью функциональные веб-страницы за один шаг, сочетая визуальную привлекательность с практичностью использования.
Что касается ценообразования, то цена API MiMo-V2-Pro составляет всего 1/5 от цены конкурирующих продуктов в той же категории. В контексте 256 тыс. токенов входные данные стоят 1 доллар за миллион токенов, а выходные — 3 доллара; в контексте 1 млн токенов входные данные стоят 2 доллара, а выходные — 6 долларов.
Такая ценовая стратегия посылает четкий сигнал: Xiaomi надеется использовать свое ценовое преимущество для быстрого увеличения проникновения MiMo-V2-Pro в экосистему разработчиков.
С этой целью Xiaomi заключила партнерские соглашения с пятью ведущими командами разработчиков фреймворков Agent — OpenClaw, OpenCode, KiloCode, Blackbox и Cline — для предоставления бесплатной поддержки API в течение ограниченной недели. Для получения подробной информации о бесплатной поддержке каждого фреймворка, пожалуйста, обратитесь к официальному сайту MiMo и объявлениям MiMo Open Platform.
В настоящее время MiMo-V2-Pro официально открыл свой API-сервис, и разработчики могут получить к нему доступ и протестировать его по адресу https://platform.xiaomimimo.com. На официальной странице тестирования моделей, https://aistudio.xiaomimimo.com, также запущена функция MiMo Claw, позволяющая разработчикам бесплатно оценить возможности агента MiMo-V2-Pro.
MiMo-V2-Omni: Он умеет видеть, слышать и даже сам может договориться о цене.
Если MiMo-V2-Pro — это мозг, то у MiMo-V2-Omni ещё более амбициозные планы: он пытается наделить этот мозг глазами, ушами и руками.
MiMo-V2-Omni — это первая полнофункциональная модель Xiaomi, которая объединяет восприятие и действие на базовом уровне, глубоко интегрируя текст, изображение и звук из базовой архитектуры.
Одной из наиболее отличительных особенностей MiMo-V2-Omni является функция распознавания звука. Она поддерживает более 10 часов непрерывного воспроизведения звука в течение длительного времени, охватывая сложные сценарии, от классификации окружающего звука до разделения нескольких динамиков, превосходя Gemini 3 Pro по общей производительности.
В плане обработки изображений MiMo-V2-Omni превосходит Claude Opus 4.6 и приближается к уровню лучших моделей с закрытым исходным кодом, таких как Gemini 3 Pro, в междисциплинарном визуальном анализе и анализе сложных графов.

Что касается понимания видео, модель поддерживает совместный ввод аудио и видео, а не обработку аудио и видео по отдельности, что обеспечивает преимущества в плане понимания мультимодальных данных на архитектурном уровне.
В реальных сценариях работы с агентами MiMo-V2-Omni продемонстрировал впечатляющие возможности по выполнению задач от начала до конца.
В сочетании с фреймворком OpenClaw он позволяет управлять браузером как реальный человек: просматривать отзывы на Xiaohongshu, формировать предложения по покупке, переключаться на JD.com для сравнения цен в разных магазинах, связываться со службой поддержки для согласования скидок и оформлять заказ. Он также может обрабатывать переключение между вкладками и обеспечивать взаимодействие в режиме реального времени.
Ещё один более наглядный пример: пользователям достаточно сказать: «Создайте вступительное видео, добавьте несколько современных звуковых эффектов и опубликуйте его в TikTok», и модель сможет выполнить весь процесс, включая автоматическое исправление ошибок шрифтов при рендеринге и, наконец, подтверждение того, что видео прошло проверку и успешно запущено.
В задаче поиска текстовых агентов MiMo-V2-Omni также продемонстрировал высокий уровень конкурентоспособности, показав в бенчмарке OpenClaw PinchBench результаты, сопоставимые с результатами Gemini 3 Pro.

В ходе анонимного бета-тестирования Healer Alpha модель показала наивысший средний балл на PinchBench, а положительные отзывы пользователей сообщества и результаты бенчмарка стали редким подтверждением этому.
Что касается офисных сценариев, MiMo-V2-Omni сотрудничает с Kingsoft Office и интегрирован с WPS Lingxi, поддерживая прямую генерацию высококачественных документов Word, структурированных файлов Excel, форматированных PDF-файлов и полных презентаций PowerPoint. Модуль Claw в MiMo Studio также полностью интегрирован с экосистемой Kingsoft WebOffice, обеспечивая поддержку четырех основных форматов: Word, Excel, PPT и PDF, охватывая более 95% повседневных типов документов.
Адрес для пробной версии WPS Lingxi: lingxi.wps.cn
MiMo-V2-Omni открыл свой API, поддерживающий контекст длиной 256 КБ, с ценой за вход в 0,4 доллара за миллион токенов и ценой за выход в 2 доллара. Интеграция также возможна по адресу https://platform.xiaomimimo.com.
MiMo-V2-TTS: Он умеет зевать, напиваться и петь.
Идеальный агент должен не только думать и действовать, но и говорить. MiMo-V2-TTS разработан для того, чтобы восполнить этот пробел.
MiMo-V2-TTS основан на разработанном компанией Xiaomi аудиотокенизаторе и архитектуре совместного моделирования речи и текста с использованием нескольких кодовых книг, а также прошел масштабное предварительное обучение с использованием сотен миллионов часов речевых данных.
Огромный объем данных, «сотни миллионов часов», означает, что модель может охватывать чрезвычайно богатое разнообразие стилей речи, акцентов и сценариев, что составляет основу ее способности к обобщению.
На этапе постобучения в многомерном обучении с подкреплением модель непрерывно оптимизируется по нескольким параметрам, таким как естественность просодии, стабильность качества звука, качество клонирования тембра и адаптация тональности сцены.
Благодаря многослойной архитектуре моделирования на основе кодовой книги, на этапе обучения с подкреплением можно напрямую использовать сигналы вознаграждения, связанные с речью, для оптимизации модели, вместо того чтобы полагаться на косвенную обратную связь со стороны текста. Это позволяет многомерным сигналам вознаграждения более эффективно влиять на процесс генерации.
MiMo-V2-TTS поддерживает многоуровневое управление, от общего тона до локальных эмоций внутри предложений, что позволяет изменять тон и эмоциональную окраску в пределах одного предложения, что редко встречается среди аналогичных продуктов.
Модель способна интеллектуально распознавать сигналы форматирования, такие как знаки препинания, междометия и знаки ударения, и автоматически преобразовывать их в естественные речевые выражения, не требуя от пользователя ручной разметки.
Поддержка диалектов включает северо-восточный мандаринский диалект, сычуаньский диалект, хэнаньский диалект, кантонский диалект и тайваньский акцент, а также обладает возможностями воспроизведения ролевого стиля и высококачественного синтеза голоса, позволяя одной и той же модели говорить, играть и петь.
В официальном заявлении указывается, что в будущем MiMo-V2-TTS будет глубоко интегрирован с MiMo-V2-Omni, что позволит Agent не только видеть и понимать мир, но и рассказывать историю мира выразительным голосом.
Искусственный интеллект — это та самая связующая нить, которая объединяет всю экосистему людей, автомобилей и домов.
Одновременный выпуск трех моделей, как по времени, так и по сочетанию продуктов, не был случайностью. В своем заявлении Ло Фули признал, что переход от парадигмы чата к парадигме агента произошел настолько быстро, что «даже нам самим трудно в это поверить».
Однако команда Xiaomi MiMo на самом деле всё спланировала заранее. Ло Фули рассказал, что базовая модель 1T начала обучение несколько месяцев назад, с первоначальной целью повышения эффективности вывода длинного контекста. Гибридная архитектура внимания, сверхдлинное контекстное окно 1M и вывод с низкой задержкой MTP — это не архитектурные решения, принятые в угоду трендам, а скорее структурные преимущества, созданные ещё до того, как они понадобились.
Переориентация команды на работу с агентами произошла в переломный момент. Когда Ло Фули впервые столкнулась со сложной структурой работы с агентами, это произвело на нее глубокое впечатление, и она немедленно отдала команде твердое указание: любой член команды MiMo, у которого на следующий день будет менее 100 разговоров, может уйти в отставку.
За этим несколько экстремальным требованием скрывается её твёрдая убеждённость в парадигме Агента. В результате воображение команды получило полную свободу действий, и скорость исследований резко возросла.
Такие темпы исследований и разработок в сочетании с существующей экосистемой Xiaomi делают значение этого запуска выходящим за рамки простого конкурса моделей.

Компания Xiaomi Group уже давно продвигает стратегию «Интегрированная экосистема «Человек-Транспорт-Дом»», используя Surge OS для полного подключения смартфонов, автомобилей (серия SU7) и устройств умного дома. Эта экосистема уже физически взаимосвязана, но ранее ей не хватало по-настоящему интеллектуального центра, способного понимать намерения разных устройств, автономно планировать и выполнять задачи.
В настоящее время MiMo-V2-Pro отвечает за вывод информации и планирование, MiMo-V2-Omni — за многомодальное восприятие и выполнение, а MiMo-V2-TTS — за обработку речи. Вместе они образуют полный набор возможностей искусственного интеллекта, который управляет всей экосистемой.
В большую модель MiMo интегрирован miclaw (ИИ-агент Xiaomi для мобильных телефонов), обладающий возможностями выполнения на системном уровне и глубокой интеграцией с «экосистемой человек, транспортное средство и дом», что представляет собой первую конкретную реализацию этого стека возможностей. Последующая интеграция WPS Lingxi и Xiaomi Browser также иллюстрирует тот же момент: MiMo — это не просто диалоговый продукт, а фундаментальный функциональный слой, встраиваемый в различные сценарии применения.
На протяжении многих лет крупные технологические компании описывают концепцию «искусственный интеллект объединит всё», и Xiaomi, благодаря своим агентным моделям и глубокому пониманию стратегий экосистемы, явно готова воплотить это в жизнь.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.
