Китайская компания, занимающаяся разработкой искусственного интеллекта, наконец-то преодолела проблему размещения огромной модели с 60 миллиардами параметров в мобильном телефоне.

26 мая, 2026 Дядя Влад

Для крупной модели с 8 миллиардами параметров обычно требуется около 16 ГБ видеопамяти. Чем больше параметров, тем больше видеопамяти потребляется, поэтому цены на память растут с каждым днем.

Теперь существует метод , позволяющий сэкономить в 6 раз больше видеопамяти без ущерба для производительности модели.

В последние два года вокруг этого, казалось бы, экстремального подхода развернулась глобальная технологическая гонка. И на этом пути впервые появилось решение, полностью основанное на вычислительных мощностях собственной разработки.

Модель была сжата до менее чем 3 байт, при этом сохранилось 97% её возможностей, а то и больше. В сочетании с архитектурой MoE в будущем станет возможным запуск большой модели с 60 миллиардами параметров непосредственно на мобильном телефоне с 8 ГБ оперативной памяти.

Звучит невероятно, как им это удалось?

Можно ли использовать три значения для запуска большой модели?

Традиционные большие модели используют очень точное числовое хранение данных, то есть каждый вес может принимать десятки тысяч различных значений. Это очень точно, но и требует больших объемов памяти. Тройное квантование — это крайняя обратная операция: оно напрямую уменьшает количество возможных значений с десятков тысяч до трех. Технически это называется 1,58-битным кодированием, поскольку для кодирования трех значений требуется ровно 1,58 бита.

Насколько экстремально это сжатие? Для аналогии: если веса традиционной большой модели подобны цветной фотографии, то тройное квантование — это сжатие её в минималистичный графический формат, содержащий только чёрный, белый и серый цвета.

Интуитивно может показаться, что это приведет к значительным потерям. Однако исследования последних двух лет неоднократно демонстрировали наличие большого количества избыточной информации в весовых коэффициентах модели. Трех значений, при правильном распределении, достаточно для обработки подавляющего большинства возможностей модели.

Это не новая концепция. В 2024 году Microsoft Research выпустила BitNet b1.58, которая стала первой систематической демонстрацией того, что большая тройная модель может приблизиться по производительности к модели с полной точностью. Затем в прошлом году Microsoft выпустила BitNet b1.58 2B4T, тройную модель с открытым исходным кодом, обученную с использованием 2 миллиардов параметров и 4 триллионов токенов. В прошлом месяце американская компания PrismML выпустила серию Ternary Bonsai, заявив, что это одна из первых коммерчески доступных 1,58-битных моделей.

▲

Вверху: архитектура Llama FP16; внизу: архитектура BitNet, разработанная исследовательским подразделением Microsoft.

Академическое сообщество также следует этому примеру: компания Tequila предложила новый метод решения проблемы «мертвой ловушки» в тройном квантовании, а TernaryLM разработала собственную модель тройного квантования с нуля.

Формируется глобальная гоночная трасса. Но один важнейший вопрос остается без ответа:

Можно ли успешно обучить тройную большую модель на вычислительных мощностях отечественного производства?

Впервые на Ascend

На этот раз ответ дал Mianbi AI на конференции разработчиков Huawei Kunpeng Ascend (KADC 2026).

BitCPM-CANN — это серия трехмерных крупномасштабных моделей, выпущенных компанией Wallfacer в сотрудничестве с Университетом Цинхуа и сообществом открытого исходного кода OpenBMB. Ее значение выходит за рамки простого «выпуска еще одной трехмерной модели». В глобальном масштабе BitCPM-CANN достигла трех целей, которых раньше никто не достиг.

Впервые на платформе Huawei Ascend было завершено сквозное обучение большой тройной модели. Ранее все общедоступные модели для обучения тройных моделей обучались на графических процессорах NVIDIA. Это первый случай, когда китайская индустрия микросхем обладает собственными возможностями для обучения тройных моделей.

Впервые масштаб был увеличен до 8 миллиардов бит за один раз. Ранее обучение с низким битовым уровнем на Ascend ограничивалось проверкой в небольших масштабах. BitCPM-CANN сразу выпустил четыре уровня: 0,5 миллиарда, 1 миллиард, 3 миллиарда и 8 миллиардов, охватывающие все сценарии работы на периферии сети, от мобильных телефонов до ПК.

Впервые была проведена полная сравнительная оценка с использованием модели с полной точностью. 11 заданий и четыре категории оценки (общие знания, понимание прочитанного, предметные знания и математическое мышление) показали уровень усвоения материала от 95,7% до 97,2% на уровнях навыков от 1B до 8B.

Что означает показатель сохранения работоспособности в 97,2%? В таких популярных бенчмарках, как ARC, CMMLU и GSM8K, разница в производительности между тройной моделью BitCPM-CANN и полноточной моделью MiniCPM4 одинакового размера сейчас меньше, чем разница между многими полноточными моделями. Среди них уровень 3B имеет самый высокий показатель сохранения работоспособности, достигающий 97,2%.

Более того, это не просто цифры в статье; это результаты, которые действительно можно использовать "сразу же после установки". Все версии BitCPM-CANN являются открытым исходным кодом, и все четыре размера, от 0,5 до 8 байт, можно загрузить и воспроизвести напрямую.

Для разработчиков, знакомых с серией MiniCPM, BitCPM-CANN — это трехзначная версия семейства MiniCPM, а также целая экосистема. В рамках того же сообщества GitHub предшественники семейства накопили 30 000 звезд, а общее количество загрузок Hugging Face превысило 30 миллионов, и теперь появляется новое направление.

Благодаря шестикратному увеличению объема видеопамяти, выгоду получают все — от серверов до мобильных телефонов.

По сравнению с полноточной моделью BF16, BitCPM-CANN экономит примерно в 6 раз больше видеопамяти. Эта цифра наиболее заметна для разработчиков: 8-битная полноточная модель требует около 16 ГБ видеопамяти, в то время как троичная версия BitCPM-CANN требует менее 3 ГБ, что позволяет ей бесперебойно работать на мобильном телефоне. С учетом ограничений MoE и диапазона активации, ожидается, что 60-битная модель сможет поместиться в терминальные устройства.

Аппаратная часть также готова. Новейшие флагманские чипы Qualcomm, 8850 и 8397, поддерживают 2-битное нативное вычисление, а BitCPM-CANN обеспечивает низкие битовые веса, которые можно напрямую подавать на вход.

Производители микросхем ждут поставок, а производители моделей ждут микросхем. Теперь, когда обе стороны заняты, разве это не "взаимная гонка"?

Производители смартфонов ускоряют инвестиции в разработку масштабных решений для устройств. На конференции Google I/O на прошлой неделе Gemini Intelligence взяла под контроль все устройства Android, от телефонов и часов до автомобильных систем; Apple также представит крупное обновление следующего поколения Apple Intelligence на WWDC в июне.

Одновременные усилия двух основных мобильных операционных систем указывают на общую реальность: для запуска все более мощных приложений искусственного интеллекта на мобильных устройствах узким местом является память. Тот, кто сможет запускать более мощные модели с меньшим объемом памяти, получит преимущество в следующем раунде соревнований.

Фактически, если учесть трудности роста, которые в настоящее время переживает вся индустрия ИИ, ее стоимость вырастет еще больше: в апреле Goldman Sachs повысил свой прогноз роста цен на DRAM на весь год до 280%, а Bank of America оценил, что мировой рынок HBM достигнет 54,6 миллиарда долларов.

Наиболее дефицитным ресурсом в инфраструктуре ИИ является память. Шестикратное увеличение памяти графического процессора означает, что возможности моделей можно значительно расширить без увеличения физической памяти. Учитывая постоянный рост цен на память, это не просто оптимизация, а необходимость.

Тройное квантование — это не компромисс, когда «точность приносится в жертву памяти». Сохранение 97% функциональности указывает на то, что значительная часть точности в традиционных 16-битных моделях может быть избыточной. Трех значений достаточно для хранения большей части информации в большой модели. Низкая битовая глубина — это уже не инженерная мера экономии, а новый способ хранения взвешенной информации.

Почему именно интеллект, обращенный к стене? И почему именно сейчас?

По мере того, как ИИ перемещается из облака на периферию, модели для периферийных устройств становятся ключевой функцией персональных интеллектуальных устройств. Смартфоны, компьютеры, автомобильные системы — каждое устройство, взаимодействующее с пользователем, ждет модель, достаточно компактную, мощную и экономичную с точки зрения использования памяти. Ключ к успеху в этой гонке будет заключаться не в командах, которые только создают большие модели, а в тех, кто сможет создавать модели маленькими, легкими и действительно функциональными.

Почему именно Wallfacer AI находится в авангарде крупномасштабных моделей обработки данных на периферии сети? Ответ на этот вопрос кроется не в самой BitCPM-CANN, а в том, что компания делает последние несколько лет, и это кажется несколько «нетрадиционным».

С самого начала Wallfacer AI ориентировалась на эффективность. В то время как большинство команд в Китае стремились к созданию более крупных моделей, они потратили много времени на разработку базовой обучающей платформы BM-Train для решения проблемы «как обучить достаточно хорошую модель с меньшими ресурсами» . Эта инфраструктура стала отправной точкой для всего последующего.

Оценка компанией Wallfacer направления развития 1,58-битной архитектуры предшествовала отраслевому консенсусу. В то время как многие команды всё ещё сомневались в целесообразности использования чрезвычайно малой битовой глубины, Wallfacer выбрала этот путь, сначала успешно внедрив полный процесс обучения и методологию на графических процессорах, а затем перенеся всю систему на платформу Ascend . По сути, BitCPM-CANN не просто перенесла модель на чип отечественного производства; скорее, она интегрировала проверенную методологию обучения, эффективный подход и инженерную систему в основу отечественных вычислительных мощностей.

На уровне моделей серия моделей границ MiniCPM от Wallface набрала более 30 000 звезд на GitHub, а Hugging Face была загружена более 30 миллионов раз, что делает ее самым популярным китайским семейством моделей с открытым исходным кодом в области больших моделей границ.

BitCPM-CANN — это расширение семейства MiniCPM на тройное квантование, гораздо больше, чем просто демонстрационная «модель для PowerPoint»; это действительно многоразовая инженерная основа. Конвейер обучения, лежащий в его основе, интегрирован в инфраструктуру для низкобитного обучения Ascend , что позволяет любой команде, желающей проводить низкобитное обучение на Ascend, начать работу на той же платформе.

Стоит отметить, что BitCPM-CANN также успешно завершила сквозное тройное обучение на Huawei Ascend, достигнув эффективности обучения в 95% по сравнению с традиционным базовым методом. Это доказывает, что данная методология не зависит от конкретной аппаратной платформы и может быть успешно реализована с использованием отечественных вычислительных мощностей.

Вместо того чтобы ждать, пока оборудование станет достаточно мощным, чтобы адаптироваться к модели, нам нужно сделать модель достаточно интеллектуальной, чтобы она могла адаптироваться к оборудованию.

Начиная с Huawei Ascend для обучения и заканчивая терминальными чипами для вывода результатов, а затем и моделями с открытым исходным кодом и скриптами обучения, это полностью отечественный замкнутый цикл: отечественная платформа, отечественные чипы, отечественные модели и независимая методология. Следующий шаг Wallfacer очевиден: дальнейшее повышение коэффициента сохранения возможностей модели, расширение возможностей крупномасштабных моделей с использованием архитектуры MoE и полное использование преимущества 6-кратного увеличения памяти GPU при развертывании. Долгосрочная цель — охватить весь процесс от предварительного обучения до выравнивания с малой битовой глубиной.

Начиная с базовой обучающей платформы BM-Train и заканчивая семейством моделей для периферийных вычислений MiniCPM, а затем BitCPM-CANN, компания Wallfacer AI за несколько лет создала полноценную технологическую систему для работы с большими моделями на периферии сети. На глобальном уровне, конкурируя с Microsoft и PrismML, Wallfacer AI продемонстрировала уникальные преимущества, разработав полную дорожную карту развития технологий для периферийных вычислений, от платформы и методологии до адаптации моделей к чипам.

Когда конкуренция в сфере ИИ сместится от вопроса «у кого более крупная модель» к вопросу «кто сможет обеспечить работу интеллекта на каждом устройстве», те, кто контролирует дискуссию о периферийных технологиях, окажутся в наиболее выгодном положении.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете быстро найти еще больше интересного контента.