Только что Яо Шуньюй дебютировал в Tencent! Он переработал модель Hunyuan за три месяца; каковы её реальные результаты?

На этой неделе новости с крупного китайского рынка мобильных телефонов были просто захватывающими. Только что вышел самый мощный флагман Alibaba, Qwen 3.6 Max, а сразу за ним последовала «темная сторона Луны», Kimi 2.6, и еще один смартфон, DeepSeek V4, готовится к запуску.
Только что состоялась официальная презентация предварительной версии Hy3 от Hunyuan. Это модель, разработанная Яо Шунью, главным научным сотрудником Tencent в области искусственного интеллекта.
Яо Шуньюй заявил, что предварительная версия Hy3 — это первый шаг в реконструкции крупномасштабной модели со смешанными элементами. Он надеется, что благодаря этому релизу с открытым исходным кодом будет постоянно улучшаться практичность официальной версии Hy3 и общая производительность модели в реальных условиях, а также начнут раскрываться возможности уникальных моделей. 
Яо Шуньюй присоединился к Tencent в конце прошлого года в качестве главного научного сотрудника по искусственному интеллекту, отвечающего за инфраструктуру ИИ и большие языковые модели. Обучение моделей началось в конце января, и процесс от обучения до развертывания был завершен за три месяца.
Это масштабное обновление гибридной модели не только систематически перестроило базовую инфраструктуру в короткие сроки, но и полностью переработало базовую структуру, включая предварительное обучение и обучение с подкреплением.
В результате получилась языковая модель MoE (Hybrid Expert), сочетающая в себе быстрое и медленное мышление, с общим числом параметров 295 миллиардов, 21 миллиардом параметров активации и максимальной поддержкой контекстной длины в 256 тысяч.
В отрасли, где часто рекламируются триллионы (1T+) параметров, данные предварительной версии Hy3 кажутся несколько сдержанными. Однако этот параметр явно представляет собой баланс между производительностью и стоимостью, что позволяет лучше использовать модель в различных сценариях.
На уровне 300B полностью активированы возможности сложного математического мышления, понимания длительного контекста и следования инструкциям. Если масштаб принудительно расширить до триллионов параметров, с одной стороны, время обучения удвоится, а с точки зрения фактической производительности, вероятно, возникнут такие проблемы, как задержка связи, узкие места в пропускной способности и удвоение затрат на вывод.
Однако Яо Шуньюй также упомянул, что они продолжают расширять масштабы предварительного обучения и обучения с подкреплением, чтобы повысить верхний предел интеллекта модели.
По сравнению со своим предшественником, производительность в многочисленных реальных производственных и эксплуатационных тестах, а также в бенчмарке CL от Tencent Hunyuan, демонстрирует значительное улучшение.
Таким образом, предварительная версия Hy3 преследует совершенно четкую цель: решение сложных инженерных задач в реальном мире.
Чтобы проверить, может ли предварительная версия Hy3 решать различные задачи в реальных условиях и насколько хорошо работают конкретные модели, компания APPSO также заранее получила право на бета-тестирование и в течение определенного периода времени проводила тестирование в реальных условиях на платформе Yuanbao App и настольной платформе WorkBuddy.
Программирование и агенты: Hunyuan начинает решать реальные инженерные задачи.
Навыки программирования остаются ключевым приоритетом для различных компаний, разрабатывающих крупномасштабные модели. Всего несколько дней назад зарубежные СМИ сообщили, что Google создает новую команду, занимающуюся программированием для ИИ.
Предварительная версия модели Hy3 нового поколения от Tencent также улучшает ее общие возможности, делая ее применимой для программирования и популярных в настоящее время сценариев использования интеллектуальных агентов.
Например, давайте воспользуемся тестовыми примерами программирования, которые мы использовали при выпуске модели GPT 5.4, чтобы оценить производительность предварительной версии Hy3.

▲Подсказка: Создайте гиперреалистичную интерактивную 3D-модель моста Золотые Ворота в Сан-Франциско, позволяющую свободно летать и кружить вокруг него. Окружение должно включать реалистичное освещение, воду, туман, атмосферные эффекты, подвесные мосты, транспортный поток, окружающую береговую линию и городской фон, с кинематографическим масштабом и детализацией. Оно должно позволять плавно перемещаться по сцене благодаря интуитивно понятному управлению полетом и множеству ракурсов (включая крупные планы конструкций и широкоугольные виды). Основные требования — реализм, погружение и визуальная достоверность. Во время тестирования обязательно облетайте мост с разных расстояний и углов, чтобы проверить плавность и стабильность навигации, и убедитесь, что сцена выглядит убедительно независимо от расстояния. Вы можете использовать навыки работы с ImageGen для создания исходных ресурсов, необходимых для моделирования. Визуальные эффекты не должны выглядеть «блочными» или «дешевыми»; они должны обладать высокой точностью, исключительной плавностью и качеством, близким к фотографическому. На поверхности моста должны присутствовать реалистичные транспортные средства. Не спешите; даже час работы допустим, если это необходимо. Постоянно совершенствуйтесь, пока не добьетесь идеального результата.
Хотя конечный результат не был полностью реалистичным, в основном из-за ограничений используемых инструментов, в целом игровой процесс был очень плавным и комфортным. Мы могли использовать клавиши WASD для управления полетом от первого лица, а предварительная версия Hy3 также автоматически генерировала некоторые ракурсы по умолчанию.
Когда его просят написать несколько простых игр, например, мини-игру об управлении парком развлечений, используя подсказки из того же GPT-5.4.

▲Ключевые слова: Создайте интерактивную изометрическую игру-симулятор тематического парка, которую можно создавать и в которой можно перемещаться в браузере. Используйте ImageGen для определения общего визуального стиля и генерации полного набора игровых ресурсов, включая аттракционы, дорожки, ландшафт, деревья, водные объекты, киоски с едой, декорации, здания, значки и иллюстрации пользовательского интерфейса. Игровой мир должен обладать высокой степенью единства, сложности и богатым визуальным оформлением; художественный стиль должен быть высококачественным и совместимым с изометрической перспективой. Обеспечьте плавную прокладку и удаление дорожек, добавление аттракционов, расположение ландшафтов и перемещение по парку, одновременно отслеживая активность посетителей, состояние объектов и развитие парка. Система должна включать надежный алгоритм перемещения посетителей и простую систему управления парком (например, финансы, чистота, очереди и удовлетворенность). Убедитесь, что общее впечатление от игры увлекательное, логически понятное и полное, а не является грубым прототипом. Приоритет отдавайте удовольствию, читаемости и отличному игровому процессу, а не реализму. При тестировании игрового процесса обязательно стройте и расширяйте парк в течение нескольких раундов игры. Проверьте плавность размещения объектов и навигации, подтвердите реакцию посетителей на планировку парка и аттракционы, а также убедитесь в стабильности и согласованности визуальных эффектов, пользовательского интерфейса и интерактивного опыта.
В нём по-прежнему неизбежно используется цветовая схема «градиентный фиолетовый». Можно лишь сказать, что с точки зрения эстетики интерфейса, помимо улучшения навыков программирования, всё ещё необходима некоторая дополнительная доработка.
К счастью, в игру можно играть. Мы можем реально управлять этим парком развлечений, получать доход и контролировать поток людей, прокладывая дороги, устанавливая новые аттракционы и объекты инфраструктуры.
Классический тест «пеликан на велосипеде» был заменен более сложным: жираф за рулем автомобиля. Созданные SVG-визуализации динамичны: солнце, облака и автомобиль движутся одновременно — чего можно добиться с помощью простых SVG-элементов.

Все эти тесты на навыки программирования были пройдены в WorkBuddy, интеллектуальном приложении-агенте, запущенном компанией Tencent некоторое время назад.

Помимо задач разработки кода, WorkBuddy можно использовать и для повседневной офисной работы, такой как обработка документов, анализ и визуализация данных, а также для проведения углубленных исследований.
Поскольку WorkBuddy, как и Claude Code и Codex, является продуктом для локального агента, мы можем разрешить ему прямой доступ к файлам в локальных папках.
Необходимо получить доступ ко всем файлам в папке Hy3 на компьютере и, на основе содержимого файлов, создать веб-страницу, подобную вики, которая сможет напрямую индексировать различные файлы.

WorkBuddy проанализировал различные проекты, которые мы создали, такие как целевая страница, которую нас попросили разработать, 3D-модель моста Золотые Ворота, личный блог и проект по управлению игрой, и классифицировал и обобщил их.
Просить программу преобразовать PDF-файл с Гонконгского международного кинофестиваля в HTML и воспроизвести эффект изысканного журнала в масштабе 1:1 — это, очевидно, слишком много. Тем не менее, Hy3 Preview всё же смогла точно найти информацию в этом необычном PDF-файле и организовать её в виде веб-страницы.

Для проведения углубленного исследования мы попросили его написать отчет об анализе рынка памяти. Предоставленный им документ был подробным, и все использованные им данные были получены из авторитетных источников.

При продолжении тестирования задач анализа и визуализации данных в WorkBuddy, программе Hy3 preview потребовалось провести визуализационный анализ изменений глобальной структуры населения на основе данных Отдела народонаселения Организации Объединенных Наций. На исследование Hy3 preview было потрачено очень много времени, и итоговый отчет можно использовать напрямую.

▲Скриншоты некоторых диаграмм
Возможности программирования и интеллектуальных агентов можно максимально раскрыть в сочетании с WorkBuddy. В приложении Yuanbao теперь также можно создавать небольшие веб-игры, которые можно предварительно просмотреть и открыть в диалоговом окне.
Нелегко сделать так, чтобы непринужденная беседа казалась «настоящей».
Некоторое время назад в интернете распространилось короткое видео. На видео пассажир наблюдал, как водитель на переднем сиденье общается с ИИ-помощником на своем телефоне. Он рассказывал ИИ о своем ежедневном доходе, и ИИ давал ему обратную связь.
Один из пользователей сети отметил, что раньше такие консультации психолога стоили 200 юаней в час, а теперь их можно провести всего лишь с помощью текстового сообщения.

Независимо от того, насколько успешной окажется модель в разработке кода, решении математических задач и научных исследованиях, большинство людей используют ИИ в основном в различных ролевых играх.
Мы также протестировали производительность предварительной версии модели Hy3 нового поколения от Tencent в повседневном чате и при написании текстов.
Вместо того чтобы говорить мне прямо и без обиняков, я нашла слова, которые действительно отвечали моим потребностям. Откройте приложение Yuanbao, нажмите «Глубокое/Быстрое мышление», выберите предварительную модель Hy3 и спросите: «Почему я не могу найти любовь в Гуанчжоу?»
Его ответ одновременно объективен и субъективен, он анализирует причины, отличные от моих собственных, и указывает мне, что я должен делать.
При обсуждении некоторых сложных вопросов, имеющих очевидные причины, предварительная версия Hy3 автоматически сгенерирует соответствующие таблицы, чтобы объяснить, что ИИ не подчиняется слепо.
В задачах по развитию творческого письма предварительная версия модели Hy3 демонстрирует лучшие результаты, чем ее предшественница, с точки зрения литературного изящества и персонализированного стиля. Даже в простом повседневном письме человеческий фактор более очевиден.
Мы протестировали это на нескольких базовых задачах, таких как имитация стиля, продолжение ритма повествования, языковая креативность и эмоциональное напряжение.
Полученные тексты, с точки зрения уникальности, точности исполнения и стабильности стиля, действительно больше соответствуют характеристикам человеческого письма, без очевидных клише искусственного интеллекта.
Предварительная версия Hy3 также дала ответ на классический вопрос о том, идти ли пешком или ехать на машине до автомойки.

Пока все остальные работали над одним и тем же тестом, Хуньюань начал создавать свой собственный.
В последние два года в китайской индустрии ИИ царит коллективная тревога: все делают одно и то же. Одна и та же архитектура, одна и та же парадигма обучения, одни и те же рейтинги, одни и те же шаблоны пресс-релизов. Слайды презентаций при запуске моделей можно использовать взаимозаменяемо, достаточно лишь сменить логотип, а фразы вроде «мировой лидер» и «лучший» используются слишком часто.
Компания Tencent когда-то тоже входила в эту группу. Они последовали их примеру в рейтингах, увеличили технические характеристики и внедрили новые функции. В результате, несмотря на значительные инвестиции Hunyuan в технологии, её присутствие на рынке оставалось неясным. Если бы вы спросили пользователей: «В чём разница между Hunyuan и другими?», они, скорее всего, не смогли бы ответить.
Значимость анонса Hy3, возможно, заключается именно в том, что Tencent наконец-то перестала гоняться за местами в чартах. Это также самое значительное изменение, которое Яо Шуньюй привнес в Hunyuan.

В предыдущем отчете LatePost цитировалась оценка Яо Шунью, сделанная на внутреннем совещании Tencent: модель чрезмерно ориентировалась на ранжирование, включая в обучающий набор данные, связанные с ранжированием, тем самым загрязняя данные. Модель хорошо справлялась с ответами на вопросы, но становилась нестабильной в реальных условиях.
Рейтинги измеряют верхний предел возможностей, в то время как пользователи воспринимают нижний предел. Преимущество в MMLU на два процентных пункта практически незаметно для пользователей в реальных условиях использования; наоборот, незначительное ухудшение соответствия командам, нестабильное форматирование и высокий уровень иллюзий приведут к резкому снижению качества пользовательского опыта.
Таким образом, в предварительном обзоре Hy3 видно, что Hunyuan начала менять эту логику: вместо того, чтобы гнаться за рейтингами, они гонятся за сценариями.

▲В прошлогоднем отчете отмечалось, что результаты ИИ в различных сравнительных тестах резко выросли, а сами тесты перенасыщены. Эти результаты часто не отражают реального влияния ИИ на окружающий мир.
Количество параметров в 295 миллиардов указывает на то, что компания не намерена напрямую конкурировать по размеру моделей. Отсутствие в публичных рейтингах говорит о том, что она не планирует продолжать ожесточенную конкуренцию в манипулировании оценками. Модель разработки Co-design демонстрирует, что компания смещает акцент с «того, что делают другие» на «то, что нужно моим пользователям».
Это подводит нас к основным бизнес-сценариям Tencent: социальные сети, игры, реклама и корпоративные услуги, каждый из которых имеет свои узкоспециализированные характеристики. В WeChat поток общения фрагментирован и насыщен; игры требуют от моделей мгновенной реакции на ситуации в реальном времени; а WeChat Work и Tencent Meeting требуют точного анализа на основе личных документов.
▲ Предварительная версия Hy3 запущена на платформах Tencent Cloud, Yuanbao, IMA, CodeBuddy, WorkBuddy, QQ, QQ Browser, Tencent Docs, Tencent Enjoy и др., и будет запущена на нескольких основных продуктах, таких как официальные аккаунты WeChat, Peacekeeper Elite, Tencent News, Tencent Stock Selection, Tencent Customer Service и WeChat Reading.
Требования к моделям в этих сценариях не полностью соответствуют метрикам, оцениваемым в рамках общих тестов интеллекта. Модель, занимающая место в тройке лидеров по показателю MMLU, но не способная понимать контекст в групповых чатах WeChat, для Tencent бессмысленна.
Иными словами, Tencent, вероятно, наименее склонна из крупных китайских компаний гнаться за общими рейтингами. Ее возможности уникальны, сложны и коммерчески ценны настолько, что она может полностью проложить свой собственный путь.
Совместное проектирование — отправная точка этого пути. Модель работает в реальных бизнес-сценариях, а бизнес использует реальные данные для обратной связи с моделью. Огромные инвестиции Tencent в ИИ могут быть быстро подтверждены в реальных условиях, одновременно обеспечивая коммерческий замкнутый цикл. Как только этот маховик заработает, создаваемые им барьеры окажутся гораздо более надежными, чем любой рейтинг в таблице лидеров.
Когда все сравнивают, чья модель более «универсальна», настоящим победителем может оказаться та, чья модель «наиболее полезна» в конкретном сценарии.

Конечно, между «нахождением ритма» и «победой в игре» всё ещё существует значительная разница.
Предварительная версия Hy3 — это первая модель после реструктуризации Hunyuan. Трехмесячный цикл разработки демонстрирует высокую эффективность, но также указывает на значительный потенциал для оптимизации. Показатель успешности слепых обзоров в 55–56% свидетельствует о пригодности устройства для использования, но до создания существенного конкурентного преимущества еще далеко. Более крупные модели находятся в разработке, а официальная версия все еще дорабатывается на основе отзывов пользователей, полученных на этапе предварительного просмотра.
Но, по крайней мере, кое-что изменилось: Хуньюань перестала гнаться за чужими картами. Она начала рисовать свои собственные карты и прокладывать свои собственные пути.
В современной конкурентной среде крупномасштабных моделей гомогенизация представляет собой наибольший риск. Когда все используют одну и ту же линейку для измерения своего роста, некоторые начинают создавать свои собственные линейки, измеряя только те параметры, которые им действительно необходимы.
Этот факт сам по себе заслуживает большего внимания, чем любой параметр ранжирования.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.




