Почему крупнейший разовый раунд финансирования в китайской индустрии видео с использованием ИИ достался компании Aishi Technology?

Как стало известно APPSO, компания iSpeed Technology недавно завершила раунд финансирования серии C на сумму 300 миллионов долларов, установив новый рекорд по величине единовременного финансирования в отечественном секторе генерации видео с использованием искусственного интеллекта.
Ведущий инвестор, CDH Hong Kong Fund, наряду с CDH VGC и CDH Baifu, вложил значительные средства; за ним последовали такие крупные инвестиционные компании, как China Ruyi и 37 Interactive Entertainment; также приняли участие государственные фонды, страховые фонды, семейные офисы, а также UOB Venture Management и Lion X Fund. Список инвесторов охватывает два полушария, и капитал из разных секторов, по сути, сближается в одном направлении.
В нынешней индустрии ИИ раунд финансирования в размере 300 миллионов долларов может показаться не удивительным, и это лишь малая часть инвестиций в OpenAI. Однако эту цифру следует рассматривать в контексте сектора видеотехнологий на основе ИИ: компании Runway, основанной в 2018 году, потребовалось семь лет, чтобы завершить свой раунд финансирования серии E в размере 315 миллионов долларов в прошлом месяце. Между тем, Aishi Technology прошла путь от посевного раунда до аналогичного крупного раунда серии C менее чем за три года.
В раунде финансирования серии А инвестиции возглавила Shenzhen Capital Group, при участии Ant Group. В раунде серии B инвестиции возглавила Alibaba, вложив более 60 миллионов долларов, что на тот момент стало крупнейшей единовременной инвестицией в отечественный сектор создания видеоконтента. В раунде серии C компания привлекла 300 миллионов долларов, вновь побив собственный рекорд.
В каждом раунде на рынок впервые выходят новые ведущие инвестиционные институты, и объем инвестиций в каждом раунде удваивается. Темпы ускоряются, а ставки становятся все выше и выше .
На самом деле, сигнал, отражаемый этим финансированием, гораздо шире, чем сами цифры: видео с использованием ИИ перестало играть вспомогательную роль в масштабных повествованиях; капитал начал рассматривать его как самостоятельный проект, в который стоит вкладывать значительные средства .
Ван Чанху, основатель компании iSpeech Technology, еще в 2024 году заявил, что потенциал видеоконтента определенно недооценен. Компания iSpeech Technology менее чем за три года превратила это несогласие в консенсус среди инвесторов.
Отправная точка отсутствия консенсуса: 2023 год, почему видео?
«Я не знаю, как начать бизнес, но это нормально. Начать бизнес – значит учиться в процессе». В апреле 2023 года, когда Ван Чанху, основатель компании Aishi Technology, решил открыть собственное дело, он ушёл из дома, держа в уме эту фразу.
В апреле 2023 года Ван Чанху, основатель компании iSpeech Technology, принял решение, которое на тот момент казалось довольно «нетрадиционным»: пока все гнались за большими языковыми моделями, он хотел сделать ставку на генерацию видео.
Следует помнить, что Sora от OpenAI официально дебютировала лишь годом позже, поэтому можно представить, насколько нелогичным был выбор Ван Чанху в то время.
Проработав восемь лет в Microsoft Research Asia и четыре года директором лаборатории искусственного интеллекта ByteDance, Ван Чанху понимает темпы развития видеоискусственного интеллекта лучше многих. «В начале 2023 года многие не были согласны с созданием видеороликов; все рассматривали большие языковые модели», — вспоминал он позже. «Но это создало отсутствие консенсуса: мы считали, что генерация видео — это очень важная задача, и у нас был опыт работы с видео и ИИ, который позволит нам добиться успеха на глобальном уровне».
В то время это решение принималось под значительным давлением. По сравнению с языковыми моделями, генерация видео потребляет больше вычислительной мощности, сложнее контролируется с точки зрения качества и имеет более неопределенный путь внедрения в производство. Ранним инвесторам нужно было верить не в то, что они видят сейчас, а в еще разрабатываемый план на три года вперед.
В марте 2024 года Shenzhen Capital Group возглавила раунд финансирования серии A1, завершив свою первую инвестицию. В следующем месяце Ant Group последовала ее примеру, инвестировав более 100 миллионов юаней, что стало крупнейшей единовременной институциональной инвестицией в отечественном секторе видеотехнологий с использованием ИИ на тот момент. Таким образом, Aishi Technology фактически завершила свою трансформацию от «технологически ориентированного» подхода к «капиталоориентированному».
Ван Чанху с самого начала своего предпринимательского пути четко сформулировал свое видение: « Помочь каждому стать хозяином своей жизни ». Зарубежный продукт PixVerse и отечественный продукт Paiwo AI являются воплощением этого видения — первый был запущен в январе 2024 года, а второй — в июне 2025 года. Оба продукта работают независимо друг от друга и предназначены для разных рынков.

Архитектура DiT: выбор, который никого не обнадёживал.
Чтобы понять суть этого раунда финансирования серии C на сумму 300 миллионов долларов, необходимо сначала разобраться в технологической стратегии Aishike.
Если вы ознакомитесь с технической стратегией развития iSpeed Technology с самого начала, вы обнаружите, что выбор архитектуры DiT (диффузионный трансформатор) является истоком всей истории и предпосылкой для многих результатов.
В 2023 году основные решения для генерации видео в Китае в целом использовали архитектуру U-Net. Это было вполне приемлемо; U-Net прошла обширную практическую проверку в области генерации изображений на протяжении многих лет, доказав свою стабильность и зрелость. Опыт настройки параметров был достаточно развит, что позволяло получать быстрые и эффективные результаты. Для большинства команд, которые хотели сначала запустить продукт в работу, это был очевидный выбор.
Компания Aishi Technology выбрала архитектуру DiT, став первым стартапом в Китае, использующим эту архитектуру для генерации видео .
DiT — это комбинированная архитектура, сочетающая в себе принципы диффузии и трансформера. Основное преимущество трансформера заключается в его механизме внимания, который позволяет модели «воспринимать» информацию в любой точке последовательности во время обработки данных, в отличие от сверточных сетей, которые обрабатывают только локальные области.
Для генерации видео эта возможность имеет решающее значение: видео по сути представляет собой последовательность кадров на временной шкале, причем каждый кадр имеет сложные пространственно-временные зависимости от предыдущего и последующего кадров . Движения персонажей должны быть плавными, траектории объектов должны соответствовать физическим законам, а изменения освещения должны оставаться неизменными между кадрами — эти требования обусловливают необходимость модели, способной улавливать «дальнодействующие пространственно-временные взаимосвязи между кадрами», и именно в этом Transformer преуспевает.

Однако в 2023 году этот выбор обернется значительными затратами: DiT потребует больше вычислительной мощности и объема данных на ранних этапах обучения и почти неизбежно столкнется с болезненным периодом «худшей производительности по сравнению со зрелой U-Net» на начальной стадии. Для стартапа это существенный риск, и деньги могут быть потрачены впустую, прежде чем результаты улучшатся.
Это предположение оказалось верным. Когда Sora была выпущена в 2024 году, публично заявленная техническая дорожная карта OpenAI действительно включала DiT. В области генерации видео архитектура DiT действительно была путем, приближающим к правильному решению.
К моменту выхода Sora компания AiShi уже накопила более чем годичный опыт обучения, отработала рабочие процессы обработки данных и разработала решения по оптимизации инженерных решений на основе архитектуры DiT. Этот временной разрыв имеет решающее значение в быстро развивающейся области искусственного интеллекта.
Сосредоточение внимания как на модельных продуктах, так и на разработке новых продуктов — это недооцененная ключевая логика.
В области видеотехнологий с использованием ИИ большинство компаний отдают приоритет обучению своих моделей, прежде чем рассматривать разработку продукта. Это кажется безопасным подходом; как только модель достигает зрелости, риск внедрения в производство значительно снижается.
Однако у этого подхода есть фатальный недостаток: к моменту «обучения» модели вы уже упускаете важнейший момент обратной связи. Какие именно эффекты действительно нужны пользователям? В каких сценариях эти потребности наиболее сильны? По каким параметрам следует отдавать приоритет оптимизации модели? На эти вопросы можно дать истинные ответы только тогда, когда продукт запущен и пользователи им пользуются.
С самого начала компания Aishi объединила обучение моделей и итерацию продукта в один цикл.
Когда веб-версия PixVerse была запущена в январе 2024 года, модель была далека от «идеальной», но продукт уже позволял пользователям создавать видеоролики и оставлять отзывы. Каждое обновление модели основывалось непосредственно на данных об использовании в реальных условиях предыдущей версии, включая информацию о том, какие подсказки имели низкий процент успеха, какие эффекты были наиболее популярны и какие сценарии были подвержены ошибкам. Эти сигналы в режиме реального времени поступали в процесс обучения, определяя направление следующего этапа оптимизации модели.
Что еще более важно, эта совместная эволюция модели и продукта со временем создаст накопительный эффект: чем больше пользователей, тем интенсивнее обратная связь, тем точнее оптимизация модели, тем лучше пользовательский опыт и тем больше пользователей привлекается — это позитивный маховик, а не односторонний технологический прогресс.
«В этом и заключается преимущество стартапов — они менее сложны, поэтому более эффективны», — сказал Се Сючжан, соучредитель Aishi. Это утверждение звучит сдержанно, но оно отражает высокую степень интеграции в технологическую дорожную карту, сроки разработки продукта и организационные возможности. Крупные компании могут инвестировать больше вычислительных мощностей и большие команды, но достичь такой глубокой интеграции модели и продукта сложно. Процессы слишком длительны, отделов слишком много, и как только цепочка обратной связи растягивается, преимущество в скорости сводится на нет.
Это преимущество в эффективности в конечном итоге отражается на структуре затрат. В интервью LatePost Се Сючжан рассказал, что AiShi «использует в среднем менее 1000 калорий тренировочных ресурсов в месяц, а стоимость составляет всего около 10% от стоимости аналогичных продуктов».
Это структурное преимущество в плане затрат, а не краткосрочная экономия, достигнутая за счет сокращения бюджета. По словам Се Сючжана, это всестороннее преимущество в архитектуре модели, алгоритмах, проектировании и возможностях продукта .
Когда оптимизация модели всегда соответствует реальным потребностям, это снижает потери вычислительной мощности из-за неправильных направлений; обратная связь от продукта обеспечивает рекомендации по стратегиям обучения в режиме реального времени, что приводит к более высокой окупаемости инвестиций на каждой итерации.
С момента официального запуска веб-версии PixVerse в январе 2024 года до выпуска версии 5.6 в начале 2026 года, PixVerse постоянно обновлялся до восьми основных версий, при этом крупное обновление модели происходило в среднем каждые два месяца.
За высокой плотностью итераций скрывается методология совместного обучения модели и продукта:
- V2 (июль 2024 г.): Запущена функция генерации многосегментных видеороликов и кистей для частичной перерисовки, что позволяет пользователям перейти от простого «генерирования сегмента» к «редактированию и созданию».
- V3 (октябрь 2024 г.): Был запущен режим спецэффектов, а вероятность выпадения предметов в гача-системе была увеличена с случайной до практически гарантированной. Это стало настоящим поворотным моментом для PixVerse, превратившейся из инструмента для создания контента в продукт массового рынка.
- V3.5 (декабрь 2024 г.): Время генерации сокращено до 10 секунд, что значительно уменьшает время ожидания пользователя;
- V4 (начало 2025 г.): Появляется возможность генерации контента практически в реальном времени, позволяющая создавать 5-секундные видеоролики за 5-7 секунд;
- V4.5 (май 2025 г.): Количество параметров и обучающих наборов данных экспоненциально увеличивается, а число пользователей по всему миру достигает 60 миллионов;
- В июне 2025 года компания PixVerse запустила отечественную версию игры "Paiwo AI" с одновременным запуском онлайн- и мобильных приложений.
- V5 (август 2025 г.): Запущен помощник по созданию агентов, пользователям больше не нужно изучать синтаксис Prompt, разговорные интенты автоматически преобразуются в инструкции модели, и одновременно открывается экосистема API;
- V5.5 (декабрь 2025 г.): Создание «раскадровки + аудио» одним щелчком мыши, что обеспечивает первое в Китае синхронное взаимодействие визуальных и звуковых элементов и формирует полноценную систему повествования;
- V5.6 (26 января 2026 г.): Модальная модель большого размера, поддерживающая создание раскадровки и синхронизацию аудиовизуальных данных.
В последнем рейтинге моделей генерации видео, опубликованном авторитетным агентством по оценке искусственного интеллекта Artificial Analysis, PixVerse V5.6 занимает второе место в мире, продолжая лидировать среди лучших моделей генерации видео в мире.


Такая плотность итераций довольно редка в индустрии видео с использованием ИИ. Стратегия AiShi отличается от многих аналогичных продуктов: она постоянно движется вперед, и каждая версия решает реальные проблемы, с которыми сталкиваются реальные пользователи в данный момент, оставляя при этом место для следующего скачка в архитектуре .
Возможность реализации этого обусловлена именно масштабируемостью архитектуры DiT. Каждое обновление модели не требует демонтажа базового слоя и начала работы с нуля, а скорее расширения и углубления существующего фундамента.
300 миллионов долларов, ставка не только на видео с использованием ИИ.
Однако в итоге CDH решила возглавить этот раунд финансирования серии C, сделав ставку не только на рейтинг V5 в таблице лидеров, но и на PixVerse R1, который был выпущен в январе 2026 года.
R1 можно считать наиболее радикальной технологической итерацией продукта, разработанной компанией iScience Technology на сегодняшний день.

Раньше, независимо от того, насколько совершенным было создание видео, это по сути сводилось к «преобразованию инструкций в видеофайл», одноразовому процессу рендеринга в автономном режиме. Пользователь вводил инструкции, ждал завершения генерации и получал готовый видеофайл. Это как проявка пленки: после съемки все готово, нужно ждать проявки, чтобы посмотреть, а после просмотра внести изменения уже невозможно.
R1 работает по другой логике. Он больше не просто «генерирует видео», а представляет собой «модель мира», способную реагировать на команды взаимодействия с пользователем в реальном времени. Пользователи могут вводить команды во время воспроизведения видео для изменения освещения, замены фона и управления движением персонажей. Задержка отклика системы составляет приблизительно 2 секунды, а на выходе получается видеопоток сверхвысокой четкости 1080p в реальном времени.
В основе этого лежит разработанный компанией AiShi механизм мгновенного отклика (Instant Response Engine, IRE), который сокращает количество вычислительных шагов с десятков до 1-4, обеспечивая значительный переход от «офлайн-рендеринга» к «взаимодействию в реальном времени».
Се Сючжан предсказывает, что в будущем границы между видео и играми будут все больше размываться. Как только видео станет интерактивным, появятся совершенно новые возможности для контента, пользователей и творчества.
В интервью Се Сючжан рассказал, что после выхода R1 большинство клиентов B-end пришли из игровой индустрии. «Разработка игр больше не будет проходить через долгий цикл разработки, как это было раньше. Будь то геймплей, графика или сюжет, ИИ может сделать его проще и креативнее. Что еще важнее, он может помочь творческим людям, которые не разбираются в программировании, воплотить свои идеи в реальные игры».
Потенциальная ценность R1 выходит далеко за рамки простого «улучшенного инструмента для создания видео». Если PixVerse V5 борется за первое место среди инструментов для создания видео, то R1 определяет совершенно другую категорию — операционную систему для интерактивного контента в реальном времени. Ее конкурентами являются уже не Runway или Corinne, а Unity, Unreal Engine и даже еще не появившиеся модели потребления контента .

Если взглянуть на структуру инвесторов в рамках раунда финансирования серии C компании Aishike Technology, то это само по себе является сигналом.
Совместные инвестиции трех фондов из CDH Investments отражают систематическую оценку того, что компания вступила в стадию масштабирования. Привлечение промышленных инвестиционных компаний China Ruyi (кино- и телеконтент) и 37 Interactive Entertainment (игры) указывает на то, что R1 стремится реструктурировать две отрасли: производство интерактивных фильмов и телепрограмм и разработку игр с использованием искусственного интеллекта.
В 2026 году вся индустрия видео с использованием искусственного интеллекта стремительно вступает во вторую фазу своего развития. Вслед за глобальным успехом Seedance 2.0, компания AiShi Technology стала новым «единорогом».
В настоящее время у PixVerse более 100 миллионов зарегистрированных пользователей по всему миру и более 16 миллионов ежемесячно активных пользователей (MAU). В Китае параллельно работают версии Paiwo AI и PixVerse. Компания Aishi Technology также является единственным китайским приложением для работы с видео с использованием ИИ, выбранным для участия в Глобальном саммите ООН по ИИ во благо в 2025 году, и в том же году официально присоединилась к Глобальной сети университетов ООН по ИИ.

Этот раунд финансирования в размере 300 миллионов долларов можно рассматривать как голос капитала за грядущую эру. Следующее поле битвы для видео с использованием ИИ будет не в количестве параметров или рейтингах, а в том, кто первым сможет превратить видео из «потребительского продукта» в «интерактивный интерфейс».
Однако знать, куда повернет технологический путь, и верить, что этот путь в конечном итоге окажется успешным, — это две разные вещи.
В индустрии ИИ «выбор правильного направления» — не редкость. Редко встречается нечто конкретное и достаточно прочное, чтобы поддержать вас и не дать вам колебаться в период, пока ваше направление не будет признано большинством .
За последние три года компания Aishi Technology не сбилась с этого пути. Трудно сказать, что у нее была всеведущая перспектива, предвидевшая конечную точку. Скорее, с каждым шагом направление следующего шага естественным образом вытекает из технологической реальности предыдущего шага.
Видеоконтент трансформируется из простого просмотра в мир, который можно потрогать. Поэтому эта ставка в 300 миллионов долларов касается не только будущего видео с использованием искусственного интеллекта, но и эры, когда «все может быть интерактивным».
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.
ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo