Интервью с президентом vivo Ху Байшанем: Искусственный интеллект уже очень умный; vivo хочет, чтобы он по-настоящему понимал мир.

OpenClaw стал горячей темой во время Весеннего фестиваля в этом году. Однако менее чем через два месяца его популярность снова поутихла — очередной ажиотаж вокруг приложений искусственного интеллекта.
Ажиотаж утих, и никто не знает, кто станет следующим OpenClaw и какие проблемы эти технологии на самом деле решают.
Камера флагманского мобильного телефона запечатлела лицо в ночной сцене, детали настолько четкие, что можно увидеть слезы, наворачивающиеся на глаза. Но телефон, вероятно, не знает, плакал ли человек, и поэтому не может понять эмоциональный контекст этого шедевра. Затем, используя телеобъектив, чтобы приблизить прохожего на сотни метров, детали становятся просто восхитительными. Но если спросить телефон: этот человек спешит или что-то ищет? Телефон все равно не знает.
Современные агенты умеют писать код, манипулировать веб-страницами и организовывать PDF-файлы в протоколы совещаний. Они делают все это довольно хорошо. Но у этих задач есть одна общая черта: все они связаны с информацией, уже отформатированной людьми. Файлы, базы данных и веб-страницы — все это часть цифрового мира. Как только они сталкиваются с физическим миром — дверью, жестом, выражением лица — они становятся слепыми.
Между современными крупномасштабными моделями и так называемым «воплощенным интеллектом», способным по-настоящему понимать физический мир, существует разрыв, и никто не может с уверенностью сказать, как его преодолеть.
Именно этой пропасти Ху Байшань посвятил больше всего времени на Боаоском форуме для Азии.
Ху Байшань — президент и главный операционный директор компании vivo. На Боаоском форуме для Азии он заявил iFanr, что придерживается очень прямолинейного подхода: «Прежде чем появится понятная физическая модель, для обеспечения хорошего пользовательского опыта нам необходимо преобразовать информацию из физического мира в цифровой».
Он считает, что это не только можно сделать с помощью мобильного телефона, но и нужно делать с помощью мобильного телефона. Даже в следующем десятилетии другим устройствам будет сложно его заменить.

Ум имеет значение; здесь нет никаких преград.
В последние два года почти все производители мобильных телефонов говорят об «ИИ-телефонах». Масштабная интеграция моделей, обновления интеллектуальных помощников и улучшенная вычислительная мощность устройств становятся все более распространенными и происходят с заметной скоростью.
В прошлом году на сцену вышла DeepSeek, а в этом году OpenClaw вызвал бурные дискуссии, и все бросились внедрять новейшие возможности моделирования в свои собственные продукты.
Эта гонка вооружений неизбежно приводит к одному результату: высокой степени коммерциализации, гомогенизации и взаимозаменяемости крупномасштабных моделей.
Всё дело в умении создавать модели; здесь нет никаких препятствий.
Вы запустили масштабную модель и функциональность управляющего агента на три месяца раньше конкурентов; они догнали вас через шесть месяцев, используя более мощную модель и агента. Какова ценность этого временного преимущества, затраченных денег и усилий, дополнительных трудовых ресурсов и ущерба здоровью сотрудников?
Следовательно, истинную дифференциацию можно обнаружить только в другом месте.
Ответ vivo — «восприятие».

Восприятие — это новое направление в технологиях, которое компания vivo только что открыла.
Китайские и зарубежные интернет-компании и производители мобильных телефонов ускоряют свой выход на рынок «телефонов с искусственным интеллектом». Ранее считалось, что возможности моделирования станут конкурентным преимуществом для производителей мобильных телефонов.
По словам Ху Байшаня, это не так. «По сравнению с моделью, накопленные данные по сценариям наиболее дифференцированы». Затем он добавил: «Конечно, нам еще предстоит это сделать. Если мы собираемся это сделать, мы должны найти то, что нам подходит. Мы можем делать это постепенно или позже, это тоже нормально».
На вопрос: «Если вы не оптимистично настроены в отношении больших языковых моделей, будет ли vivo фокусироваться на моделях мира?», его ответ был более консервативным, но прямым: «Модели мира тоже очень большие. Мы найдем технологический путь, который нам подходит. Сначала мы сосредоточимся на совершенствовании модели для мобильных телефонов, а затем и более мелких моделей».
Сегодня гиганты в сфере ИИ и интернет-технологий ведут ожесточенную борьбу за таланты: лучшие исследователи востребованы как звезды НБА, а трансферные сборы постоянно бьют рекорды. Однако Ху Байшань считает, что vivo не следует подливать масла в огонь. В интервью iFanr он заявил, что никогда не поздно сначала уточнить стратегию, определить направление и выбрать технологическую платформу, прежде чем предпринимать какие-либо шаги.
В то время, когда все конкурируют за возможности моделирования и резервы специалистов по искусственному интеллекту, генеральный директор прямо изложил СМИ сильные и слабые стороны vivo, а также план действий компании. Эта откровенность впечатляет: в чем же именно заключается цель осторожного и взвешенного подхода vivo?

Ху Байшань ответил, что vivo никогда не уклоняется от конкуренции. По сравнению с моделями и вычислительной мощностью, в будущем наибольшее отличие будет заключаться в сценарных данных.
Данные о сцене накапливаются постепенно в процессе использования; их невозможно получить массово или с помощью каких-либо упрощений — это особенно верно для данных изображений. Для формирования субъективных оценок, сформированных за десять лет работы с оптическим оборудованием и отработанных на реальных условиях, не существует упрощенных подходов.
Накопленный опыт и суждения составляют основу следующей ставки vivo: «восприятие». Это то, что другие (будь то конкуренты или интернет-компании/компании, занимающиеся искусственным интеллектом) могут накопить сами, только если захотят.
Это возвращает нас к той пропасти, которую мы только что обсуждали. Данные для обучения больших моделей — это информация из интернета, которая уже оцифрована. Однако большая часть ценной информации в реальном мире еще не оцифрована. Данные, которые невозможно или сложно преобразовать, или преобразование которых чрезвычайно дорого, стали препятствием для интеграции ИИ в реальный мир.
Свет, пространство, лица, движения и эмоции — все это существует в физическом мире и должно быть воспринято и преобразовано, прежде чем оно сможет стать входными данными для обработки моделью. Тот, кто лучше справляется с восприятием, контролирует дверь, через которую большие модели попадают в реальный мир.
Теперь никто не знает, что находится за этой дверью, и никто не знает, кто окажется там в конце.
Ставка на «восприятие»
Компания Vivo понимает, что восприятие — это нечто большее, чем просто «лучшая камера».
Ху Байшань сказал, что камера — это записывающее устройство; она ждёт, когда вы нажмёте на кнопку спуска затвора. Но восприятие — это совсем другое дело: непрерывное наблюдение и понимание происходящего, а также преобразование этой информации в данные, которые устройство может использовать напрямую. Круглосуточно, без вашего участия.
Переход от «записи» к «восприятию» предполагает перестройку архитектуры системы.
Ху Байшань дал этому проекту название: «Интегрированное восприятие». В буквальном смысле это означает, что воспринимаемая информация и система принятия решений оборудования должны быть связаны в режиме реального времени. Пока это невозможно.
Сложность заключается в том, что необработанные данные о восприятии сцены, такие как видео, изображение или звук, полученные с помощью микрофона, имеют огромный объем, хаотичный формат и содержат в основном шум. Преобразование этих необработанных сигналов в структурированную информацию, которую мобильный телефон действительно может «понять», требует специализированного конвейера обработки.
«Самая сложная часть — это понять, как преобразовать данные о местности в формат, понятный мобильным телефонам. В этой области мало ресурсов с открытым исходным кодом, поэтому нам нужно искать решения самостоятельно», — сказал он.
Именно поэтому компания vivo внутри компании рассматривает технологию восприятия как одно из основных направлений развития.
«Уровень 1» означает, что восприятие больше не является подразделением в рамках отдела визуализации; он включает в себя различные типы сенсорного восприятия, в том числе зрение, слух, обоняние и осязание, а также направления восприятия.
Однако исследования и разработки vivo в области восприятия все еще находятся на ранней стадии. Ху Байшань привел в качестве аналогии Институт коммуникационных исследований vivo: команда из примерно 200 человек, которая непрерывно инвестирует в развитие сетей с 4G, через 5G, и сейчас работает над 6G уже более десяти лет.
Он ожидает, что на этапе формирования восприятия будет аналогичный ритм: небольшие команды будут работать вместе, чтобы сначала сформировать понимание. Как только понимание станет ясным, они начнут ускоряться; а по мере созревания экосистемы программного и аппаратного обеспечения они ускорятся еще больше. «Это похоже на постепенное ускорение, спиральный подъем. Мы отказываемся ускоряться и тормозить хаотично».
Ху Байшань не хочет, чтобы vivo принимала поспешные решения или тратила деньги впустую на перцептивные вычисления или что-либо еще. Он считает, что у перцептивных технологий очень большой потенциал, но сегодня никто не может четко определить правильный путь технологического развития. «Мы готовы инвестировать непрерывно в течение пяти- или десятилетнего цикла. Но наше понимание этого вопроса должно быть постепенным. Без достаточного понимания бесконтрольное вложение денег приведет лишь к незавершенным проектам».
Восприятие траектории — это суждение, но для того, чтобы суждение было реализовано, необходимо быстро накопить необходимую информацию.
Козырем vivo является десятилетний опыт в области визуализации. В частности, накопленный за последнее десятилетие опыт состоит из двух частей.
Первый уровень — это аппаратная часть. Сотрудничество с Zeiss достигло глубокой стадии совместных исследований и разработок. Размер сенсора основной камеры в X300 Ultra увеличен до 1/1,12 дюйма. Сотрудничество с Sony движется в направлении повышения эффективности преобразования полупроводниковых сигналов. Была упомянута «лавинная эффект» в сенсорных технологиях — новое технологическое направление, которое может увеличить коэффициент преобразования света фоточувствительного элемента с 90% до 110% или даже выше.
Что касается аппаратной части, оценка Ху Байшаня в значительной степени совпадает с мнением отраслевых экспертов и СМИ: размер сенсора достиг стадии снижения предельной отдачи, и больший потенциал заключается в эффективности преобразования и внешнем форм-факторе. Для X300 Ultra компания vivo уже выпустила телеконвертеры с фиксированным фокусным расстоянием 200 мм и 400 мм, и их выпуск находится в разработке.

Второй слой состоит из алгоритмов и когнитивных процессов.
Компания vivo представила свой большой телеобъектив три года назад, и вся индустрия последовала её примеру два года спустя. Но догнать конкурентов в разработке оборудования легко; настоящая проблема заключается в том, чтобы решить, «зачем это делать именно сейчас». Мотивация vivo выбрать именно это время обусловлена многолетним опытом лидерства в области фототехники — здесь нет коротких путей, которые можно было бы скопировать или воспроизвести.
«Алгоритмы тесно связаны с когнитивными процессами — когнитивные процессы знают, в каком направлении двигаться, а алгоритмы этому следуют. Это органичное сочетание спроса и технологий, которое конкурентам трудно быстро превзойти».
Эта логика применима и к периферийному ИИ. На смартфоне X300 Ultra компания vivo впервые предложила концепцию «многоагентной архитектуры», а именно:
Вы поднимаете телефон, чтобы сделать снимок, и агент определяет, что вы фотографируете, какое фокусное расстояние использовать и условия освещения — процесс, который раньше требовал от пользователя выполнения вручную. Тем временем другой агент организует ваш фотоальбом, рекомендуя или автоматически добавляя фильтры на основе ваших прошлых привычек редактирования фотографий, или может автоматически смонтировать несколько клипов в короткое видео, которое можно сразу же опубликовать.
Это не единый «супер-агент», как мобильные помощники Gemini или Doubao, а специализированный агент для каждой конкретной ситуации, который может совместно использовать ресурсы и выполнять свои задачи.
Рассуждения Ху Байшаня весьма практичны: существующая вычислительная мощность оборудования не позволяет создать крупного агента, способного управлять всем, и развитие мобильного ИИ необходимо продвигать в сочетании с преодолением верхнего предела возможностей оборудования.
Эти усилия основаны на постоянных инвестициях vivo в разработку решений на основе искусственного интеллекта для периферийных устройств. По данным iFanr, в настоящее время vivo является производителем мобильных телефонов, который тратит больше всего средств на приобретение вычислительных мощностей — не только облачных вычислительных мощностей, но и, в будущем, на встраивание специализированных вычислительных чипов во флагманские телефоны.
Подход vivo заключается в том, чтобы сначала усовершенствовать агенты, не требующие реагирования в реальном времени, при этом в настоящее время приоритетными являются обработка изображений и фотоальбом; в ближайшие пять-десять лет целью станет глобальное восприятие с постоянной связью и интеграцией всех органов чувств – это конечное направление развития.
Всё полагайтесь на время.
В каком направлении будет развиваться компания vivo в ближайшие десять лет?
Ху Байшань представил приблизительный план развития: мобильные телефоны сейчас являются основным продуктом для пользователей и останутся таковым как минимум в течение следующих 10 лет; на внедрение смешанной реальности потребуется от трех до четырех лет; а на робототехнику — более пяти лет.
Эти три направления не являются независимыми ставками; по своей сути, они представляют собой расширение одного и того же набора возможностей восприятия в различных формах.
В прошлом году компания vivo создала лабораторию робототехники, специализирующуюся на «мозге и глазах». Отвечая на вопрос о текущем прогрессе, Ху Байшань прямо заявил: «К 2025 году у нас будет более четкое понимание наших поэтапных целей, а к 2026 году у нас будет четкий план всего пути».
Но для живых организмов это не проблема.
В эпоху, когда компании выпускают прототипы роботов и соревнуются за звание «нулевого года воплощенного интеллекта», признание того, что они еще не создали физического робота вручную, является редким актом честности. Ху Байшань сказал: «Создание робота вручную — это не то, к чему мы стремимся».
Логика vivo в отношении робототехники та же, что и в отношении инвестиций в разработку систем восприятия: сначала определить целевых пользователей, затем разработать сценарии использования, затем выявить ключевые точки управления технологией, а затем дождаться созревания технологии.
Ху Байшань рассказал iFanr, что vivo пока находится на начальном этапе. Компания ориентируется на молодежь, именно на эту демографическую группу vivo стремится завоевать сердца и умы своих потребителей, начиная с флагманских моделей и заканчивая ориентированными на молодежь линейками продуктов. Первое поколение домашних роботов vivo может даже начать с таких задач, как уход за домашними животными и стирка белья.
Но разве этот сценарий не слишком мал? Ху Байшань считает, что нельзя начинать с создания универсального робота; невозможно довести до совершенства каждый сценарий с самого начала. Если настаивать на этом, в итоге все сценарии потерпят неудачу.
Безусловно, современные роботы-самоучки могут безупречно исполнять заранее записанные танцы, но им не хватает необходимой компетентности в других ситуациях. Особенно в домашних делах, «возьмем, к примеру, разбивание яиц; даже людям сложно добиться 100% успеха, а роботы не смогут этого сделать как минимум в течение десяти лет».
Ху Байшань надеется, что роботы vivo смогут сначала освоить конкретную задачу на уровне 60-70%, а затем обобщать её из поколения в поколение, оптимизировать существующие сценарии и, наконец, приобретать новые возможности.
После того, как питомец накормлен, поступают данные о ситуации. Имея достаточно данных, робот знает, в какое время собака проголодается каждый день, и, следовательно, во сколько встает семья, а значит, и ее распорядок дня. Не обязательно быть идеальным с самого начала, потому что каждый шаг подготавливает к следующему. Ху Байшань называет это «откладыванием яиц по пути».
Эта логика согласуется с логикой ставки на восприятие на мобильных устройствах: сначала нужно хорошо разработать агента обработки изображений, а когда накопится достаточно данных о сцене, возможности восприятия можно будет расширить.
Но какую роль играет мобильный телефон наряду с роботом? «Мобильный телефон — ваш самый знающий персональный цифровой помощник. Ваши привычки, предпочтения и даже то, каких домашних животных вы любите держать, — все это хранится в вашем телефоне», — сказал Ху Байшань. Он добавил, что мобильный телефон может удаленно вмешиваться и компенсировать недостатки, которые робот не мог устранить на ранних этапах.
Как и на заре автономного вождения, люди постоянно вмешивались. Это вмешательство генерировало данные, а данные, в свою очередь, постоянно улучшали систему. «Данные о ситуации, передаваемые между мобильными телефонами и роботами, взаимосвязаны».
Конечно, он не сделал никаких окончательных заявлений. Другие компании также работают в области распознавания образов. К ним относятся Apple и Google, у каждой из которых есть свои собственные вычислительные платформы для распознавания образов. Конкурентное преимущество Vivo в этой области заключается скорее в нише небольших моделей распознавания образов на мобильных устройствах. Это область, на которой крупные компании, помимо Apple, пока не сосредоточились.
В этом году задача Ху Байшаня в лаборатории робототехники — составить дорожную карту: целевые пользователи, основные сценарии, ключевые технологические узлы и ожидаемые сроки «доведения технологии до стадии коммерциализации».
Компания vivo приостановила свой проект по созданию очков с искусственным интеллектом. Он подсчитал издержки: сотни тысяч единиц в год не соответствовали целевому объему; дифференциация не могла быть достигнута в течение двух лет; и существующая технологическая платформа не могла обеспечить оценку комфорта выше 80 (ношение очков весом более 30 г на носу было бы утомительным) – ни одно из трех условий не было выполнено, поэтому отказ от проекта был правильным решением.
«Нет никакой спешки в реализации этого проекта через три года; это не ключевая категория продукции».
Однако это решение все же кажется несколько противоречащим современным тенденциям. Неоспорим тот факт, что очки с искусственным интеллектом станут одной из самых востребованных новых категорий товаров в отрасли к 2025 году. Ray-Ban Meta были быстро распроданы, и один за другим появляются отечественные подражатели.
На ежегодном собрании основатель и генеральный директор Шэнь Вэй заявил, что стратегия vivo в этом году заключается в том, чтобы «делать меньшие ставки, но делать большие». vivo решила приостановить свой проект по созданию очков с искусственным интеллектом, но улучшает состояние системы распознавания образов. Это, по сути, две стороны одной медали с одной и той же логикой и критериями отбора: достаточно ли высок потолок возможностей системы, достаточно ли собственных отличительных особенностей vivo и может ли технологическая платформа поддерживать долгосрочные инвестиции.
Такой подход соответствует недавней тенденции среди гигантов Кремниевой долины, включая OpenAI, отказываться от «побочных проектов» и сосредотачиваться на своих истинных сильных сторонах.
Куда в итоге придет vivo на выбранном пути к 2026 году? Ху Байшань до сих пор не может дать ответа. Технические проблемы интегрированного восприятия остаются нерешенными, внедрение специализированных чипов для аппаратной части затруднено, а план развития робота только начал формироваться в этом году.
Ху Байшань всё это знал и не уклонялся от ответа. Он сказал: «Я понимаю важность ускорения, но если я этого не понимаю, то лучше буду ехать медленнее».
Индустрия мобильных телефонов переживает странный момент: цикл замены телефонов увеличился до сорока месяцев, а годовой объем продаж на китайском рынке упал с пика более чем в 500 миллионов единиц до примерно 250 миллионов единиц, и потолок существующего рынка очевиден; но скачок в возможностях, обеспечиваемый искусственным интеллектом, заставляет всех чувствовать, что где-то скрывается некий постепенный рост.
Ху Байшань считает, что возможность превратить существующий рынок в рынок роста заключается в переходе от смартфонов к агентским телефонам. И, по его мнению, восприятие рынка является наиболее сложным конкурентным преимуществом, которое трудно воспроизвести в этих условиях.
Время покажет.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.