Беседа с вице-президентом по продуктам ОС компании vivo: ИИ не создаст новых требований; будет ли это конный экипаж или паровой двигатель, который доставит нас в далекие края — вопрос формы продукта.

Если первая половина операционных систем для смартфонов заключалась в упаковке функций в кнопки и приложения, то OriginOS 6, дебютировавшая в этом году на конференции разработчиков vivo, в очередной раз подтвердила необратимую тенденцию к интеграции ИИ и ОС.

В дополнение к таким модным терминам PPT, как мультимодальность, способность к рассуждению и обработка длинных текстов, ИИ больше не довольствуется тем, чтобы быть просто «списком функций» систем мобильных телефонов.

vivo предложила создать UI Agent, пытаясь заставить ИИ по-настоящему понимать намерения пользователя и завершить все взаимодействие между приложениями с помощью естественного запроса.

По совпадению, несколько дней назад на OpenAI DevDay обсуждалось то же самое: анонс ChatGPT как «операционной системы». Если коротко, Spotify и Canva автоматически запускаются в диалогах; единая панель управления позволяет взаимодействовать прямо на месте. Диалог становится приложением, а приложение — интерфейсом.

Когда ОС научится понимать людей, а модель — планировать приложения, граница между ИИ и ОС начнёт стираться. Останутся ли они на том же месте или разовьются в совершенно новую экосистему?

После выступления на конференции разработчиков iFanr и СМИ взяли интервью у Чжоу Вэя, вице-президента по продуктам vivo OS и декана Института глобальных исследований ИИ, а также у Гуань Яньбина, генерального менеджера по продуктам vivo AI, и Хуан Цзысюня, директора по продуктам AI OS.

ИИ и операционные системы: тенденции и расхождения

В: В этом году разные производители говорят о «телефонах с ИИ», но концепции различаются: встроенный ИИ, интеллектуальные агенты и операционные системы с ИИ. Что вы думаете о текущем этапе развития отрасли в области телефонов с ИИ?

Чжоу Вэй: На самом деле, ИИ и мобильные телефоны всегда были тремя проблемами, которые необходимо решить.

Во-первых, нам необходимы возможности крупномасштабного моделирования. Более того, у нас есть ещё одно преимущество перед лидерами отрасли: мы должны уметь использовать возможности устройств. Без этого мы ничем не отличаемся от пользователей облачных сервисов в отрасли. Более того, облачные или встроенные возможности должны быть персонализированными. Без этого они остаются лишь универсальными возможностями. Персонализация и индивидуализация ценны, поскольку мы все хотим, чтобы наши телефоны служили нам помощниками и управляли нашим расписанием. Поэтому вы обнаружите, что создание возможностей, связанных с моделями, крайне важно. Это первый уровень, и Vivo проделала значительную работу в этой области.

Во-вторых, что касается интеграции ИИ и мобильных телефонов, с моей точки зрения, как «специалиста в области науки и техники», я фокусируюсь на двух вещах: 1. Расширение возможностей мобильных телефонов с помощью ИИ . В прошлом году мы разработали общие (системные) возможности, такие как «Написать запрос» и «Изображение». Эти возможности необходимы для разработки приложений. 2. Помимо этих возможностей, производители могут внести свой вклад во многие другие области. Пользователи мобильных телефонов используют более 100 модулей, и мы должны сначала разработать эти возможности самостоятельно. Мы организовали их в «группу инфраструктуры связи и управления» (центр уведомлений, центр управления), и у нас есть свой девиз. Однако, когда пользователи используют свои телефоны, производители мобильных телефонов тратят на это лишь 15% своего времени. Остальные 85% приходятся на услуги и возможности, предоставляемые разработчиками. В частности, на ведущие интернет-компании приходится 80–70% этих 85%, поэтому их участие по-прежнему весьма значимо.

Итак, третий вопрос: что нам делать с оставшимися 85% сервисов верхнего уровня? Здесь нам нужно сделать два шага: во-первых, если они готовы работать с нами, мы можем сесть и обсудить решение. Во-вторых, требует ли наступление эпохи ИИ нового уровня статуса и влияния? Ответ на этот вопрос можно пока отложить.

Мы рассматриваем интеграцию ИИ и мобильных телефонов примерно в трёхслойной форме: нижний уровень — это крупномасштабные модели и возможности, средний уровень — создание фундаментальных системных возможностей и базовые возможности . Что касается приложений верхнего уровня, мы, как производители и третьи стороны, делимся на две группы. Те, кто готов участвовать, например, Alibaba, возьмут на себя инициативу, а те, кто не желает участвовать, будут вынуждены действовать по мере необходимости. Именно так мы подходим к решению вопросов, связанных с интеграцией ИИ с мобильными телефонами и агентами.

В: Несколько дней назад компания OpenAI объявила о своих планах по разработке операционной системы. Одним из важных достижений является подход «разговор как приложение», позволяющий нам напрямую получать доступ к функционалу таких приложений, как Figma и Spotify, прямо из ChatGPT. Мы знаем, что мобильные телефоны — это важнейший шлюз в эпоху интернета, и многие задаются вопросом, станут ли они ключевой точкой входа в масштабные диалоги на базе искусственного интеллекта будущего. Vivo, что вы думаете об этой тенденции, как производитель мобильных телефонов?

Хуан Цзысюнь: Как производитель мобильных телефонов, мы, безусловно, отличаемся от таких компаний, как ChatGPT. С одной стороны, у нас есть ИИ-помощники, такие как Blue Heart Xiao V, которые действительно представляют собой диалоговые приложения с соответствующими функциями, и нам нужно продолжать развивать этот аспект.

С другой стороны, когда пользователи используют мобильные телефоны, например, они открывают приложение «Телефон», когда им нужно позвонить, и приложение «Такси», когда им нужно вызвать такси. В связи с этим нет необходимости использовать диалог для решения этой проблемы. Например, структура намерений всей системы может быстрее реагировать на запросы пользователя, связанные с приложением, или даже на запросы стороннего агента. Мы считаем этот подход наиболее подходящим.

Например, сервисы, рекомендуемые в настоящее время через Atomic Island, могут представлять собой интерфейсы или порталы сервисов, но со временем могут стать сторонними агентами. Нужно ли использовать диалог для поддержки этих агентов? Не обязательно, поскольку пользователи в настоящее время активно используют взаимодействие с помощью жестов на основе графического интерфейса в операционных системах. Поэтому с точки зрения ОС ключевым фактором является то, как пользователи могут быстрее и удобнее получать доступ к сервисам в различных сценариях, независимо от того, представляет ли этот сервис прямой интерфейс или реализуется через агента.

Действительно, мы также усилим диалоговый подход в Blue Heart V и даже объединим активное взаимодействие с интерфейсом, чтобы пользователи могли быстрее его получить.

Гуань Яньбин: Я думаю, что между внутренними и зарубежными экосистемами есть определённые различия. ChatGPT поддерживает COS, Spotify и программы для рисования, такие как Figma. За рубежом он имеет экологическую основу, и в Китае всё действительно немного иначе.

Во-вторых, я не думаю, что это бинарный вопрос, где ответ может быть только «0 или 1». Например, ИИ-помощники, такие как Blue Heart Xiao V, о котором упоминалось на сегодняшней пресс-конференции, отлично справляются с удовлетворением персонализированных потребностей пользователей. В традиционных приложениях или интернет-экосистеме, например, интерфейс традиционного приложения размером с телефон, вмещает 10 или 15 кнопок. Однако всегда есть большое количество пользователей, которым нужно больше, чем эти 10 или 15 кнопок, и эти потребности удовлетворить невозможно. На самом деле, эти потребности очень вариативны и персонализированы, что делает их идеальным решением для ИИ-помощников.

Сегодня утром был показан демо-пример: «Вы конвертируете эту картинку в стиль Pixar и устанавливаете её в качестве обоев». Этот «длинный хвост» не удовлетворяет традиционные приложения, но очень подходит для ИИ-помощников, поскольку он очень персонализирован.

Мы полагаем, что в будущем эта экосистема может достичь той стадии, когда речь будет идти не только об экосистеме приложений или входе трафика. Это не абсолютная истина. Всё зависит от потребностей пользователей. На данном этапе некоторые потребности пользователей лучше удовлетворять с помощью ИИ-помощников и чат-ботов, которые будут лучше удовлетворять их потребности.

Чжоу Вэй: Приложения, использующие большие модели, процветают. В этой ситуации мы сосредоточены как на развитии возможностей, так и на проявлении сдержанности. Мы не можем избежать формирования пользовательских привычек и распространения услуг. Наша дальнейшая стратегия, вероятно, будет заключаться в том, чтобы сначала развивать возможности, а затем работать с партнёрами над этим проектом. Поставщиков услуг, у которых есть опасения, мы призываем подождать и проявить сдержанность.

Сквозная модель и наращивание возможностей

В: Сейчас все производители разрабатывают масштабные модели устройств, и практически каждый из них также говорит о разработке персональных помощников. Чем концепция «UI Agent» от vivo отличается от ИИ-помощников других производителей?

Гуань Яньбин: Сегодня утром мы упоминали, что выбрали персонализированную аналитику. Не все поставщики предлагают персонализированную аналитику. Мы считаем, что персонализированная аналитика обладает несколькими характеристиками:

Во-первых, это как друг или партнёр . Поэтому наша основная специализация — это работа с устройствами, поскольку только они способны постоянно анализировать ваши данные, понимать ваши потребности, воспринимать экран телефона и так далее. На самом деле, не все производители мобильных телефонов обладают возможностями для работы с устройствами. Как уже упоминалось, мы довольно сильны в этой области.

Во-вторых, мы предлагаем по-настоящему мультимодальное естественное взаимодействие, включая голосовое взаимодействие, восприятие экрана и изображений с помощью UI Agents, а также текстовое взаимодействие. Мультимодальное взаимодействие обеспечивает более естественное взаимодействие, как будто с вами общается реальный человек. Это два наших ключевых отличия и преимущества перед другими поставщиками. Эти два преимущества гарантируют постоянную доступность наших продуктов на вашем телефоне, предоставляя вам персонализированные услуги, соответствующие вашим потребностям.

В: Какие условия необходимы для идеального ИИ-агента? Какие из них уже существуют?

Чжоу Вэй: Мобильные телефоны традиционно были основным каналом распространения приложений. Вся отрасль очень чувствительна к ограничениям и авторитету магазинов программного обеспечения. Дистрибуция в эпоху интеллектуальных агентов — не менее деликатный вопрос. Корпоративная культура Vivo ценит общий успех и совместное развитие, поэтому, как канал распространения мобильных телефонов, мы надеемся проявить сдержанность и сотрудничать в будущем распространении интеллектуальных агентов на базе ИИ.

Что можно сделать, а что нельзя? Во-первых, мы надеемся, что интеллектуальные агенты будут реализовывать все функции и системы, доступные в телефоне. Во-вторых, ответственность за хранилище агентов для этих интеллектуальных агентов, включая фреймворк для персонализированного интеллекта, лежит на производителях платформ. Таким образом, вся эта работа уже выполнена.

Однако кросс-агентское и межагентное взаимодействие — это совместный проект всей отрасли, в котором разработчики, в первую очередь интернет-поставщики, играют ключевую роль. Столкнувшись с этой задачей, мы надеемся на сотрудничество в этой области. Что касается распространения агентов интернет-приложений, мы надеемся на сотрудничество и совместную работу в этом направлении. Дело не в том, что мы не можем этого сделать, а в том, что это вопрос общей выгоды для отрасли, и vivo должна выполнять свои обязательства.

В: Так называемые возможности ИИ-агента современных смартфонов на самом деле далеки от широкого определения возможностей. Это связано с тем, что каждое приложение может работать изолированно, не обмениваясь базовыми данными с производителями телефонов. Некоторые производители прибегают к обходным путям, например, к функциям доступности для идентификации экранов. Является ли это серьёзным препятствием?

Чжоу Вэй: Ваши чувства сегодня совпадают с нашими. Когда интеллектуальным устройствам, особенно автоматическим интеллектуальным устройствам в мобильных телефонах, необходимо выполнять задачи, мы можем выполнять только функции и приложения, предусмотренные производителем. Например, отображение плавности, регулировка яркости и подключение к Wi-Fi не вызывают проблем. Однако, если вам нужно использовать разные приложения, другая сторона в настоящее время обсуждает стандарты безопасности с производителями терминалов.

Как производитель устройств, мы считаем, что, во-первых, мы должны активно содействовать установлению отраслевых стандартов. Во-вторых, технологиям искусственного интеллекта ещё предстоит развиться. В этом году мы щедро анонсировали автоматическое распознавание и управление на основе мобильного пользовательского интерфейса. Эти возможности будут совершенствоваться с каждым годом. Если интернет-индустрии когда-нибудь потребуется сотрудничество производителей с пользователями, мы, естественно, станем для этого подходящим решением.

Я считаю, что многие компании в интернет-индустрии щедро используют этот подход, и все они работают с нами в этом направлении. Многие также обеспокоены тем, где будут границы этого подхода в будущем. Для многих из этих компаний мы верим, что время покажет.

В: Каков текущий статус сотрудничества vivo с крупными отечественными производителями по Agent?

Гуань Яньбин: vivo сейчас сотрудничает со многими крупными производителями, которые относительно открыты для сотрудничества, включая AutoNavi, Baidu и Alipay от Ant. У нас уже есть много партнёрских отношений. В будущем OS6 будет постепенно запущена на многих устройствах в течение следующего месяца. Мы принимаем это с открытым сердцем. Мы считаем, что это не чёрное или белое. Это не означает, что традиционный бизнес не может продолжаться после того, как агент завершит работу.

В: В прошлом году vivo всё ещё обсуждала сверхбольшую модель 175B, но теперь акцент сместился на периферийный ИИ-модуль 3B. Почему?

Чжоу Вэй: В прошлом году мы реализовали клиентские модели 13B и 7B. В конечном итоге мы обнаружили, что к производству готова только модель 7B. Однако модель 7B плохо работала на мобильных телефонах, поскольку занимала много памяти. В этом году мы обнаружили, что модель 3B показала себя гораздо лучше.

Почему у нас есть этот выбор? Потому что мы ещё не открыли коробку. Чтобы понять, что делает клиентская модель на телефоне, нам сначала нужно определить, что происходит на телефоне.

Во-первых, он непрерывно распознает различные действия, которые люди выполняют на своих телефонах. Например, это могут делать только телефоны Vivo. Если вы ищете значок, проводите пальцем, чтобы выбрать строку текста, или выбираете все на странице, вы заметите, что на Vivo Atomic Island появляется что-то в ответ. Это распознавание намерений, и оно возможно на стороне устройства. И мы единственные, кто способен на это, потому что у нас есть модель на устройстве, которая анализирует ваши действия в режиме реального времени. Например, предназначен ли этот адрес в заметке для навигации или добавления его в календарь? Наша модель на устройстве определяет ваше намерение в режиме реального времени. Это означает, что телефон полностью интегрирован с широким спектром задач, включая определение намерения и разбивку задач. Мы планируем выпустить эту функцию в отрасли в 2024 году. Мы надеемся, что некоторые вещи требуют опыта, чтобы получить представление и сделать правильный выбор.

Когда мы сделали чёткий выбор в этом году, это не означало, что мы сосредоточимся исключительно на модели 3B. На самом деле, мы работали над многими моделями 1B. Ранее вы спрашивали, собираемся ли мы прекратить работу над моделями 17,5 млрд, 100 млрд или 70 млрд. Нет, это потому, что крупные модели этого года мощнее, чем прошлогодние, которые, в свою очередь, были мощнее, чем годом ранее. Мы обнаружили, что облачные функции разрабатывать относительно легко; настоящая сложность заключается в разработке возможностей на стороне устройства.

Большая модель этого года с 70 млрд параметров (70 миллиардов) мощнее прошлогодней модели с 175 млрд параметров (175 миллиардов). Наша модель 3B мощнее предыдущей модели с 10 млрд параметров и уже мощнее модели с более чем 100 млрд параметров в 2023 году. Она уже способна справиться с декомпозицией современных конечных и сложных задач. Это не потому, что мы отказались от облака, а потому, что она разделена на два этапа: облако есть облако, и конечный этап есть конечный этап. Возможности облака относительно легко определить.

Сейчас в мире больших моделей есть две темы. Одна из них — декомпозиция повседневных рассуждений и сложных задач, а другая — искусственный интеллект в целом . СМИ сейчас утверждают, что эра искусственного интеллекта в целом ещё не наступила. На самом деле, декомпозиция сложных задач, приобретение и уточнение знаний уже сегодня могут удовлетворить наши потребности.

Как производители мобильных телефонов, мы должны более активно исследовать возможности ИИ и повышать спрос на него. Это подразумевает анализ намерений пользователей и повседневных задач как в B2B, так и в B3B-секторах. Мы должны использовать модели на стороне устройства для промежуточного программного обеспечения, восприятия и исполнения. Однако, похоже, СМИ редко затрагивают эту категорию при обсуждении крупных моделей. В конце концов, как производителю устройств, нам сложно инициировать подобные обсуждения в СМИ.

В: Каковы основные достижения модели 3B?

Чжоу Вэй: Самая большая проблема 7B заключалась в том, что ему требовалось 3,5 ГБ памяти. 8 ГБ — стандартная конфигурация для телефонов среднего и высокого класса, включая флагманы. Более крупная модель занимает 4 ГБ, оставляя всего 4 ГБ памяти. 4 ГБ теперь стандартная конфигурация для бюджетных телефонов, что мгновенно превращает топовые телефоны в бюджетные. Это была первая проблема, которую нам нужно было решить.

Вторая проблема, которую нам необходимо решить, заключается в том, что модель 7B может выполнять только простую декомпозицию задач и не может выполнять сложные рассуждения. Например, если вы спросите: «Помогите мне найти самый дешёвый рейс из Пекина в Шэньчжэнь на 16:00 сегодня?», вам, возможно, придётся скачать три или четыре сервиса по продаже билетов и сравнить цены.

Вы обнаружите, что он также анализирует, какое приложение, цену какого приложения и какой авиакомпанией я пользуюсь. Это сложная задача. Прошлогодняя модель 7B не смогла этого сделать. Модель 3B этого года значительно превосходит прошлогоднюю модель 7B. И все рейтинги также включают модели с моделями 8B, которые сильнее моделей 7B. Мы оценили почти все модели рассуждений 8B, которые нам удалось найти в мире, и наша модель 3B значительно превосходит их с точки зрения рассуждений, индуктивного синтеза и способности декомпозировать сложные задачи.

Мы решили две проблемы: во-первых, конечная модель 3B занимает всего 2 ГБ памяти, что не влияет на производительность высокопроизводительных устройств. Мы решили первую проблему. Во-вторых, мы значительно улучшили возможности логического вывода, практически позволив разместить её на мобильном телефоне в качестве промежуточной платформы для управления намерениями и декомпозиции задач. Обе проблемы были решены.

На самом деле, есть и другие проблемы. Например, в этот раз мы уделили большое внимание функциям. В этом году мы достигли 200 токенов. В прошлом году мы достигли около 80, а в этом году мы достигли 200 токенов напрямую. 200 токенов — это уже очень впечатляет. Обычно, когда мы смотрим на экран, произносящий слова, мы считаем, что нормально, если их около 26. Мы достигли 200 токенов напрямую, что показывает, что эффективность вывода слов на стороне терминала резко возросла, и в этом отношении нет никаких препятствий.

Есть ещё одна функция, которую вы, возможно, не заметили, но она поистине революционна. До DeepSeek существовала крупная модель под названием «Тёмная сторона Луны», чьей главной особенностью были длинные токены, и мы реализовали её в этот раз. Это огромный прорыв, и мы отлично справились с этой задачей. Однако, поскольку это совсем новая модель, пользователям может потребоваться ещё полгода, чтобы увидеть её преимущества. Итак, ваш вопрос лишь упомянул некоторые из наших проектов в этом году. Мы внедрили длинные токены на устройствах. Мы увеличили объём памяти с 4 ГБ до 2 ГБ и достигли скорости вывода 200 токенов. Мы также улучшили возможности вывода и реализовали всё это на мобильных телефонах. Таким образом, выход оригинальной System 6 в 2025 году даёт нам от трёх до шести месяцев, чтобы испытать неожиданные сюрпризы с точки зрения функциональности.

В: Влияет ли на вас открытый исходный код DeepSeek?

Чжоу Вэй: Это действительно нас коснулось. Мы столкнулись с этой проблемой в 2024 году, когда работали над моделью масштаба в 175 миллиардов карт. Мы её уменьшали, по сути, используя матричную модель. Однако мы быстро поняли, что даже кластера из 10 000 карт будет недостаточно. Нам нужно было создать кластеры из 20 000 и более карт, и только для этого потребовалось бы более 2 миллиардов оборудования, и этого всё равно было недостаточно. При таких темпах я считал нереалистичным масштабирование искусственного интеллекта в целом.

Как мы все знаем, многие стартапы в китайской индустрии крупномасштабного моделирования испытывают трудности. Это связано с тем, что привлечение десятков миллиардов юаней для создания модели с 400 миллиардами параметров может потребовать 5 миллиардов юаней на вычислительные мощности. Из этих 5 миллиардов юаней треть, или около 1,5 миллиарда юаней, приходится на электроэнергию. Эта стоимость усугубляется ежегодными счетами за электроэнергию, что делает её недоступной.

Когда DeepSeek появился, он сразу же привлёк всеобщее внимание своими возможностями моделирования, оцениваемыми в несколько миллиардов долларов. DeepSeek добился выдающихся результатов, был полностью открытым исходным кодом и позволил нам полностью внедрить его. Vivo Blue Heart V, включающий в себя модель глубокого мышления, по сути, является полноценной версией DeepSeek. Это дало нам уверенность в том, что мы сможем сразу же получить отличные крупномасштабные модели.

Какие преимущества это даёт компаниям, таким как наша, которые разрабатывают собственные модели? Это помогает нам в обучении на основе дистилляции моделей 7B и 3B. Я считаю, что DeepSeek — это огромное подспорье и преимущество для таких компаний, как наша, которым необходимо как обучать, так и оптимизировать модели.

В: Зачем нам всё ещё нужен 1B? Какова его роль в клиентской системе?

Чжоу Вэй: Спасибо DeepSeek за значительное улучшение возможностей логического мышления в отрасли за последние два года. В прошлом году мы даже построили модель 13B, поскольку модель 7B не могла справиться со многими сложными задачами логического мышления, поэтому мы надеялись запустить модель 13B. Однако в этом году мы обнаружили, что модель 3B превзошла наше первоначальное определение 13B, позволив делать множество прогнозов, которые ранее были ограничены чуть более крупными моделями на устройствах. Мы решили, что достаточно будет просто усердно работать с моделью 3B. Сегодня я также говорил о реферировании и генерации текста. Модель 3B уже на 97–98% использует возможности облачных технологий, что делает разницу практически незаметной. Этого более чем достаточно.

Зачем использовать 1B? Мы обнаружили, что многие функции мобильных телефонов требуют постоянной настройки. Применение больших моделей на торцевой стороне мобильных телефонов гораздо шире, чем мы предполагали. В телефоне всегда запущена большая модель.

Некоторое время назад я посетил несколько известных лабораторий гуманоидной робототехники в Китае. Мы также работаем над роботами, а в области воплощенного интеллекта у нас есть большая модель, которая постоянно работает. Как я уже упоминал сегодня утром, модель 3B потребляет 750 мА во время работы, что просто невыносимо. Даже при таком энергопотреблении она всё равно разряжается. Итак, что же нам с этим делать? Мы используем импульсную систему. Вы используете её иногда, иногда нет. Когда она вам нужна, она просыпается, но большую часть времени она не используется. В целом, она потребляет всего несколько часов в день, что вполне приемлемо. Это гораздо более энергоэффективно, чем игры или фотосъёмка.

Однако существуют также требования, требующие круглосуточного доступа к онлайн-данным, таким как адресные границы, ваше поведение и системные параметры, которые всегда доступны онлайн. Для этого требуется модель 1B. Эта модель 1B не предполагает сложных логических рассуждений, а скорее мониторинга в режиме реального времени и наличия памяти локального компьютера. Поэтому мы довольно активно используем модель 1B, но она предназначена исключительно для мобильных телефонов и редко «распространяется» или передается внешним пользователям.

Опыт и философия

В: Уже наблюдается тенденция взимания платы за облачные функции искусственного интеллекта в X300. Как будут определяться границы облачной тарификации ИИ?

Чжоу Вэй: У нас есть принцип: Vivo уделяет большое внимание интеграции с устройствами. Распознавание изображений, голосовое распознавание, а в будущем и синхронный перевод, и распознавание диалектов — всё это уже реализовано на устройстве, и эта интеграция, безусловно, бесплатна. Однако с интеграцией на устройствах есть проблема: платформа должна обладать достаточной вычислительной мощностью и объёмом памяти, не менее 8 ГБ. Это сразу же создаёт ещё одну проблему: если у пользователей есть только бюджетные устройства с 4 ГБ памяти и им нужно использовать её, они могут обратиться к облачным функциям. Облачные функции, в некотором смысле, требуют значительных затрат, поэтому мы могли бы рассмотреть возможность разделения затрат. Я думаю, это тенденция.

В: Производители мобильных телефонов часто попадают в ловушку, составляя список функций ИИ при его разработке. Пользователи обычно жалуются на то, что функции ИИ слишком многочисленны и сложны. Как vivo определяет, действительно ли функция ценна?

Хуан Цзысюнь: У нас есть внутренний термин для описания опыта взаимодействия с ИИ – «бессознательность». Хотя ИИ может казаться мощным, его проникновение пока не получило широкого распространения, что в определённой степени создаёт серьёзные трудности для пользователей в освоении его использования. Поэтому мы стремимся свести к минимуму необходимость нажатия кнопки для активации или использования ИИ. Вместо этого мы используем безупречный дизайн. Например, если при сохранении файла я начинаю запись, приостановка или прерывание записи автоматически активирует возможности ИИ, генерируя для них имя. Мы определяем это как «бессознательный ИИ».

Он действительно использует модель 3B на периферии, о которой все говорят. Мы также внесли множество оптимизаций, включая тонкую настройку базового планирования производительности и энергопотребления во время работы. Наш проект устраняет необходимость взаимодействия пользователей с этими функциями, позволяя им получать к ним естественный доступ в рамках существующего пользовательского интерфейса и потока задач, заменяя традиционные процессы ручного вызова и редактирования возможностями ИИ.

В прошлом году мы предложили реконструировать системный опыт. Мы не меняли бизнес-логику намеренно и не переучивали пользователей использованию ОС с ИИ или телефонов с ИИ. Вместо этого, в изначальном потоке задач пользователя, когда мы достигаем определённого момента, мы предполагаем, что ИИ предсказывает, что пользователь столкнётся с этим сценарием и ему потребуется использовать определённую функцию, и мы можем достичь этого результата естественным образом. Именно к этому мы всегда стремились при разработке ОС, которая представляет собой «бессознательный» ИИ.

Мы также провели тестирование и обнаружили, что когда кнопка отображает функцию ИИ, большинство пользователей погружаются в размышления: что именно это за функция, будет ли она собирать их данные или приведёт к неожиданным последствиям? Поэтому мы избегаем создания новых функций или сценариев в ходе этого процесса. При интеграции ИИ и ОС мы стремимся вернуться к существующим привычкам пользователя, сохраняя существующий поток задач пользователя и выполняя его максимально естественным и плавным образом. Это основополагающий принцип «бессознательности», которого мы придерживаемся на протяжении всего опыта использования ОС.

В: Как сбалансировать стабильность операционной системы и быструю итерацию ИИ?

Чжоу Вэй: Как всем известно, наша команда ИИ на протяжении многих лет, естественно, сталкивалась с трудностями со стороны внутреннего руководства, включая значительное давление в процессе поставки. Я считаю, что указания Шэнь Вэя команде ИИ совершенно верны: ИИ не создаст новых требований. Нам, представителям индустрии мобильных телефонов, следует использовать ИИ, чтобы сделать мобильные телефоны более удобными для пользователей. Если мы вернёмся к этому изначальному стремлению, нам, вероятно, будет легче выполнять свою работу.

Возвращаясь к команде: поскольку у нас две-три тысячи человек, занимающихся разработкой программного обеспечения, и более тысячи — разработкой искусственного интеллекта, включая тех, кто отвечает за когнитивные процессы и планирование, мы часто думаем, что вступили в эпоху искусственного интеллекта и что в эту эпохальную эпоху мы должны создать что-то совершенно новое и революционное. Многие мои друзья в нашем окружении считают, что появление искусственного интеллекта, безусловно, станет эпохальным событием, таким же, как паровой двигатель и конный экипаж.

Я думаю, самая большая проблема со стабильностью системы и разрушительной природой ИИ заключается в том, что нам, по сути, приходится возвращаться к конному экипажу для дальних путешествий, что само по себе является средством передвижения. Использование парового двигателя или конного экипажа — это форма продукта.

Сегодня мы довольно комфортно используем сочетание ИИ и мобильных телефонов. Что меняется? Что остаётся неизменным? Неизменным остаётся интеграция ИИ и операционной системы. Есть такое выражение: «ИИизация системных функций». Мы наблюдаем всплеск телефонных звонков, телефонных помощников, фотоальбомов, заметок и других функций, реализованных на базе ИИ. Это улучшения традиционных функций. Что меняется? Я думаю, это также изменение изначальных потребностей.

Например, при поиске слова или приложения, почему мы должны угадывать намерение? Это намерение отображается только в Atom Island, AutoNavi Maps или Notes. Стоит ли отправлять его мне на хранение или сохранять в Pinduoduo или Taobao для поиска? Вы обнаружите, что потребности пользователей не изменились. Мы просто используем ИИ для определения намерения и прогнозирования вашего поведения. Если вы действительно хотите отказаться от приложения, мы можем просто помочь вам избавиться от него. Мы просто используем ИИ, чтобы сделать его более удобным, простым в использовании и дружелюбным к пользователю. Телефон остался прежним, без добавления новых функций. Изменение заключается в том, что существующие функции были переосмыслены и стали более удобными в использовании.

Размышляя об этом таким образом, я чувствую, что наше поведение, мышление, когнитивные процессы и планирование продукта за последние два года были последовательными. В 2023 году я чувствую себя последовательным и чувствую, что наступила новая эра. Мы собираемся сделать что-то эпохальное и революционное. В то время всё было крайне непоследовательно, будь то внешняя или внутренняя коммуникация. Мы были в замешательстве больше года, но с этого года мы стали очень последовательными и чётко знаем, что делаем.

В: Какова ваша общая стратегия в эпоху ИИ? Вы только что сказали, что стратегический фокус смещается в сторону конечного пользователя. Как же будут распределены существующие облачные ресурсы для обучения?

Чжоу Вэй: Поскольку наша компания ориентирована на умные устройства, а не на искусственный интеллект в целом, наша стратегия по-прежнему сосредоточена на том, что мы как компания должны делать. Наша стратегия в области ИИ соответствует потребностям компании, и мы по-прежнему сосредоточены на персональном интеллекте. В прошлом году один из брендов представил комплексное описание под названием «Blue Heart Intelligence». Blue Heart Intelligence представляет собой персональный интеллект, который пока ещё расплывчат и носит общий характер. Его можно представить как «персонального VIP-помощника» для пользователей.

Если вы ищете помощника, возможно, у вас есть помощник, который поможет вам управлять своим расписанием, но вы, вероятно, не сможете работать юристом, помощником по заполнению налоговых деклараций или помощником по торговле акциями. Кем работают эти люди? Финансовые и юридические компании этим занимаются. Например, есть помощники, специализирующиеся на составлении патентных заявок — это «специализированные помощники». Наша цель — превратить ваш телефон в вашего личного помощника. В то время как телефонная компания может управлять тем, что важно лично вам, другие «специализированные» сервисы требуют специальной платформы. Сегодня утром я также упоминал о нашем стремлении сократить разрыв между специализированными сервисами и пользователями, приблизив специализированных помощников к ним. Мы работаем над компонентом универсального помощника. Это наша комплексная стратегия.

В: Vivo также разрабатывает очки дополненной и виртуальной реальности. Будет ли MR/AR-очки связаны с мобильным приложением?

Чжоу Вэй: Кстати об агентах, на самом деле, многие сервисы в отрасли существуют уже давно. Они не новы. Почему же их внезапно стали называть интеллектуальными агентами после появления крупных моделей? Потому что они способны воспринимать изменения вокруг нас, понимать наши намерения и помогать нам принимать решения, что позволяет им автоматически подключать сервисы. Именно из-за этого изменения их и называют интеллектуальными агентами.

Первоначальный сервис всё ещё существует, но именно добавление этих четырёх шагов превратило его в интеллектуальную сущность. Однако эта интеллектуальная сущность теперь широко распространена и используется в отрасли. Почему операторам мобильной связи всё ещё нужно ответить на этот вопрос? Потому что операторы мобильной связи действительно понимают личные привычки своих пользователей. Предоставляя эти персонализированные характеристики сторонним поставщикам услуг с разрешения пользователей, их интеллектуальные сущности мгновенно становятся мощнее.

Производители мобильных телефонов создали ценность в этом отношении. Мы создаём платформы и вспомогательные структуры для отрасли. Производители мобильных телефонов обладают дополнительной идентичностью. Они предоставляют услуги отрасли, и телефоны также могут иметь такие функции, как звонки, расписание и текстовые сообщения. Таким образом, мы делаем эти две вещи одновременно.

В: Будем ли мы также рассматривать возможность кросс-девайсной интеграции с устройствами MR?

Чжоу Вэй: Главное отличие устройств смешанной реальности от мобильных телефонов заключается в том, что вы используете камеру, чтобы увидеть реальный физический мир, распознать его, а затем связать с цифровым. Это приложение, по сути, очень похоже на очки дополненной реальности, которые сейчас продвигаются. Существует соответствующая связь между тем, что вы видите, и тем, как вы это распознаёте, независимо от того, запрашиваете ли вы услуги или получаете рекомендации. Поскольку команда разработчиков ОС также занимается этими задачами, мы объединили их все.

В: Аппаратное обеспечение с ИИ в этом году очень популярно. Производители мобильных телефонов имеют значительное преимущество в области аппаратного обеспечения с ИИ. Планирует ли vivo развивать это направление в будущем?

Чжоу Вэй: Наша компания создала подразделение, занимающееся разработкой терминалов с искусственным интеллектом, и у них есть планы по выпуску новых продуктов, но я не могу назвать точные сроки. У нас есть такие продукты, как Vision, очки, и мы официально анонсировали домашнего робота. Мы определённо готовим больше, чем официально анонсировали.

Сегодня все уже видели нашу операционную систему Blue River. Она совместима с широким спектром чипсетов, включая чипы ARM, с совместимостью с пятью-шестью платформами. Мы также в частном порядке связались с китайскими компаниями в сфере энергетики, в том числе с той, которая производит очки с искусственным интеллектом.

От стороннего наблюдателя и наблюдателя за технологиями до практического применения того, как технологии влияют на образ жизни.

#Приглашаем вас следить за официальным публичным аккаунтом WeChat проекта iFaner: iFaner (WeChat ID: ifanr), где в ближайшее время вам будет представлен еще более интересный контент.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo