Экстремальное испытание видеозвонка Doubao, после общения в чате в течение дня и ночи, я обнаружил, что все не так просто

Недавно произошли два события, которые заставили меня по-другому взглянуть на ценность ИИ.

Одна из историй заключается в том, что после того, как некоторое время назад в Сиане умер мужчина, его дочь разбирала его вещи и нашла на его мобильном телефоне разговор между ним и искусственным интеллектом. «Я умираю, Дубао», — было последнее сообщение между отцом и чат-ботом Дубао.

Недавно я увидел новый игровой процесс с использованием искусственного интеллекта, популярный в социальных сетях, таких как Tik Tok. Пользователи позволяют Doubao имитировать их голоса, чтобы звонить друзьям, а ИИ берет на себя управление разговором. Механические ответы ИИ и время от времени неуместные ответы, а также отсутствие реакции друзей усиливали эффект шоу.

У этих двух вещей есть нечто общее: лишенный эмоций ИИ начинает становиться источником эмоциональной ценности для все большего числа людей, которые считают его надежным спутником жизни.

Однако вы также обнаружите, что эмоциональная ценность, которую обеспечивают эти ИИ, все еще отличается от человеческой. Он может понимать, что вы говорите, и видеть изображение, но когда вы хотите, чтобы он действительно что-то понял и сделал, он часто терпит неудачу.

Потому что раньше, когда вы общались с помощью голосового ИИ, у него не было визуальных возможностей.

Зрение — это не только окно для понимания мира людьми, но и в еще большей степени для искусственного интеллекта. Только тогда, когда он обладает этой способностью, он может по-настоящему общаться с нами, как человек.

Теперь Doubao наконец-то заполнил эту часть головоломки и официально запустил функцию видеозвонков, которая позволяет «смотреть и общаться одновременно». Откройте значок «+» в диалоговом окне приложения Doubao, выберите «Совершить звонок» и нажмите «Видеозвонок» справа, чтобы воспользоваться функцией.

APPSO также немедленно провела серию экстремальных тестов на Doubao, и с помощью большого количества реальных тестовых случаев мы можем увидеть, в чем разница между Doubao и «глазами».

Я протестировал видеозвонки Doubao до предела и обнаружил, что все не так просто.

Вчера вечером Лэй Цзюнь официально представил Xiaomi YU7. В нашем офисном парке иногда легко спутать издалека припаркованные рядом автомобили Porsche и Xiaomi. Сегодня я случайно увидел одного из них на дороге, поэтому я «позвонил» Дубао и поговорил с ним напрямую.

По внешнему виду и стилю колес Doubao распознал, что это Xiaomi SU7.

Давайте пойдем немного сложнее. В Гуанчжоу сейчас май, но, как и в Пекине, много плавающих сережек. Любой, кто это увидит, спросит: «Что это такое?»

Идентификация растений очень распространена, но Doubao не просто идентифицирует растения, но и может дополнять внешнюю информацию, что делает его очень живым.

Давайте посмотрим на это большое красное сооружение. В реальной жизни это встречается нечасто. Я ходил и «звонил» Дубао. Он быстро определил, что этот объект представляет собой «пылеуловитель для дробеструйной обработки литья», и представил его конкретное применение.

Я не знал, чушь ли это, пока не нашел название бренда рядом и не обнаружил, что оно совершенно верно.

Но еще больше меня удивило то, что Дубао догадался, что я нахожусь в творческом парке, и сказал мне, что раньше это был текстильный парк.

Понять суть одного предмета по видеосвязи может быть слишком просто, поэтому я попросил Дубао рассказать мне о моей коллекции фигурок.

Он распознал эти фигурки одну за другой и даже понял, что Узумаки Наруто был не в своей обычной форме.

Я говорил с ним об играх Коби. Когда я упомянул последнюю игру Коби, там была одна памятная фраза, но я ее забыл. Дубао чуть не выпалил:

Мамба, выходи!

И тон его голоса стал выше, и он казался более взволнованным, создавая у меня ощущение, будто я общаюсь с родственной душой.

Ладно, поскольку для Дубао это не проблема, я собираюсь использовать свой последний прием.

Видя, что стол моего коллеги становится все более захламленным (на самом деле это не так), я задался вопросом, в каком он физическом состоянии, поскольку вещей на нем становится все больше и больше. Я решил спросить Дубао, что это за тип MBTI.

Сложность этого теста заключается в том, что сначала необходимо идентифицировать различные хаотично расположенные на столе предметы, а затем понять «человеческую природу», чтобы проанализировать их.

Удивительно, что Дубао произносил MBTI в соответствии с пиньинь, а не по-английски. Сначала я не отреагировал и подумал, что это тормозит сеть. Тем не менее, он по-прежнему очень точен. Мой коллега — человек с буквами «Е» и «П».

Помимо быстрых вопросов, которые можно задать по прихоти, сцены, содержащие больше «скрытой информации», также являются тем местом, где лучше всего можно продемонстрировать возможности звонков в реальном времени.

Например, при покупке кофейных зерен, особенно если вы пробуете хорошую продукцию в кофейне, вы не можете изучать ее медленно, как при совершении покупок на сайте электронной коммерции. Вместо этого вам нужно принять решение в короткие сроки. А мой мозг работает не очень хорошо, и я никогда не могу вспомнить, как место происхождения и высота над уровнем моря влияют на вкус.

Теперь вам не нужно запоминать это в голове, просто нажмите на кресло-мешок и включите камеру.

Это большая польза для людей. Им больше не нужно общаться с продавцом, когда они приходят в кофейню. Они могут понять все термины, открыв свои мобильные телефоны.

Вы сказали, что боялись, что будет странно разговаривать с продукцией в одиночку? Говорите тише и притворяйтесь, что разговариваете с другом, чтобы вас не обнаружили!

Помимо способностей к распознаванию и пониманию, мы также обнаружили, что у Дубао хорошие творческие способности во время видеозвонков.

Я попросил ее написать рэп по иллюстрации из китайского учебника.

Без каких-либо подсказок Дубао быстро понял, что картина посвящена истории «Татуировка свекрови», и точно изобразил эту сцену. Но что меня действительно удивило, так это рэп, который возник мгновенно.

Знаете, действительно похоже, что в этой песне есть некое культурное наследие, а ритм и художественная концепция переданы довольно хорошо.

Когда я путешествовал, я увидел вдалеке мост через озеро. Мне захотелось импровизировать стихотворение и подарить своим друзьям особый экземпляр.

Обратите внимание, я не сказал, что нахожусь в Уэст-Лейк, и что здесь много мостов разной формы и с разной историей.

Но Дубао все же легко остановился на «Сломанном мосту» Западного озера посреди оживленной живописной местности и использовал семисимвольное четверостишие, чтобы рассказать историю этого места.

Тур по Западному озеру
Глядя со Сломанного моста, можно увидеть зеленое озеро и лотосовые поля, отражающие голубое небо.
Мимо моста проходят толпы туристов, а прекрасный пейзаж озер и гор простирается бесконечно.

Вашим Моментам все еще не хватает хорошей картинки. Вместо того чтобы жаловаться своему лучшему другу или парню на то, что у вас не получается делать качественные фотографии, почему бы не попробовать Doubao для генерации советов по позе в режиме реального времени.

После взаимодействия с Doubao он начинает наблюдать за окружающей обстановкой и в режиме реального времени предоставляет фотографу обратную связь о том, как лучше скомпоновать снимок и какие позы может принять модель в зависимости от элементов окружающей среды.

В сцене выше Дубао предложил мне использовать глубину резкости, низкий угол обзора и теплый свет вечерних уличных фонарей для съемки на основе окружающей обстановки на месте, такой как башня Гуанчжоу, зеленые растения, каменные дороги и уличные фонари. Можно сказать, что при этом учитываются как реальные условия съемки, так и атмосфера выходного изображения.

Кроме того, рекомендации по позам для фото, которые дает Дубао, также весьма конкретны. Когда вы услышите такие фразы, как «повернись боком», «повернись спиной к камере» или «встань посреди дороги», вы будете знать, что вам следует делать, а не просто говорить «попробуй еще несколько поз».

После того, как Doubao ответит на звонок, нажмите кнопку «Поделиться экраном» в левом верхнем углу интерфейса. С помощью Doubao вы также можете смотреть видео, совершать покупки в Интернете и просматривать публикации.

Ай Фанэр попыталась пообщаться с Дубао во время воспроизведения видео в Tik Tok и была приятно удивлена, обнаружив, что она может не только описывать и комментировать содержимое экрана в режиме реального времени, но и активно поднимать темы для чата, основанные на теме видео и связанном с ним контенте, что делает интерактивный опыт более человечным.

Если у вас возникнет сильное желание поделиться, вы сможете пообщаться с Дубао в течение «3 дней и 3 ночей».

Возможно, это поможет вам решить проблему выбора. Во многом это связано с тем, что стоящая за ней модель визуального понимания может как «видеть», так и «думать».

Не знаете, что поесть со старыми друзьями после работы? С помощью Doubao вы можете найти несколько похожих ресторанов в радиусе 500 метров. Вы также можете узнать о фирменных блюдах этих ресторанов, репутации магазина и другую информацию, не выходя из дома.

Дубао даже может стать главным специалистом по заказам еды, решить ваши проблемы с принятием решений и организовать питание в соответствии с вашими диетическими табу.


Скидки, предлагаемые крупными компаниями электронной коммерции, вас поразят. Теперь вы можете напрямую обратиться в Doubao, чтобы он помог вам найти наиболее экономически эффективный шампунь против выпадения волос.

С помощью фразы «подходит для людей в возрасте около 30 лет, с нейтральным ароматом» Дубао может напрямую найти определенный парфюмерный продукт на странице магазина и превратиться в эксклюзивного представителя службы поддержки клиентов, чтобы предоставить вам подробную информацию о сложных ингредиентах этого парфюма, включая верхние, средние и базовые ноты.

Если у вас возникли вопросы об аллергенах в парфюмерных ингредиентах, вы можете в любое время задать их Doubao.

Оснащение ИИ «глазами» может не только помочь вам в повседневной жизни

Недавно я общался с Цзян Дасинем, генеральным директором Step Star, и он считает, что мультимодальность еще не достигла своего момента GPT-4. Среди них понимание интеграции поколений является ключевой проблемой в области компьютерного зрения .

Функция видеозвонка, которую недавно запустил Doubao, прояснила довольно сложную концепцию «интеграции понимания и генерации». Не стоит недооценивать это слово. Проще говоря, это означает, что ИИ должен не только уметь «понимать» то, что вы ему показываете, но и уметь осмысливать то, что он понимает.

Для этого необходимо, чтобы эти две вещи были одним и тем же, но сейчас это часто не так.

Если вы просите ИИ распознать кошку или собаку либо идентифицировать сцену, это считается «пониманием», и может использоваться модель А. Затем, если вы просите ИИ нарисовать тигра, скопировав кошку, или отфотошопить картинку в соответствии с вашими идеями, это считается «поколением», и необходимо использовать модель B.

Это похоже на ситуацию, когда два отдела компании не могут бесперебойно взаимодействовать и возникает большой информационный пробел. Тогда модели будет сложно по-настоящему «понять» вас, и то, что она сгенерирует, может оказаться неактуальным.

Добавление возможностей визуального понимания к ИИ означает интеграцию различных отделов в тесно взаимодействующую команду. Что бы он ни увидел, он тут же понимает в своем мозгу, что это значит, и может напрямую преобразовать это понимание в действие или реакцию.

Если взглянуть на видеозвонок Дубао ранее, то это немного похоже на то, что он имел в виду.

Например, вы на кухне планируете приготовить новое блюдо и немного запутались в рецепте. Вы не знаете, как выполнить определенный шаг, или у вас не хватает приправы, и вы хотите узнать, можно ли использовать что-то другое в качестве замены.

В это время вы можете напрямую показать Doubao рецепт или имеющиеся у вас ингредиенты с помощью видео.

В это время «глаза» Дубао (визуальная модель понимания) должны сначала «понять», что вы ему показываете.

Он должен распознавать текст и изображения в рецепте и знать, о каком шаге идет речь; или распознать, что у вас в руке — соевый соус или уксус, лук или чеснок. Он не просто распознает, что это «бутылка с жидкостью» или «овощ», он должен учитывать контекст и понимать, что вы задаете вопросы в контексте приготовления пищи.

Только на основе «понимания» Дубао может высказать полезную информацию.

Он скажет вам: «О, на этом этапе вам нужно замариновать мясо. Я вижу, у вас есть кулинарное вино и светлый соевый соус, вы можете следовать пропорциям в рецепте». Или: «Вы хотите использовать приправу А вместо приправы Б, верно? Позвольте мне проверить для вас. Ну, теоретически это возможно, но вкус может быть немного другим. Я предлагаю вам попробовать использовать немного меньше».

В этом процессе «понимание» и «генерация» неразрывно связаны. Doubao находится в более унифицированной структуре, где вы можете понимать, наблюдая, и думать о том, как вам ответить, понимая, таким образом, достигая настоящей функции «смотри и общайся».

Итак, видеозвонок Дубао призван улучшить совместную работу «глаз» и «рта» ИИ. Видимая им информация об изображении может напрямую подтолкнуть его к созданию содержательного разговора.

Когда ИИ сможет видеть и думать как человек и выражать свои мысли естественно, он может стать хорошим «спутником жизни». Помимо того, что это дарит эмоции и общение, это также может помочь вам решить некоторые практические проблемы.

Однако значение этого вопроса может быть и более значительным. Если ИИ продолжит развиваться в этом направлении, он больше не будет инструментом, способным лишь пассивно отвечать на вопросы, а станет разумным партнером, способным активно наблюдать, глубоко понимать и бесперебойно сотрудничать с нами.

Можно сказать, что это единственный путь для ИИ перейти к общему искусственному интеллекту (AGI) и по-настоящему интегрироваться в нашу жизнь и работу.

#Добро пожаловать на официальный публичный аккаунт WeChat iFanr: iFanr (WeChat ID: ifanr), где вам будет представлен еще более интересный контент как можно скорее.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo