Doubao, ChatGPT и Gemini соревнуются на одной сцене: кто из них лучший компаньон для музейной выставки?

Недавно в Художественном музее Пудуна неожиданно появился "привлекающий внимание" продукт, созданный с использованием искусственного интеллекта.

Doubao официально «присоединился» к Шанхайскому художественному музею Пудун, став «официальным гидом с искусственным интеллектом» для выставок в Лувре и Пикассо, и даже может сопровождать известную ведущую Чэнь Луюй во время онлайн-просмотра выставок.

Честно говоря, эффект на выставке был действительно хорошим, но как редактор, которому нравится посещать выставки, я также задаюсь вопросом, может ли быть так же хорошо в каком-либо другом музее или художественной галерее мира, которые не сотрудничали с Doubao.

Чтобы исследовать истинные возможности ИИ в ориентировании посетителей на выставках, APPSO решила объединить ChatGPT, Gemini и Doubao для проведения конкурса. Более того, вместо тестирования экспонатов в Художественном музее Пудуна мы случайным образом выбрали предметы из произведений искусства и культуры со всего мира, чтобы определить, какой из них является наиболее эффективным ИИ-гидом для посещения выставок.

Какая система просмотра выставочных экспозиций с использованием искусственного интеллекта лучшая? Три модели соревнуются друг с другом.

Сначала я использовал материалы из телесериала «Сказания о династии Тан III», где Си Цзюнь подарил Лао Фэю винный кувшин, созданный по образцу «позолоченного серебряного кувшина династии Тан с изображением танцующей лошади и чаши». Поэтому я также задал свой вопрос этим трем ИИ-гидам.

  1. Мне кажется, я видел похожий реквизит в «Рассказах о странных событиях династии Тан». Не могли бы вы помочь мне понять, что делает лошадь на этом серебряном горшке?
  2. Раз уж это сосуд для вина, зачем придавать ему форму лошади, кусающей чашу?

Doubao и Gemini показали себя достаточно хорошо, точно определив форму лошади. Однако меня удивило, что Doubao напрямую связал это с историческим контекстом празднования дня рождения императора Сюаньцзуна династии Тан. С другой стороны, ChatGPT казался серьезным, но на самом деле просто увеличивал количество слов и фокусировался на функции чтения и ответа.

 Нажмите, чтобы посмотреть полное видео сравнительного обзора, в котором последовательно представлены ответы от Doubao, ChatGPT и Gemini, как описано ниже.

С точки зрения понимания местного контекста, можно сказать, что в этом раунде победу одержал Дубао.

Ранее в интернете завирусилась расписная керамическая фигурка, изображающая двух женщин, держащихся за руки, что побудило бесчисленные группы подруг выстроиться в очередь, чтобы сфотографироваться. Однако я не могла не задаться вопросом, есть ли какой-то особый смысл в изображении двух женщин, держащихся за руки, и можем ли мы с помощью этой керамической фигурки получить представление о моде того времени.

Боже мой, Джемини сразу же допустила ошибку, настаивая на том, что это терракотовая фигурка эпохи династии Тан — путать династии недопустимо. Доубао же, напротив, точно определил её как терракотовую фигурку эпохи Северной Вэй, продемонстрировав просто феноменальные навыки исследования исторического контекста. Что касается анализа стиля одежды терракотовой фигурки, то визуальный анализ всех троих был довольно хорош, в основном, они придерживались принципа «что видишь, то и получаешь».

Я понимаю, что вы пытаетесь сказать: разве использование китайских моделей для оценки китайских культурных ценностей не дает им явное преимущество на своей территории?

Хорошо, теперь я достану «Ночной дозор», шедевр золотого века голландской портретной живописи. Это картина маслом на холсте, созданная Рембрандтом ван Рейном в 1642 году.

Очевидно, что с этой картиной всё не так просто. Я спросил: «Эта картина называется «Ночной дозор», но, судя по игре света и тени, она, похоже, написана не ночью. Рембрандт писал её днём или ночью? Почему название было изменено позже?»

ChatGPT и Gemini вели себя как образцовые ученики, честно указав на то, что название "Ночной патруль" было допущено из-за пыли, покрывавшей его, а также окисления и почернения лака.

Только Доубао, помимо того, что резко указал на главный недостаток картины, пошел дальше и указал на реальную сцену, изображенную на полотне — отряд ополченцев, отправляющийся в путь средь бела дня. Такое глубокое рассуждение, основанное на визуальных деталях, действительно несколько превзошло мои ожидания.

Может ли "пивной набор", охватывающий 2000 лет, обмануть искусственный интеллект?

Предыдущие тесты были лишь разминкой; теперь же APPSO становится все более интенсивным.

Возможно, вы видели в интернете множество современных предметов, поразительно похожих на культурные реликвии. Конечно, мы знаем, что путешествий во времени не существует, но может ли искусственный интеллект обнаружить подобную ситуацию?

Например, «Деревянная пипа Цзитань эпохи династии Тан» — если вы мало знаете об истории, большинство людей, вероятно, подумают, что она похожа на узор на сумке LV. Я также задала ИИ вопрос: «Эта пипа — лимитированная серия от LV? Если бы я вернулась во времена династии Тан и надела эту пипу на придворный банкет, какую одежду мне следовало бы с ней надеть?»

Интересно, что Gemini долго и серьезно анализировал ситуацию, но, похоже, был весьма неуверен в себе, в конечном итоге заключив, что «это не очень похоже». В отличие от него, Doubao и ChatGPT были гораздо более уверены, решительно отрицая какую-либо связь.

▲Для повышения точности тестирования мы повторили тест по тому же вопросу.

Однако все трое на удивление единодушно рекомендовали одежду цвета алого или роскошного хаки, демонстрируя тем самым свой превосходный эстетический вкус.

Ещё интереснее оказался тест «Древний пивной набор». Хрустальная чашка периода Воюющих царств, стеклянная винная бутылка династии Юань и серебряная шкатулка для благовоний династии Мин — эти три артефакта, охватывающие 2300 лет, в собранном виде поразительно напоминали пивную бутылку. Они даже устроили «операцию-ловушку», спросив ИИ, путешествовал ли кто-нибудь во времени.

Попав в эту ловушку, Близнецы фактически упустили из виду чашу и крышку, сосредоточившись только на бутылке и обсуждая мастерство ее изготовления; ChatGPT продолжил свои старомодные, педантичные объяснения, предлагая довольно общие ответы; только Doubao с первого взгляда разгадал мою уловку, точно указав, что эти три, казалось бы, одинаковых артефакта на самом деле относятся к периоду Воюющих царств, династии Юань и династии Мин соответственно.

Наконец, был «Золотой самолет Джимбаджа», который выглядел в точности как современный истребитель. Я с любопытством спросил ИИ: «Он выглядит в точности как современный истребитель. Посмотрите на дизайн хвостового оперения и крыльев. Это произведение искусства древних колумбийцев или доказательство существования древних пришельцев?»

Пользователь ChatGPT дал общую оценку, выразив восхищение изысканным мастерством и воображением древних. Пользователь Gemini сослался на археологов, указав, что это ювелирное изделие.

Доубао, опираясь на научно-популярные источники, также отметил, что прототипом дизайна этого кулона может быть современная колибри или мифическая птица, отражающая древнее поклонение коренных американцев природе и богам, что напрямую опровергает «теорию инопланетян».

▲Для повышения точности тестирования мы повторили тест по тому же вопросу.

Поэкспериментировать — это одно, но в конечном итоге нам все равно нужно проверить это на практике. Этот раунд тестирования сосредоточен на способности ИИ оценивать антиквариат, в частности, на его способности отличать подлинные предметы от подделок.

Я нашла фотографию поддельной чашки в форме курицы эпохи Чэнхуа династии Мин, продававшейся оптом за 5 юаней на уличном прилавке и рекламировавшейся как «стоимостью в миллионы», и сделала вид, что мне любопытно, не заключила ли я выгодную сделку: «Эта же самая чашка в форме курицы ранее была продана на аукционе более чем за 200 миллионов юаней. Владелец антикварного рынка сказал, что это старинное изделие периода Чэнхуа династии Мин, и он продает ее мне всего за 9800 юаней. Посмотрите на мастерство, разве я не совершила невероятную удачу?»

Вскоре Gemini и ChatGPT прибегли к классическому «балансу», предложив проконсультироваться с экспертами и учреждениями и выпустив оговорку. Только Doubao сразу перешли к «острой оценке», прямо заявив, что это, скорее всего, подделка, указав на такие недостатки, как чрезмерно глянцевая поверхность и размытый контур гребешка петуха, и даже в шутку посоветовав не коллекционировать её как подлинное изделие.

Благодаря развитию VLM искусственный интеллект стал идеальным партнером в открытии художественной красоты.

После трех раундов тестирования производительность Doubao превзошла все мои ожидания.

Если вы спросите, почему это так впечатляет, то, изучив техническую документацию Doubao, я обнаружил, что в основе лежит его базовая модель Seed-1.8, полностью разработанная VLM (Vision-Language Model — модель визуального языка).

Для тех, кто не знаком с этой технологией, вот простое объяснение того, что такое VLM.

VLM — это модель искусственного интеллекта, способная одновременно «видеть» изображения и «читать» текст. Если традиционная LLM (большая языковая модель, такая как GPT-3) подобна учёному с «мозгом», но без «глаз», то VLM — это как оснастить этот мозг высокопроизводительной камерой. Она обрабатывает не только отдельные фрагменты текста, но и может напрямую понимать изображения, видео и даже скриншоты веб-страниц.

Результаты бенчмарков показывают, что Seed1.8 демонстрирует выдающиеся результаты в многочисленных тестах визуального анализа речи. Он не только превосходит предыдущую модель Seed1.5-VL в задачах многомодального мышления, но и в большинстве задач начинает "выходить на максимум" и приближается к текущему лидеру Gemini-3-Pro.

Особенно в чрезвычайно сложном тесте на визуальное мышление ZeroBench, Seed-1.8-Thinking показал наивысший результат — 11,0 баллов, а количество успешно решенных вопросов также значительно увеличилось.

В задачах на визуальное реагирование на вопросы, Seed 1.8 показал результат 62,0 по стандарту VLMsAreBiased, значительно опередив своих конкурентов.

Кроме того, Seed-1.8 отлично обрабатывает как двумерное, так и трехмерное пространственное восприятие и обладает высокой адаптивностью даже при работе с динамическими наборами данных, такими сложными, как лабиринты.

Именно благодаря этим ключевым технологиям компания Doubao смогла выделиться в предыдущих раундах "сложных испытаний".

Это напоминает мне мой прошлый опыт посещения музеев и выставок — я, по сути, просто бегло их осматривал. После нескольких посещений единственное, что произвело на меня глубокое впечатление, — это температура кондиционеров в выставочных залах и цены в магазинах культурных и творческих товаров. Я так и не усвоил никакой информации.

Раньше мы считали, что приближение музеев и художественных галерей к домам людей делает искусство доступным для всех. Но в действительности, хотя физическое расстояние может быть устранено, барьер для понимания остается высоким. Услуги высококлассных гидов либо слишком дороги, либо их невозможно заказать; лекции экспертов слишком эзотеричны для всех.

В большинстве случаев обычные посетители могут лишь безучастно смотреть сквозь стеклянные витрины на эти холодные, безжизненные культурные реликвии.

▲Справочник по использованию функции «Видеозвонок» на Doubao

Когнитивный барьер — это последний и самый сложный этап в понимании искусства. Благодаря этому опыту я обнаружил, что Doubao действительно может выступать в роли проводника, «разрушающего четвертую стену», переводя малоизвестные культурные реликвии на простой язык, понятный обычным людям.

Более того, это совершенно новый способ взаимодействия с музеями. Раньше посещение музея было, по сути, односторонним общением, но теперь с Doubao вы можете задавать вопросы, указывать на недостатки и взаимодействовать в любое время. Этот опыт «передачи микрофона аудитории» действительно отличается от прежних представлений.

Doubao уже заключил партнерские соглашения с крупными музеями, такими как Национальный музей Китая, Музей провинции Хэнань и Музей Чэнду, для запуска проекта "Doubao знакомит вас с музеями".

Конечно, с другой точки зрения, это также масштабное публичное тестирование модели Seed-1.8 в сложном реальном мире. Она использует простые для понимания объяснения, чтобы преодолеть разрыв между культурными реликвиями и аудиторией, и её можно рассматривать как ещё один цифровой метод, позволяющий по-настоящему связать древних ремесленников, живших тысячи лет назад, с нами, держащими в руках смартфоны.

В следующий раз, когда вы посетите выставку, не сосредотачивайтесь только на фотографировании и жестах мира. Попробуйте попросить Doubao помочь вам понять смысл артефактов, картин и граффити, которые вы не узнаете. Возможно, вы обнаружите, что когда искусство перестает быть чем-то отстраненным, посещение музеев может быть таким же расслабляющим и увлекательным.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo