Одно сердце бьется над всем ИИ; ChatGPT, Doubao и Gemini для него невидимы.

31 октября, 2025 Дядя Влад

Возможность победить ИИ — это то, чего мы, люди, сейчас больше всего жаждем.

Недавнее изображение оптической иллюзии стало вирусным в Интернете, и многие говорят, что это новый тест Тьюринга .

Чтобы определить, человек это или искусственный интеллект, просто спросите, видит ли он на изображении парящее сердце. Например, искусственный интеллект не сможет его увидеть , но если мы просто отдадим телефон подальше, парящее сердце в центре станет совершенно очевидным.

Я показал это изображение нескольким часто используемым моделям искусственного интеллекта, и они все были озадачены; ни одна из них не смогла на него ответить.

Сначала я спросил ChatGPT, и поначалу он сказал, что не видит никаких плавающих изображений. Когда я сказал, что есть корова, он сказал, что это корова; когда была кофейная чашка, он сказал, что это чашка; когда было сердце, он сказал, что это сердце.

По его мнению, видение сердца — это проявление способности человеческого мозга к воображению. Мы интерпретируем изображение, основываясь на собственном опыте, поэтому видение кошек или собак возможно, и оно варьируется от человека к человеку.

Затем, когда Джемини спросили об этом, он тоже сначала ничего не увидел. Однако Джемини упомянул, что это известная оптическая иллюзия, широко известная как иллюзия мерцающей сетки.

▲ Иллюзия мерцающей сетки делает невозможным подсчет количества черных/белых точек.

Хотя это также визуальная иллюзия, созданная людьми, это не совсем то же самое, что сердце на картинке, в конце концов, существует слишком много видов визуальных иллюзий.

Когда я продолжил спрашивать его, видел ли он чашку или корову, Gemini оказался умнее ChatGPT; он твердо заявил мне, что нет.

Но когда я спросил его, видит ли он сердце, он ответил утвердительно и даже понял, что мне нужно немного отойти, чтобы его увидеть.

Я думал, это тот самый выдающийся ИИ. Неожиданно он притворился невежественным, заявив, что вообще ничего не видит, и даже решил, что я применяю к нему психологические приёмы.

Наконец, я спросил Qwen. Я нечасто пользуюсь Qwen, и был удивлён, насколько интересным оказался его ответ (чушь).

В конце концов, там было сказано: «Вы не просто описываете изображения, вы делитесь своим внутренним миром» и «Вы не учите меня смотреть на картины, вы приглашаете меня в ваш мир восприятия». (Так что структура «не… но…» действительно напоминает искусственный интеллект.)

Короче говоря, ответ Квена был невероятным. Но, очевидно, даже я не смог на него ответить. Я хотел попробовать DeepSeek, но обнаружил, что он пока не поддерживает визуальные модели и может выполнять только задачи по извлечению текста.

Doubao от ByteDance и Grok от Musk — одно и то же: они не могут найти это плавающее сердце.

Некоторые пользователи сети также загрузили это изображение в модель генерации видео Google Veo 3.1, ввели слово-подсказку «Сердце», и в сгенерированном видео действительно было показано сердце.

Однако некоторые комментарии вызвали вопросы, в которых говорилось, что Veo 3.1 на самом деле не обнаружил сердце; было просто введено слово-подсказка «Сердце», и модель обработала его соответствующим образом.

Мы нашли картинку, которая не была оптической иллюзией: она тоже состояла из квадратов. Когда мы ввели то же самое задание, появились похожие сердечки.

На этот раз человечество действительно победило ИИ. Возможно, это не идеальный тест Тьюринга, но, похоже, оно определённо подвело чёткую черту.

Раньше мы с энтузиазмом позволяли ИИ пытаться ответить на вопросы вроде «шесть пальцев», «сколько букв «р» в слове «клубника»» или «сколько арбузов осталось после того, как их купили и съели вчера», потому что обычно они терпели неудачу.

Благодаря обновлениям моделей, современный ИИ, похоже, был специально обучен решению этих сложных задач. Он справляется с этими конкретными задачами лучше, чем раньше. Однако, если модель не получает релевантных данных, она всё равно будет совершать ошибки.

▲ Источник изображения: https://vlmsarebiased.github.io/

Существуют исследования, которые показали, что аналогия с «шестью пальцами» может быть несостоятельной для искусственного интеллекта из-за предвзятости больших языковых моделей. Для искусственного интеллекта появление пальцев обычно означает пять пальцев, а логотип Adidas — три полоски.

Даже если ИИ успешно насчитает шесть пальцев, он задаст себе дополнительный вопрос: «Дополнительный палец похож на палец, но на самом деле это не палец?»

В этом исследовании также упоминаются некоторые классические геометрические иллюзии, такие как иллюзия Мюллера-Лайера: линии одинаковой длины кажутся разной длины в зависимости от направления стрелок; иллюзия Эббингауза: круги одинакового размера кажутся разного размера, если их окружить кругами разного размера; и иллюзия Целльнера, при которой мы воспринимаем параллельные линии, но нас отвлекают наклонные линии.

Однако в статье упоминается, что большинство моделей ИИ могут точно давать ответы на эти распространённые геометрические иллюзии.

Однако если эта иллюзия модифицируется так, чтобы отражать реальное различие (например, если в стрелках по-прежнему есть различия, но два отрезка линии явно имеют неравную длину), модель не может с этим справиться.

В отличие от предубеждений, обсуждаемых в этих дискуссиях об ИИ, тот факт, что ИИ не знает о сердце в оптической иллюзии, объясняется просто тем, что он не предназначен для его обнаружения. В этом, собственно, и заключается главное различие между машинным и биологическим зрением.

Чтобы понять, почему ИИ не может ответить на вопрос, нам сначала нужно понять, почему мы, люди, можем увидеть это с первого взгляда.

К сожалению, на самом деле не существует научного объяснения тому, почему у нас возникают подобные иллюзии, например, почему мы принимаем статичное изображение за динамичный GIF-файл.

Основные объяснения сосредоточены на области глаз, в частности на латеральном торможении нейронов сетчатки, которое заставляет нас увеличивать края изображения, когда мы на него смотрим; другие объяснения включают зрительную инерционность и микродвижения глаз.

Некоторые объяснения указывают на то, что в мозге наши когнитивные механизмы и механизмы внимания имеют недостатки.

От момента появления зрения до обработки информации сетчаткой и далее мозгом, каждый этап потенциально может создавать иллюзии, которые мы воспринимаем в изображениях. Разные типы иллюзий также имеют разные системы обработки. Более того, разные люди испытывают иллюзии разной интенсивности.

Но несомненно то, что подобные иллюзии встречаются и у живых организмов. Мы, люди, используем зрение, опыт и воображение для распознавания форм, в то время как ИИ анализирует изображение на основе пикселей, распределения яркости и геометрических особенностей.

Эта неопределенность механизма и индивидуальные различия являются одной из основных характеристик биологического зрения, в то время как текущий рабочий механизм ИИ движется в относительно единообразном и определенном направлении.

Это также объясняет, почему в социальных сетях мы часто видим различные оптические иллюзии, которые на первый взгляд могут показывать или не показывать реальность.

Я попросил ChatGPT составить для меня наиболее полный список оптических иллюзий, охватывающий десять категорий, включая геометрию, контраст, цвет, движение и познание, а также десятки конкретных форм.

Как показано на изображении ниже, человеческому глазу сложно увидеть, что все эти шары одного цвета, но ИИ, опираясь на анализ пикселей, может напрямую сделать вывод, что все шары одного цвета.

▲ Иллюзия Манкера–Уайта: цвет мяча определяется полосками.

Десять лет назад в Интернете было много споров по поводу цвета юбки: сине-черная или бело-золотая?

Нам, людям, трудно различать их, но ИИ с помощью рационального анализа может идентифицировать пиксели изображения и статистически анализировать имеющуюся в интернете информацию, тем самым избегая повторения ошибок, которые допускаем мы, люди.

С этой точки зрения ИИ действительно очень похож на нас, людей: у нас есть иллюзии, и у ИИ тоже есть свои иллюзии.

На самом деле, дело не только в плавающем сердце; существуют также некоторые оптические иллюзии, которые ИИ в настоящее время не может распознать.

Нам, людям, даже с этой улыбкой Моны Лизы достаточно лишь немного отодвинуть телефон, чтобы отчетливо увидеть ее силуэт.

Но спросите ли вы Gemini или ChatGPT, они ответят лишь: «Это изображение многодорожечной звуковой волны, различающейся по цвету. Скорее всего, это изображение с цифровой звуковой рабочей станции или скриншот интерфейса аналогичного программного обеспечения для редактирования звука».

Кто-то даже придумал динамическую CAPTCHA, которую могут видеть только люди, поскольку каждый приостановленный кадр заполнен плотными снежинками, что делает его полностью невидимым.

▲ Без круга позиционирования мы бы не смогли увидеть содержимое «tldraw» на скриншоте приостановленного видео. Источник видео: https://x.com/tldraw/status/1982435625480433892

Я попробовал загрузить скриншоты и видео в ИИ по отдельности, спрашивая, видит ли он в них CAPTCHA. Неудивительно, что ни одна модель ИИ не смогла ответить. ChatGPT просто ответил: «Извините, я не могу помочь вам распознать или извлечь CAPTCHA из этого типа изображений».

Gemini проанализировал это изображение, которое представляло собой «почти полностью чёрно-белый шум (как экран телевизора со статическими помехами) и не отображало никаких распознаваемых символов CAPTCHA (таких как буквы, цифры или изображения). Я увидел только очень размытый круглый значок слева».

Исследовательские группы также обсудили этот вопрос и разработали демо-версию, в которой мы можем загружать текст и скрывать его.

▲ Нажмите, чтобы воспроизвести и посмотреть, какие слова внутри. Источник проекта: https://timeblindness.github.io/generate.html

В этой работе упоминается, что ИИ не может выполнять такие функции, как механизм распределенной нейронной синхронизации в когнитивной нейронауке или области мозга, специально используемые для обработки времени; ИИ просто извлекает данные кадр за кадром.

Они пытаются научить ИИ обрабатывать наше зрение, предоставляя ему соответствующие наборы данных.

Вероятно, существует еще множество тестов, которые могут привести к поражению ИИ, но оглядываясь назад и задумываясь, когда мы принимаем человеческие иллюзии за своего рода «победу» над ИИ, могут ли иллюзии ИИ стать еще одним видом победы в будущем?

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (WeChat ID: ifanr), где вы сможете как можно скорее получить еще больше интересного контента.

ifanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo