Нано Банан наконец-то перестал быть неграмотным, но я могу стать «глупым».

24 ноября, 2025 Дядя Влад

За прошедшие выходные возможности Gemini 3 Pro Image неоднократно подвергались «пыткам» всё более разнообразными способами — о, вы спрашиваете, что это такое? Другое его название — Nano Banana 2. Какое шутливое название, но его всё же сохранили.

Nano Banana2 превосходит все ожидания настолько, что даже его «конкурент» Сэм Альтман вынужден признать его превосходство.

▲ Изображение из: The Information

Похвала — это именно похвала. Вторая фаза Nano Banana фактически знаменует собой важный поворотный момент в области генерации изображений с помощью ИИ: переход от вероятностного «рассуждения» к «логическому построению», основанному на понимании. Это также имеет особое значение: ИИ теперь ориентируется не только на ваши глаза, но и на ваш интеллект.

Большие языковые модели больше не являются «неграмотными».

С изображениями, созданными с помощью ИИ, всегда существовала неизбежная проблема: они невероятно талантливы и могут создавать результаты без усилий, но иногда, кажется, теряют контроль, словно пьяны. Это началось ещё в эпоху Midjourney и с тех пор постепенно улучшилось, но проблема всё ещё актуальна.

Одной из самых серьёзных ошибок был текст. Долгое время самым простым способом определить, сгенерировано ли изображение ИИ, было посмотреть на текст на изображении.

Это неотъемлемый недостаток модели диффузии: она рассматривает текст как текстуру, а не как символ.

Самым очевидным достижением Nano Banana 2 является то, что он может «распознавать слова», что также известно как рендеринг текста.

В результате моего импровизированного теста получился постер к ретро-фильму с названием «Месть Банана» и подзаголовком «Выпущен в 2025 году», выполненным красным шрифтом с засечками.

В прошлом попытка выполнить эту команду, вероятно, привела бы к созданию высокохудожественного изображения. Хотя некоторые вариации «BANANA REVENGE» оставались чёткими и обычными, мелкий текст часто не сохранял своей чёткости, а иногда основной заголовок даже был написан как «BANNANA». Однако в Nano Banana 2 эти символы точно, чётко и эстетично «написаны» на экране.

Ну и что? Это просто для экономии времени на добавление слов?

Для обычных пользователей это может стать своего рода «свободой эмодзи». Наконец-то можно создать изображение, точно критикующее вашего начальника, вместе с точным текстом, без необходимости создавать отдельное текстовое поле.

Для делового мира это означает, что создание изображений с помощью ИИ официально перешло из стадии «материальной» в стадию «готовой к реализации».

▲ Изображение от пользователя X @chumsdock

Когда ИИ может точно обрабатывать символьную информацию, результаты становятся более разнообразными и практичными, включая, помимо прочего, плакаты для электронной коммерции, иллюстрации в презентациях (PPT) и даже диаграммы данных. Раньше дизайнеры могли использовать ИИ только для создания фоновых изображений; ключевую информацию по-прежнему приходилось добавлять вручную. Теперь ИИ может напрямую генерировать прототипы, даже круговые диаграммы с аннотациями данных или рекламу, где текст идеально вписывается в перспективу.

Это «последняя миля» коммерческой доставки, а также огромный шаг вперед для моделей необработанных изображений с точки зрения передачи информации.

От «угадывания вероятностей» к «пониманию физики»

Успех рендеринга текста является весьма показательным микрокосмом основного технологического скачка Nano Banana 2. Более глубокое изменение заключается в том, что этот «банан» вырастил мозг .

Речь идет о создании изображений на основе «рассуждений».

Большая модель — это, по сути, вероятностно-статистическая машина. Когда вы просите модель нарисовать «кошку, сидящую на стеклянном столе», она обучается на сотнях миллионов изображений и, генерируя изображение, просто воспроизводит статистические закономерности пикселей.

Nano Banana 2 отличается тем, что использует возможности логического мышления языковой модели Gemini 3. Прежде чем генерировать изображения, он, по-видимому, сначала конструирует физическую модель в своём «мозгу». Он знает, что под «кошкой» обычно размытые тени, а объекты на стеклянной пластине или под ней имеют разные соотношения освещённости.

В другом случайном тесте, который я ему дал, когда мне предложили создать «сложную химическую лабораторию с мензурками синей жидкости на столе и молекулярными формулами на доске на заднем плане», он продемонстрировал замечательные логические рассуждения:

Жидкость в стакане будет иметь правильный мениск; преломление света стеклянной посудой соответствует физической интуиции; и, что самое важное, молекулярные формулы на фоновой доске больше не являются случайными линиями, а представляют собой формулы, которые выглядят как правильные химические структуры (хотя недостатки все еще имеются).

Когда у кисти появляется «мозг», меняется и способ нашего взаимодействия с ней.

Причина акцента на генерации текста заключается в том, что рендеринг текста — это его внешнее проявление, отражающее рассуждение как внутренний механизм. В целом, итоговый опыт, который Nano Banana 2 предлагает пользователям, — это «мыслящее полотно».

Google глубоко интегрировала эту модель в свою экосистему, выйдя за рамки простой генерации изображений для «модификации» реальности. Следующий шаг — переход к более серьёзным областям: инфографике, планам уроков, учебным материалам и так далее.

В целом, при создании изображений пользователи обычно предоставляют 20% инструкций, а оставшиеся 80% оставляются ИИ для заполнения пробелов. Раньше это зависело от вероятности (случайной раскраски). Теперь же он опирается на причинно-следственные связи, не только описывая «результат», но и подразумевая «процесс», что экспоненциально усиливает повествовательное и эмоциональное воздействие изображения.

Это уже не просто способ порадовать ваши глаза; это начинает радовать ваш интеллект. Структурная схема, подобная приведённой выше, хоть и не на 100% соответствует стандартам машиностроения, всё же показывает, что гвозди — это гвозди, а заклёпки — это заклёпки. «Логическая правильность» — прямое проявление её способности к рассуждению.

Однако у всего есть две стороны. С другой стороны, это может означать гомогенизацию творчества .

Когда ИИ способен идеально генерировать диаграммы, плакаты и иллюстрации, «отвечающие бизнес-стандартам», он, по сути, нивелирует средний уровень эстетики. Все плакаты правильно скомпонованы и имеют идеальное освещение, но они также могут утратить гениальные штрихи, рождённые «несовершенством» прошлых дизайнов.

▲ Изображение от пользователя X @ dotey

Более глубокая проблема кроется в исчезновении истины. Когда логически обоснованный и насыщенный информацией контент, упомянутый выше, может производиться массово, радовать умы становится проще и проще, чем когда-либо . Если это определяет весь мой поток информации, от изображений до текста, то… как это будет выглядеть?

И наконец, давняя проблема дипфейков, которая обсуждалась бесчисленное количество раз. Хотя Google добавила SynthID (цифровой водяной знак, невидимый человеческому глазу) для маркировки контента, созданного с помощью искусственного интеллекта, технологические меры по борьбе с подделками зачастую меркнут по сравнению с визуальным эффектом. Создание «реализма» стало настолько дешёвым и удобным, что наше представление о том, что «увидеть — значит поверить», полностью изменится.

Называется ли он «Nano Banana» или «Gemini 3 Pro», уже неважно. Важно то, что отныне каждый пиксель и каждая строка текста, которые мы видим на экране, могут быть созданы не руками человека, а машинной мыслью.

Это одновременно волнующе и временами пугающе.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (WeChat ID: ifanr), где вы сможете как можно скорее получить еще больше интересного контента.

ifanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo