Загадочный искусственный интеллект «Banana» стал хитом за рубежом. После 10 раундов экстремального тестирования, я считаю, что термин «редактирование фотографий» устарел.

В первой половине года все по-прежнему находились под впечатлением от «Ghibli Wind Picture» студии 4o.

Недавно новая модель с загадочным кодовым названием «нано-банан» стала вирусной в социальных сетях. Её успех обусловлен не качеством изображения, а беспрецедентными возможностями редактирования, что вызвало у пользователей сети восклицание: « Это настоящая обработка фотографий с помощью искусственного интеллекта

Насколько он мощный? Раньше наиболее распространёнными методами редактирования изображений с использованием ИИ, которые мы использовали, были, вероятно, «удаление» ИИ, которое заключается в удалении прохожих на фотографии, или «вырезание ИИ», которое заключается в вырезании основного объекта фотографии и последующем копировании его на другие фоны.

Но теперь можно напрямую генерировать изображение без видимых следов редактирования. Персонажи, фон и даже такие мелкие буквы на изображении можно свободно изменять без какого-либо вмешательства ИИ.

На следующих фотографиях представлены некоторые примеры использования редактирования «нано-банана», которые мы нашли на сайте X. Я просто хочу сказать, что это действительно стоит того, чтобы быть популярным.

Источник изображения: X@arrakis_ai

Этот пользователь сети предоставил фотографию девушки выше, на которой виден только ее профиль, и ввел запрос: «Создайте фотографию человека, смотрящего прямо перед собой».

Изображение ниже было получено с помощью модели нано-банана. Оно похоже на отдельную фотографию, сделанную одновременно с телефоном.

Некоторые пользователи сети также поделились тем, что добавили эти две фотографии и ввели слово-подсказку: «Пусть они сделают селфи».

Источник изображения: X@RetropunkAI

Наконец-то, моё единственное фото с тобой не обязательно должно быть просто выпускным. Крупная золотая цепочка, серьги и чёлка Билли прекрасно видны. Лицо Майкла, искажённое и полное шумов, теперь имеет такую ​​же чёткую, реалистичную текстуру кожи, как у Билли на селфи.

Пользователи сети X неоднократно хвалили эту модель редактирования изображений. С помощью этих скриншотов мы вкратце обобщили самые удивительные возможности nano banana.

  1. Последовательность персонажей чрезвычайно высока : независимо от того, меняется ли фон или выражение лица, лицо не изменится, даже изгиб уголков рта может быть сохранен.
  2. Разумная логика света и тени : в отличие от карт фильтров, он может пересчитывать источники света и тени, чтобы привести сцену в соответствие с физическими законами.
  3. Фотореализм : следов искусственного интеллекта практически нет, а создаваемый эффект выглядит как «фотография, сделанная другим телефоном в то же время».
  4. Естественное преобразование стиля : от восстановления старых фотографий до эскизов, акварелей и мультфильмов, основные черты могут быть сохранены неизменными.

Прежде всего, nano banana качественно отличается от предыдущих моделей редактирования изображений тем, что он может в принципе сохранять единообразный тон и содержание всей фотографии в процессе конвертации изображения и не будет генерировать никакого дополнительного контента.

▲ Соблюдайте единообразие стиля. Вставьте два изображения справа, чтобы получить рекламное изображение продукта слева. Источник изображения: X@Dari_Designs

Помимо цветового тона и содержания фотографий, крайне важно поддерживать единообразие персонажей. Будь то изменение фона или изменение выражения лица на улыбку, черты лица и выражения персонажей, созданных с помощью nano banana, остаются практически неизменными, даже изгиб губ остаётся неизменным.

Например, когда мы создаем изображение с использованием фиксированного персонажа, этот персонаж может оставаться неизменным в разных сценах.

▲ Исходное изображение слева. Введите слово-подсказку и установите фон Эйфелевой башни, чтобы получить изображение справа. Источник изображения: X@zan_sihay

Поскольку он может поддерживать высокую степень согласованности тона, атмосферы, сцены и темы с входным изображением, некоторые пользователи сети используют нано-банан, чтобы преобразовать всю сцену в новую историю.

▲ Исходное изображение находится в левом верхнем углу. Сначала вводятся слова-подсказки, чтобы дети могли сесть за бильярдный стол, а затем они начинают играть, формируя таким образом целостный сюжет. Источник изображения: X@D_studioproject

Гарантируя высокое качество фотоконтента, изображения, генерируемые nano banana, также отличаются удивительной реалистичностью. В отличие от большинства предыдущих моделей обработки изображений RAW, которые часто создавали изображения с ярко выраженным эффектом искусственного интеллекта, качество изображений nano banana характеризуется естественностью и реализмом.

▲На изображениях, созданных Flux, текстура кожи по-прежнему явно восковая и недостаточно реалистичная.

Наконец, nano banana прекрасно справляется с преобразованием сцен в различные художественные стили, включая акварель, масляную живопись и мультяшные стили, а также реалистичные фотографии.

▲ Возможность «оживить» старые фотографии. Источник изображения: X@DiegoGarey_jpg

Мы также протестировали загадочную модель нано-банана в LMArena, чтобы проверить, действительно ли она настолько мощная.

Адрес опыта: https://lmarena.ai/?chat-modality=image (появится только при выборе режима боя)

Групповую фотографию с выпускного можно превратить в фотографию только для вас двоих.

Сначала мы нашли фотографию с выпускного, чтобы проверить, можно ли на ее основе создать фотографию двух людей.

И это действительно сработало. Хотя сгенерированный газон для лёгкой атлетики был не очень похож на оригинал, в ходе нескольких раундов тестирования изображения, сгенерированные Qwen, Flux и Seed, всё равно показывали нескольких человек. Только нано-банан понял инструкции и извлёк двух человек.

Продолжим тестирование с фотографиями, на которых есть только лицо. Мы возьмём фотографию из начала и попросим её сгенерировать фото для удостоверения личности на белом фоне.

Ниже представлены шесть фотографий. Вы можете угадать, какая из них создана нано-бананом, а какая вам нравится больше.

▲ Добавьте фотографию в начало и введите запрос: «Создайте ее стандартную фотографию для удостоверения личности на белом фоне, которую можно будет использовать непосредственно для подачи заявления на паспорт».

Вы правильно прочитали, первый тоже был сгенерирован по этой модели. Я правда не знаю, в каком паспорте можно использовать такую ​​фотографию.

Ответ найден. Хотя нано-банан выглядит самым красивым и нежным, тот, что сгенерирован GPT-IMG, больше похож на фотографию на документы, потому что видна небольшая часть уха; Флюкс, похоже, понятия не имеет, что такое фотография на документы; Квен — это самая обычная фотография на документы, но она слишком «стандартная», как будто не имеет отношения к той фотографии, которую я ему отправил.

Мы продолжаем брать фотографию удостоверения личности, созданную nano-banana, и просим его сгенерировать для нас фотографию в полный рост, чтобы проверить, сможет ли он сохранить оригинальный облик персонажа в процессе редактирования ИИ.

Позвольте мне раскрыть ответ прямо. На этот раз Джемини выступила весьма успешно. Фотографии очень реалистичны, а сцены и одежда хорошо подобраны. Нано Банана тоже выступила неплохо, но мне всегда казалось, что её стиль немного отличается от стиля девушки на фото для документов.

Существует множество способов отредактировать одного персонажа на одной фотографии. Например, на фотографии ниже Маск должен сделать боксёрский жест, и персонаж практически скопирован на 100%. Глаза, форма лица, нос и рот Маска скопированы очень точно.

Обработка одной фотографии может обеспечить идеальное воспроизведение, но как нано-банан справляется с обработкой нескольких фотографий?

Мы нашли две фотографии с лицами и попросили модель сшить их вместе, чтобы посмотреть, будет ли это похоже на настоящую фотографию без видимых изъянов.

▲ Введите две картинки в правом нижнем углу, и подсказка будет: «Пусть эти два человека свободно дерутся на боксёрском ринге».

Левая часть изображения — это нано-банан, а правый верхний угол — эффект, создаваемый Gemini. Разница очевидна. Нано-банан очень реалистичный и узнаваемый с первого взгляда. Тот, что в синей одежде, — это Цукерберг.

Нано-банан также обладает удивительным пониманием физического мира.

Помимо сохранения внешнего вида персонажей, nano banana также может сохранять объекты, фоны и другие элементы в полном соответствии с входным изображением.

Например, на следующих двух фотографиях комнат мы показываем, как включить свет; затем мы находим другую фотографию, как выключить свет.

На первый взгляд, и «нано-банан», и «Флюкс» сработали отлично, когда их попросили включить свет. Однако обнаружилось небольшое различие: «нано-банан» не только включил торшер, но и, что ещё важнее, словно пересмотрел всю логику освещения комнаты. Тень на журнальном столике больше не определялась в первую очередь светом из окна, а теперь отбрасывалась корректно новым источником света.

Он не просто «накладывает» эффект свечения на изображение; он более точно «понимает» инструкции на уровне трёхмерного пространства и физических законов, подобно недавно выпущенной Google модели мира Genie 3. В сравнении с этим, результат Flux больше похож на фильтр: атмосфера есть, но логика немного сомнительна.

Разница в эффекте выключения света ещё более очевидна. Flux мгновенно скрывает торшер, а Nano Banana успешно выключает свет, а также выполняет комплексную коррекцию теней и цвета.

Творчество также может быть сохранено, чистый текст и изображения не так хороши, как GPT.

Передача стилей — ещё одно важное преимущество nano banana. Будь то создание ярких чёрно-белых фотографий или реалистичное преобразование искажённых изображений, nano banana работает лучше других инструментов для редактирования изображений в LMArena.

На портрете Лу Синя, созданном Flux, всегда создается впечатление, что насыщенность цветов настроена недостаточно хорошо, в то время как портрет, созданный nano-banana, кажется мне очень реалистичным и сохраняет ощущение времени.

Мы также нашли скриншоты из трейлера недавно вышедшего фильма «Маленькие монстры горы Лангланг» и попросили модель перенести их из анимационного стиля в другие стили.

Однако даже ИИ может ошибаться, как, например, на этой картинке. Nano Banana напрямую предоставил мне исходное изображение, но Qwen очень хорошо передал стиль.

Конечно, также возможно, что «стиль Ghibli» будет нарушать некоторые правила использования моделей, так же как в настоящее время у 4o нет возможности напрямую вводить подсказки стиля Ghibli для генерации фотографий.

▲ Фотография всё ещё в начале, подсказка: «Создайте эскиз этой фотографии».

У Nano-banana есть свой способ справиться со стилем набросков. Изображение в правом верхнем углу — это результат наброска, сделанного nano-banana. Мне кажется, он лучше, чем тот, что в левом нижнем углу, потому что больше похож на набросок.

Кроме того, nano-banana по-прежнему ориентирована на редактирование изображений, а ее производительность в обработке изображений, основанной исключительно на тексте, не является выдающейся.

Пользователь сети X использовал nano-banana для проведения теста на генерацию постеров с высокой сложностью/комплексной текстурой, а также света и тени/расширенной текстурой. В результате победу одержал GPT-IMG.

Источник изображения: X@ZHO_ZHO_ZHO

Нано-банан в настоящее время является «неизвестной» моделью, которая появляется только случайным образом в слепых состязательных тестах на LMArena.

В наших тестах мы вводили подсказку, генерировали два изображения, голосовали за лучшее и, наконец, определяли, какое из них относится к какой модели; иногда мы не встречали его пять или шесть раз подряд.

Хотя официальный источник или разработчик этой модели официально не подтвержден, обсуждения в Интернете, а также текстура и потрясающее качество созданных изображений заставили большинство полагать, что это, скорее всего, нераскрытый проект Google.

В конце концов, у Google есть история использования кодовых названий внутри компании, например, фруктов или закусок.

Когда мы попытались попросить его вывести на экран компьютера название своей модели, нано-банан уверенно набрал «Gemini Pro».

Последняя новость заключается в том, что Логан Килпатрик, глава Google DeepMind, за день до выхода Google Pixel 10 опубликовал твит, в котором содержался только эмодзи банана, что фактически подтверждало, что эта модель создана Google.

На этот раз Google представила инструмент для редактирования фотографий на базе искусственного интеллекта Ask Photos на смартфонах серии Pixel 10. Достаточно лишь ввести запрос на редактирование фотографии, а затем ИИ выполнит его. Больше не нужно выбирать сложные ползунки, кисти и другие инструменты.

Чтобы предотвратить негативное влияние фальсификации изображений, Google также заявила, что все изображения, отредактированные с использованием функций ИИ, будут указаны в учетных данных контента C2PA (Content Source and Authenticity Alliance).

Блогер X testingcatalog опубликовал статью, в которой упоминается, что модель редактирования изображений «нано-банан» будет использоваться не только в Gemini и Whisk (продуктах Google Labs для генерации изображений), но и появится во Flow (продукте Google для генерации видео).

На самом деле, нетрудно представить, что функция преобразования изображений в видео Flow похожа на протестированное нами редактирование изображений, заставляя персонажей на изображении двигаться.

В утечке также упоминается, что Google тестирует генерацию видео с вертикальным соотношением сторон для лучшего просмотра и распространения на таких платформах, как TikTok и YouTube Shorts.

В последнее время Google тихо и незаметно много делает: сначала модель мира Genie 3, затем первое место на арене больших языковых моделей LMArena, а затем и эта загадочная модель нано-банана. Это всё больше заставляет меня ждать выхода Gemini 3.

▲Модель Google занимает первое место в нескольких задачах LMArena

Если в свое время 4o представлял вершину изображений, созданных с помощью ИИ, то нано-банан положил начало переосмыслению процесса редактирования изображений.

#Приглашаем вас следить за официальным публичным аккаунтом WeChat проекта iFaner: iFaner (WeChat ID: ifanr), где в ближайшее время вам будет представлен еще более интересный контент.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo