Только что вышел Nano Banana 2! Он доступен по цене и его много в продаже; после тестирования я обнаружил следующие подробности.

При использовании ИИ для генерации изображений всегда возникает одна дилемма: скорость или качество?

Однако скорость и качество не обязательно являются взаимоисключающими понятиями. Только что Google официально представил свою модель генерации изображений следующего поколения: Nano Banana 2 (Gemini 3.1 Flash Image).

Без лишних сенсационных лозунгов, это просто позволило добиться лучшего качества изображения и более человекоподобного понимания в совершенно новой базовой архитектуре. Именно это делает изображения, сгенерированные ИИ, менее похожими на случайность и более удобными в использовании.

▲Официальный адрес блога: https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/

Подключившись ко всему интернету, на этот раз искусственный интеллект действительно понимает, что вы говорите.

Чтобы объяснить эти изменения, нам нужно вспомнить, насколько сложно было использовать изображения, сгенерированные искусственным интеллектом, три года назад.

Если попросить его нарисовать «тушеную свинину», он, скорее всего, послушно нарисует кусок горящего мяса; но если попросить написать китайское предложение на плакате, он часто выдаст кучу бессмысленных каракулей. Это отсутствие здравого смысла в отношении реального мира — самый разочаровывающий аспект искусственного интеллекта первого поколения.

Нынешняя модель Nano Banana 2 претерпела значительные изменения. Как и её предшественница, Nano Banana Pro, она использует обширную базу знаний Gemini, основанную на реальном опыте, и может сочетать её с информацией из веб-поиска в режиме реального времени, что создаёт ощущение, будто вы — опытный человек со здравым смыслом.

Первое замеченное изменение заключалось в том, что оно начало лучше понимать пространство и пропорции.

▲Подсказка: На изображении над телебашней «Восточная жемчужина» возвышается гигантский, невероятно милый кот. Окружающие здания выглядят как крошечные игрушечные модели, а кот — просто огромный. Действие игры разворачивается в реалистичной городской среде. Общая атмосфера тихая, теплая, успокаивающая и очаровательная.

В приведенном выше примере ИИ точно воссоздал достопримечательности Шанхая и чрезвычайно естественно обработал свет, тень и перспективные соотношения между гигантской кошкой и миниатюрным городом.

Наиболее заметное изменение заключается в том, что оно наконец-то научилось распознавать и писать иероглифы. Например, когда его попросили написать традиционную китайскую картину тушью «Причаливание к Кленовому мосту ночью», оно не только аккуратно написало каллиграфическим почерком все стихотворение «Луна заходит, вороны кричат, иней покрывает небо» в верхней части картины, но даже композиция и художественная концепция картины были довольно хорошо переданы.

▲Конечно, есть и недостатки; если присмотреться, вверху есть лишний символ «full».

Помимо своих поэтических качеств, он также способен обрабатывать довольно сложные сценарии пользовательского интерфейса — на изображении ниже сложная полупрозрачная панель данных, плавающий список покупок и точное отображение китайского текста упорядочены искусственным интеллектом, и иерархическая взаимосвязь между информацией действительно проясняется.

▲Призыв к действию: Вид от первого лица, действие происходит в ярко освещенном проходе супермаркета. Человек держит перед камерой бутылку газировки Fanta. Яркий оранжевый напиток находится в культовой бутылке бренда, окруженной многослойным голографическим интерфейсом дополненной реальности, отображающим пищевую ценность на китайском языке, включая количество калорий, содержание сахара, уровень кофеина, индикатор свежести, срок годности и рекомендуемые рецепты освежающих напитков и варианты коктейлей на основе бренда Fanta. Панель интерфейса имеет стеклянную поверхность, мягкое рассеянное освещение, реалистичное освещение и тени, естественную глубину резкости и захватывающий интерактивный интерфейс от первого лица в разрешении 2K.

Макет японских черно-белых комиксов на разворотах чрезвычайно тщательно продуман, и при этом читать их проще простого.

▲Задание: Создайте реалистичный разворот для манга-журнала. Каждая страница должна содержать несколько панелей в стиле манги, расположенных в динамичной композиции, демонстрирующей качество профессионально напечатанной японской манги. Общий стиль должен быть черно-белым, с использованием смелых, мощных чернильных линий, растровых тонов и выразительных рисунков персонажей. Включите диалоговые облачка и китайские звукоподражания, а также передавайте действие, эмоции и ритм посредством переходов между панелями. Левая и правая страницы должны плавно перетекать друг в друга, представляясь частью одной сцены или главы. Используйте традиционные приемы съемки манги: крупные планы, общие планы, ракурсы панелей, драматические перспективы и композиции. Общее ощущение должно быть реалистичным и правдоподобным, как если бы это был разворот из настоящего манга-журнала.

В качестве альтернативы, эта китайская инфографика о «чайе кунг-фу» с пошаговыми инструкциями представляет собой визуальное решение, которое можно использовать напрямую, от компоновки до художественной концепции.

▲Задание: Красиво оформленная вертикальная инфографика о традиционной китайской чайной церемонии кунг-фу. Фоном служит традиционная китайская живопись тушью. Вверху — крупный, элегантный заголовок, написанный китайским каллиграфическим шрифтом, четко гласящий «Чай кунг-фу». Ниже показаны три иллюстрированных этапа: Шаг 1 показывает нагревание чашки кипятком, сопровождаемое китайской фразой «温杯» (нагревание чашки); Шаг 2 показывает добавление чайных листьев в гайвань (чашу с крышкой), сопровождаемое китайской фразой «投茶» (добавление чая); Шаг 3 показывает выливание чая, сопровождаемое китайской фразой «出汤» (выливание чая). Макет отличается элегантными, минималистичными и теплыми земляными тонами и сбалансированным дизайном.

Один из первых бета-пользователей Nano Banana 2 дал довольно объективную оценку: «Он не идеален, но это первая модель, которая может обрабатывать действительно сложные изображения и диаграммы с определенной степенью стабильности».

Чтобы проверить пределы понимания этой новой модели, он небрежно задал крайне сложный тестовый вопрос: «Нарисуйте мне картинку из игры „Где Уолдо?“, действие которой происходит в древней Венеции, но искомый объект не может быть человеком; это должна быть выдра в синем полосатом летном костюме».

В итоге Nano Banana 2 разгадала логику, не только избежав ошибок в рисунке, но и дав убедительный ответ.

Помиритесь поскорее, чтобы нам больше не пришлось выбирать что-то одно?

Помимо понимания здравого смысла, еще одним важным преимуществом этого обновления Nano Banana 2 является мощная функция «субъективной согласованности».

В процессе одной генерации он может сохранить черты лица до 5 персонажей или внешний вид 14 предметов. Это означает, что вы можете уверенно использовать его для рисования комиксов или создания раскадровок для фильмов.

Более того, качество изображения достаточно высокое для непосредственного использования в работе.

Он может обрабатывать изображения любого размера, от 512 пикселей до постеров сверхвысокой четкости 4K. Введите запрос "чунцинский хот-пот", и он сгенерирует сцену ночной дождливой улицы в стиле киберпанка, с тщательной проработкой деталей мокрого асфальта, отражений красных и синих неоновых огней и вывески "Открыто 24 часа".

▲Название: Кинематографическая уличная фотография оживленного азиатского города дождливой ночью. На старом здании висит огромная светящаяся красная неоновая вывеска с надписью «Чунцинский хот-пот». Ниже, на меньшей синей неоновой вывеске, написано «Открыто 24 часа – Добро пожаловать». Мокрый асфальт отражает неоновые огни.

Благодаря высокой цветовой насыщенности, он также хорошо подходит для стиля поп-арт.

Или, возможно, вот такой модный фотосет, в котором есть доля абсурда, но при этом он источает ощущение роскоши:

▲Советы: Эта высококачественная фотография, сделанная с высоты птичьего полета, снята на камеру LOMO Ic-a. Земля покрыта бесчисленными черно-белыми рекламными щитами с изображениями красивых моделей, а на вершине этих щитов стоит невероятно красивая китайская киноактриса в длинном черном пальто.

В этом примере, снятом с высоты птичьего полета, искусственный интеллект мастерски смоделировал уникальную текстуру старинной LOMO-камеры. Актриса стоит одна на земле, покрытой черно-белыми плакатами, создавая мощное кинематографическое напряжение и сильное ощущение повествования.

Однако, у этого подхода есть и очевидные недостатки. Когда в одной и той же реальной сцене в кофейне пытаются изобразить персонажей аниме, карандашные наброски и нендороидов, интеграция набросков выглядит очень неуклюже, а переходы по краям недостаточно естественны.

Очевидно, что с точки зрения межпространственного слияния данных, этот подход гораздо менее естественен, чем модели предыдущего поколения, и здесь еще есть возможности для улучшения.

▲Ключевое слово: Фотография обычной сцены в оживленном кафе, где подают завтрак. На переднем плане — аниме-персонаж с синими волосами, один из людей — карандашный набросок, другой — персонаж из пластилиновой анимации.

На самом деле, несмотря на восторженные отзывы в официальном блоге о Nano Banana 2 (Gemini 3.1 Flash Image), фактическое качество и скорость обработки изображений не показали заметного улучшения, а в некоторых сценариях даже уступали моделям предыдущего поколения.

Реально популярным Nano Banana 2 стало чрезвычайно доступное соотношение цены и качества.

Начиная с сегодняшнего дня, вы можете легко использовать его в приложении Gemini и в поисковой строке Google. Обычные пользователи без подписки могут получить 100 бесплатных билетов в течение 24 часов, а подписчики Pro — до 1000 билетов.

Для разработчиков стоимость API снизилась вдвое, теперь она составляет лишь половину цены предыдущей модели Pro. Это означает, что стоимость генерации одного изображения высокого разрешения 4K составляет около 0,15 доллара.

▲ Предоставлена ​​ссылка: https://ai.google.dev/gemini-api/docs/pricing#gemini-3.1-flash-image-preview

Конечно, чем больше искусственный интеллект способен массово производить изображения высокого разрешения с чрезвычайно низкими затратами и скоростью, тем больше беспокойства испытывают люди. В условиях наводнения интернета поддельными изображениями поговорка «лучше один раз увидеть, чем сто раз услышать» больше не актуальна. Если кто угодно может за секунду создать практически неотличимую от оригинала фотографию, как мы сможем отличить одно от другого?

Компания Google прекрасно об этом осведомлена, поэтому она соответствующим образом усовершенствовала свою технологию защиты от подделок. Nano Banana 2 дополнительно расширяет поддержку цифровых водяных знаков SynthID и учетных данных контента C2PA, что позволяет более четко определить, создано ли изображение с помощью ИИ и как оно было изменено.

Согласно статистике, с ноября прошлого года эта функция верификации в Gemini была вызвана более 20 миллионов раз.

Развитие графики на основе искусственного интеллекта за последние два года действительно впечатляет. Мы испытали первоначальное восхищение от Nano Banana Pro, а также столкнулись с утомительной настройкой и долгим ожиданием. Появление Nano Banana 2 — это попытка еще больше сочетать качество и скорость, значительно снижая порог вхождения для пользователей.

Идея, которая внезапно приходит вам в голову, больше не требует многократных доработок и томительного ожидания. В тот момент, когда вы нажимаете Enter, она уже там. Естественно, просто и мгновенно доступно — звучит обыденно, но на самом деле это довольно удивительно.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo