Nano Banana Pro произвел сенсацию поздно вечером, но самым ярким событием стали не изображения, созданные искусственным интеллектом.

21 ноября, 2025 Дядя Влад

Ультрамен переживает свой самый темный час.

Наступление Google на ИИ не ослабевает. Если несколько дней назад Gemini 3 Pro серпом добрался до фронтенда, то сегодня индустрия дизайна переживает настоящий переворот: недавно выпущенный Nano Banana Pro (Gemini 3 Pro Image) вновь наносит мощный удар по возможностям генерации изображений.

Рабочие места младших дизайнеров, вероятно, находятся под угрозой.

Основные функции следующие:

Поддержка разрешений: может выводить изображения с разрешением 1K, 2K и 4K.
Многоэтапное редактирование: поддерживает диалоговые многоэтапные процессы редактирования изображений.
Синтез нескольких изображений: до 14 входных изображений можно объединить в одно выходное изображение.
Улучшение поиска: интегрирует возможности поиска Google для предоставления более точной и актуальной поддержки знаний.

Больше никаких догадок! Nano Banana Pro наконец-то научился думать, прежде чем рисовать.

Отличительными особенностями Nano Banana являются высокая степень согласованности персонажей и редактирование диалогов, в то время как основная эволюция Nano Banana Pro заключается в полной интеграции возможностей глубокого мышления Gemini 3 в процесс создания изображений.

Перед генерацией изображения он выполняет физическую симуляцию и логический вывод, а не просто «угадывает» на основе визуальных образов.

▲Подсказка: нарисуйте четырёхпанельное изображение, на каждом из которых изображён один и тот же молодой человек в соломенной шляпе, произносящий слова «I», «up», «early» и «eight». Внешний вид мужчины должен быть одинаковым, движения его губ должны точно соответствовать произношению каждого слова, а общий стиль должен быть единым. Соотношение сторон 16:9, 4K.

Кросс-модальное понимание также более полно демонстрируется в Nano Banana Pro.

Благодаря расширенным возможностям многоязыкового мышления Gemini 3 вы можете напрямую генерировать текст на нескольких языках или локализовать и переводить свой контент одним щелчком мыши.

Друг прислал мне комикс и попросил модель раскрасить его и перевести английский текст в речевых пузырях на китайский. Nano Banana Pro раскрасил его аккуратно, с естественным освещением и точным распознаванием текста. Расположение английского текста также идеально соответствовало форме речевых пузырей. Весь процесс, от распознавания до перевода и перестановки, был плавным, как будто устройство действительно «понимало» изображение.

▲Подсказка: переведите текст на изображении на китайский язык и раскрасьте его, оставив все остальное без изменений.

В качестве альтернативы, многоязычные комиксы, международные плакаты и рекламные материалы, которые дизайнерам раньше приходилось многократно корректировать, теперь могут быть обработаны ИИ за один шаг. Например, модель может перевести английский текст с английского плаката на китайский. Эта непрерывная обработка данных от распознавания и перевода до дизайна — как раз и есть самый мощный аспект нативной мультимодальной архитектуры.

Что касается возможностей генерации текста, Nano Banana Pro демонстрирует исключительные результаты. Будь то короткий слоган или целый абзац, текст читается чётко и даже поддерживает мелкозернистую верстку с различными текстурами, шрифтами и стилями каллиграфии.

▲Ключевые слова: Иллюстрации выполнены в стиле древнекитайских книжных иллюстраций. Гуань Юй изображен сидящим у масляной лампы в боевом одеянии с широкими рукавами, с сосредоточенным и умиротворенным выражением лица. На столе лежат бамбуковые листки «Весенних и осенних летописей», позолоченный нож, кисть и другие предметы, выполненные тонкими линиями, сохраняющими стиль древней печати. Фон лаконично очерчен несколькими штрихами, изображающими угол, ширму и оружейную стойку – просто, но в то же время наполненными старинным очарованием. Цветовая гамма преимущественно светлая охра, серые чернила и бледно-голубой, передающие культурный колорит и историческую атмосферу древних книжных иллюстраций, в соотношении 4:3.

Ограничение в 64 КБ входных токенов позволяет распознавать очень длинные текстовые подсказки. Это позволяет лучше понимать всё: от подробных раскадровок до сложных требований к многоязычному форматированию.

▲Задание: Создайте старинную картину в разрешении 4K со следующей надписью: «Когда луна станет ясной и яркой? Я поднимаю чашу, чтобы спросить небеса. Интересно, какой сегодня год в небесном дворце? Я жажду оседлать ветер и вернуться, но боюсь нефритовых башен и хрустальных дворцов, где на такой высоте невыносим холод. Я танцую со своей тенью, как это не похоже на мир людей! Луна проходит сквозь красный павильон, освещает вышитые окна, освещая мою бессонницу. Не должно быть обид, но почему луна всегда полная, когда мы в разлуке? У людей есть горе и радость, разлука и воссоединение; у луны есть свои фазы роста и убывания, и эти явления всегда были несовершенны. Я лишь хочу, чтобы мы все жили долго и наслаждались красотой луны, даже издалека».

Решая давнюю проблему низкого разрешения предыдущей версии, Nano Banana Pro повышает качество изображения до 4K и позволяет свободно настраивать любое соотношение сторон. Кинопостеры, широкоэкранные обои и вертикальные макеты панелей можно создавать напрямую.

Nano Banana Pro также поддерживает комбинированное редактирование до 14 входных изображений, сохраняя при этом единообразие внешнего вида до 5 символов.

Благодаря многопоточным диалоговым возможностям пользователи могут непрерывно корректировать и интегрировать различные материалы до достижения желаемого эффекта. Переход от концепции к готовому продукту легко осуществим, будь то превращение эскизов в готовые изделия или чертежей в реалистичные трёхмерные здания.

▲Подсказка: Дораэмон и Ли Бай пьют под луной. Полная луна висит высоко, рядом возвышаются старинные павильоны и башни. Дораэмон одет в одежду династии Тан, Ли Бай держит кувшин с вином, а на каменном столе расставлены сосуды с вином. Сцена возвышенная, сочетающая в себе китайский и японский стили искусства и пронизанная изысканными деталями.

Еще более продвинутой является способность контролировать творческие идеи на профессиональном уровне.

Вы можете выбрать, настроить или преобразовать любую часть изображения, от настройки угла обзора объектива и фокусировки до применения расширенной цветокоррекции и даже изменения освещения сцены, например, превращения дня в ночь или создания эффекта боке. Эти задачи, которые раньше требовали кропотливой работы в Photoshop, теперь можно выполнить всего одним предложением.

▲Советы: Преобразите [камеру] из загруженной фотографии в яркий, красочный мультяшный стиль, сохранив при этом остальную часть фотографии реалистичной и неизменной. Детали мультяшного стиля: толстые чёрные контуры, яркие плоские цвета (например, ярко-голубой, пурпурный, жёлтый, розовый), эффекты стекающей краски и брызг, игривая энергия комиксов. Большинство капель стекают вниз. Мультяшный объект должен выглядеть так, будто он тает или взрывается цветами, естественно сливаясь с реальной фотографией. Сохраняйте все остальные элементы (фон, другие объекты, окружение) фотореалистичными без изменений. Высокое разрешение, эстетика поп-арта, сюрреалистический контраст между реализмом и мультяшностью.

Поиск + Сгенерировать = ? Google дает окончательный ответ.

Если поиск — это «левое полушарие» Gemini 3, то генерация изображений — его «правое полушарие».

Это также самая недооценённая, но при этом революционная функция архитектуры Nano Banana Pro (образ Gemini 3 Pro). Традиционный поиск включает в себя поиск пользователя, предоставление ссылки поисковой системой, переход пользователя на веб-сайт и предоставление веб-сайтом интерфейса. Однако в Nano Banana Pro реализованы функции улучшения поиска (Grounding with Search).

Когда пользователь запрашивает визуальное изображение, демонстрирующее его двухдневную поездку в Гуанчжоу, Nano Banana Pro генерирует изображение, включающее подробную карту маршрута, аннотации на китайском и английском языках, а также фотографии достопримечательностей.

Например, Nano Banana Pro может извлекать из результатов поиска последние данные о погоде на основе подсказок, а затем преобразовывать ключевые данные, такие как температура, скорость ветра, влажность и погодные тенденции, в яркий и хорошо продуманный визуальный контент.

▲ Подсказка: Найдите информацию о погоде в Гуанчжоу в режиме реального времени и создайте инфографику в стиле китайского поп-арта, 4:3

Эта возможность важна, поскольку она обеспечивает процессу создания фактическую основу, обновления в режиме реального времени и проверяемость. Можно с уверенностью сказать, что поиск действительно оправдывает репутацию Google как грозной силы, как с точки зрения технологической глубины, так и понимания предмета.

Что касается позиционирования продукта, Google выбрала стратегию двойной модели: старая версия Nano Banana предназначена для быстрого и удобного повседневного редактирования, а Nano Banana Pro ориентирована на профессиональные потребности, такие как создание сложных композиций и первоклассное качество изображения. Пользователи могут свободно выбирать в соответствии со своими потребностями.

Для обычных пользователей и студентов Nano Banana Pro теперь доступен по всему миру в приложении Gemini. Чтобы использовать его, просто выберите «Создать изображение» и включите режим «Размышления». Пользователи бесплатной версии получат ограниченный кредитный лимит, по истечении которого они автоматически вернутся к оригинальной версии Nano Banana.

Подписчики Google AI Plus, Pro и Ultra получают ещё более высокие тарифы. В США пользователи Pro и Ultra уже могут попробовать Nano Banana Pro в режиме искусственного интеллекта Google Поиска. Nano Banana Pro в NotebookLM также доступен подписчикам по всему миру.

Стоит отметить, что Google придерживается двоякого подхода к вопросу прозрачности ИИ.

Весь контент, созданный с помощью ИИ, будет снабжаться невидимым цифровым водяным знаком SynthID, и теперь пользователи смогут напрямую загружать изображения в приложение Gemini и спрашивать, были ли они созданы с помощью Google AI. Вскоре эта возможность будет распространена на аудио и видео.

Теперь, когда Nano Banana Pro стал настолько мощным, возникает вопрос: как обычные люди могут максимально использовать его возможности?

Беа Алессио, менеджер по продукту в Google DeepMind, предоставила подробное руководство пользователя, раскрывающее множество важной информации. Самый простой способ использования — просто сказать что-нибудь и позволить модели угадать, что вы хотите. Но если вы хотите достичь профессионального уровня, нужно мыслить как режиссёр.

Полное ключевое слово должно содержать шесть элементов: тему (кто или что), композицию (как построить кадр), действие (что происходит), обстановку (где), стиль (какая эстетика) и инструкции по монтажу (как изменить).

Если вам нужен более точный контроль, вам необходимо дополнительно уточнить: соотношение сторон (вертикальный постер 9:16 или кинематографический широкоэкранный 21:9), параметры объектива (малый угол, малая глубина резкости f/1.8), детали освещения (золотой момент подсветки, удлиненные тени), направление цветокоррекции (кинематографическая цветокоррекция, склоняющаяся к голубым и зеленым тонам), а также конкретное содержание и стиль текста.

Вот официальный адрес блога: https://blog.google/products/gemini/prompting-tips-nano-banana-pro/

Именно этот стиль подсказок, напоминающий «руководство по фотографии», отличает Nano Banana Pro от традиционных моделей генерации изображений. Он действительно понимает эти технические термины и точно переводит их в визуальный формат.

Увидев это, нетрудно понять, что пытается донести компания Google, оглядываясь на серию продуктов, выпущенных ею за последние несколько дней.

Будь то предварительная версия Gemini 3 Pro, выпущенная несколько дней назад, или представленный сегодня Nano Banana Pro, Google пытается доказать миру, что путь к ИИОН (искусственному интеллекту общего назначения) должен быть мультимодальным и нативным.

Только модель, которая может видеть, слышать, понимать структуру и логику процесса, может полноценно «думать» о мире.

С технической точки зрения серия моделей Nano Banana официально ознаменовала переход на этап «сначала понимание, потом выражение» в создании изображений.

Когда ИИ начинает понимать пути лабиринта, структуру объектов, значение текста и даже логику взаимодействия с пользовательским интерфейсом, он перестает быть просто инструментом рисования, а становится интеллектуальным агентом с возможностями визуального мышления.

С точки зрения бизнеса, чрезвычайно низкие затраты на обоснование и появление генеративных пользовательских интерфейсов коренным образом изменят логику производства контента и распространения информации. Интернет прошлого состоял из фиксированных веб-страниц, тогда как интернет будущего, скорее всего, будет состоять из интерфейсов, которые будут развиваться в режиме реального времени в соответствии с вашими потребностями.

Дизайн больше не будет исключительно человеческим делом, а интерфейсы — результатом многоуровневой доработки командой. Всё больше визуального контента будет сначала передаваться ИИ, а затем дополняться или дорабатываться людьми. Google чётко предвидела этот новый мир и начинает приближать к нему всех.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (WeChat ID: ifanr), где вы сможете как можно скорее получить еще больше интересного контента.

ifanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo