Загадочный ИИ «Banana» официально доступен! Новый король фоторедактирования от Google взрывается поздней ночью Вот как это сделать

Помните загадочную модель искусственного интеллекта для редактирования изображений «нано-банан», о которой все говорили раньше?

Несколько дней назад мы провели несколько раундов тестирования на большой языковой модели арены LMArena , и результаты были превосходными.

Теперь Google наконец раскрыл свои секреты.

▲ Логан Килпатрик, глава Google AI Studio, написал в Твиттере об официальном запуске модели Gemini 2.5 Flash Image.

Google официально запустила Gemini 2.5 Flash Image — свою самую передовую модель создания и редактирования изображений.

▲ Занимает первое место во многих списках, особенно в списке LMArena, где он почти на первом месте

В обновленном техническом блоге Google упомянула, что предыдущая версия Gemini 2.0 Flash пользовалась популярностью у разработчиков за низкую задержку и высокую экономическую эффективность при создании изображений, но пользователи также с нетерпением ждут более качественных изображений и более мощных функций управления творчеством .

Gemini 2.5 Flash Image отвечает этим ожиданиям серией крупных обновлений.

Как и в нашем предыдущем опыте, основные особенности образа Gemini 2.5 Flash включают в себя следующее:

  1. Поддержание полной согласованности ролей
  2. Редактирование изображений с помощью подсказок
  3. Использование реальных знаний Близнецов
  4. Слияние нескольких изображений

Одна картинка рассказывает историю: меняйте персонажей и сцены по своему усмотрению.

Одной из самых серьёзных проблем предыдущих инструментов рендеринга на базе ИИ была сложность поддержания единообразия в рендеринге персонажей и объектов. Мы все сталкивались с этим: когда пытались визуализировать одного и того же персонажа в разных сценах, стиль рендеринга резко менялся, и каждый раз персонаж выглядел совершенно по-другому.

Gemini 2.5 Flash Image полностью решает эту проблему.

▲ Источник изображения: X@geminiap

Он позволяет легко разместить одного и того же персонажа в разных условиях или показать один и тот же продукт с разных ракурсов, сохраняя при этом основную тему неизменной. Google отметила, что это, несомненно, революционная функция для сценариев, где требуется рассказать непрерывную историю, создать контент для серий брендов или каталогов продуктов.

Для демонстрации этой возможности Google AI Studio также предоставляет шаблон приложения, чтобы разработчики могли быстро приступить к работе и даже выполнить на его основе вторичную разработку.

▲ Адрес опыта: https://aistudio.google.com/apps/bundled/past_forward

В этом опытном проекте нам не нужно вводить никаких подсказок, просто загрузите портретную фотографию, и она вызовет последнюю модель изображения, чтобы сгенерировать для нас фотографии разных лет, например с 1976 по 1990 год.

Когда Маск увидел, какой он красивый, он, должно быть, подумал: «Мой Грок тоже так может».

Редактируйте фотографии одним предложением на естественном языке

Помимо обеспечения высокой согласованности генерации персонажей, особое внимание уделяется точности редактирования. Gemini 2.5 Flash Image позволяет нам вносить точные локальные изменения в изображения с помощью простых команд на естественном языке.

Например, размыть фон на фотографии, удалить пятна с футболки, убрать кого-то с групповой фотографии, изменить позу человека, раскрасить черно-белую фотографию…

Всё это больше не требует сложных и утомительных профессиональных программных операций. Нам достаточно одним предложением объяснить ИИ, что мы хотим сделать, как в чате.

Это тот же опыт, который мы уже имели в LMArena, где мы также изменили стиль фотографии с черно-белой на цветную и внесли в фотографию небольшие изменения.

▲ Источник изображения: X@geminiapp

Компания Google также разработала простое приложение, которое поможет нам лучше освоить редактирование изображений с помощью подсказок, но его эффект полностью сопоставим с эффектом программного обеспечения PS.

▲ Адрес приложения: https://aistudio.google.com/apps/bundled/pixshop

Вы не только можете рисовать, но и «понимать» мир.

Хотя модели изображений в прошлом могли создавать прекрасные картины, им часто не хватало глубокого семантического понимания реального мира.

Gemini 2.5 Flash Image использует мощную базу знаний Gemini, чтобы сделать генерацию изображений более «интеллектуальной».

Это означает, что модель может не только понимать наши неряшливые нарисованные от руки диаграммы, но и отвечать на вопросы, связанные с реальным миром, и выполнять сложные инструкции по редактированию за один шаг.

▲ Адрес опыта: https://aistudio.google.com/apps/bundled/codrawing

Очень похоже на мультимодальное мышление. Google продемонстрировала интерактивное образовательное приложение в AI Studio, которое превратило простой холст в интеллектуального наставника, способного отвечать на вопросы. Я искренне восхищаюсь мощью этой модели.

Слияние изображений: легко создайте «бесшовный» коллаж

Новая модель также предлагает интересную функцию — слияние нескольких изображений. Мы можем «помещать» объекты одного изображения в сцену другого или использовать стиль одного изображения для рендеринга другой комнаты, и весь процесс можно завершить одной командой.

Это также приложение с шаблоном в Google AI Studio. Достаточно просто перетащить продукт в новую сцену, чтобы быстро создать объединенное изображение, которое выглядит цельным и как настоящая фотография.

▲ Адрес опыта: https://aistudio.google.com/apps/bundled/home_canvas

В этом шаблоне нам даже не нужно вводить никаких подсказок. Мы можем просто перетащить объект в определённое место на изображении сцены, и он автоматически сгенерирует объединённое изображение.

Как начать?

В дополнение к шаблонным приложениям в Google AI Studio, о которых мы упоминали ранее.

В настоящее время доступ к образу Gemini 2.5 Flash можно получить через приложение Gemini, API Gemini, Google AI Studio и Vertex AI.

Что касается вызова API, то конкретная цена составляет 30 долларов США за миллион выходных токенов. Согласно официальному описанию, генерация изображения потребляет около 1290 выходных токенов, что означает стоимость каждого изображения около 0,039 доллара США, что составляет менее 0,3 юаня в юанях.

Стоит отметить, что все изображения, созданные или отредактированные с помощью Gemini 2.5 Flash Image, будут содержать невидимый цифровой водяной знак SynthID, который позволит идентифицировать их как контент, созданный или отредактированный с помощью ИИ.

Это те же самые учетные данные контента C2PA (Content Provenance and Authenticity Alliance), которые Google использовала, когда несколько дней назад выпустила серию мобильных телефонов Pixel 10 и рассказывала об инструменте для редактирования изображений на базе ИИ Ask Photo.

Наконец, компания Google также упомянула, что она прилагает все усилия для улучшения производительности модели при рендеринге длинных текстов , стабильности согласованности символов и достоверности деталей изображений.

Короче говоря, выпуск Gemini 2.5 Flash Image вывел инструмент обработки изображений на базе ИИ на большой шаг вперед: от простой игрушки для рисования до по-настоящему практичного инструмента для творчества и повышения производительности.

Это не только решает многие проблемы, с которыми мы сталкивались при использовании рисования с помощью ИИ в прошлом, но и предлагает более интересные и практичные новые способы игры.

До того, как появилась функция генерации 40 изображений, я видел, как многие приложения фокусировались на ежедневной генерации стихотворения из одного изображения. Были и такие приложения, как CapWords, получившие в этом году премию Apple Design Award. Сфотографируйте свою повседневную жизнь и выучите новый язык в реальной жизни…

Мне не терпится увидеть, какие новые приложения будут созданы на основе модели Gemini 2.5 Flash Image.

#Приглашаем вас следить за официальным публичным аккаунтом WeChat проекта iFaner: iFaner (WeChat ID: ifanr), где в ближайшее время вам будет представлен еще более интересный контент.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo