Только что вышла версия Nano Banana от OpenAI: Ультрамен мгновенно превращается в сексуальную мужскую модель с реальными результатами тестирования.

Ажиотаж вокруг GPT-4o в первой половине года не только позволил Ультрамену ощутить на себе преимущества графических процессоров, но и сделал качество изображения и визуальную составляющую практически стандартными преимуществами всех крупных моделей.
Но во второй половине этого года по-настоящему заявил о себе тот самый «банан»: Nano Banana.
Стремясь вернуть себе лидирующие позиции, OpenAI сегодня официально представила свою новейшую модель обработки изображений GPT-Image-1.5. Это еще один важный шаг в рамках инициативы OpenAI «Красная тревога», следующий за моделью GPT-5.2.

Версия с функцией экономии данных выглядит следующим образом:
- Более точное выполнение инструкций
- Более точное редактирование
- Сохранены более полные детали.
- В четыре раза быстрее, чем раньше
Попрощайтесь с мистическими аспектами гача-розыгрышей и откройте для себя максимальные возможности редактирования!
Самое значительное улучшение в GPT-Image-1.5 — это "точное редактирование".
Раньше использование ИИ для редактирования изображений было похоже на общение со стилистом, который не понимает человеческий язык. Вы могли просто захотеть поправить чёлку, а он бы сбрил вам волосы налысо. Теперь же модель наконец-то понимает человеческий язык. Она корректирует именно то место, где вы хотите внести изменения.
Освещение, композиция и особенности персонажей остаются неизменными на протяжении всего процесса ввода, вывода и последующего редактирования.
Звучит абстрактно? Взгляните на официальный пример.
- Совместите двух мужчин и собаку с фотографией детского дня рождения в стиле фильмов 2000-х годов →
- Добавьте шумных детей, бросающих предметы на заднем плане →
- Измените стиль изображения мужчины слева на ретро-рисунок, выполненный от руки, а собаку — на плюшевую игрушку, оставив мужчину справа и фон без изменений.
- Наденьте на всех свитера OpenAI →
- В итоге оставили только собаку, а отснятый материал включили в прямую трансляцию OpenAI…

После ряда действий логика отображения на экране не дала сбоя. Это показывает, что GPT-Image-1.5 больше не полагается на догадки, а действительно понимает структуру экрана и может выполнять операции CRUD. Способность точно и надежно изменять контент является его нынешним технологическим конкурентным преимуществом.
Давайте рассмотрим еще несколько случаев из моих реальных тестов.
Возможно, вы видели шедевр «Панорама рек и гор», но могли упустить некоторые детали.

Точно так же, кто сказал, что сиба-ину по кличке Кабосу, прибывший из современной эпохи, не может внезапно появиться на картине «Сто лошадей»?

Даже предстоящий поединок в клетке между Маском и Цукербергом был успешно преобразован в образ Ультрамена с помощью GPT-Image-1.5. Лица выглядели гармонично, а несоответствие практически отсутствовало.

Нам нужна очень подробная, реалистичная фотография, сделанная с крайне низкого ракурса, на которой Маск сидит на берегу Жемчужной реки, положив одну руку на шпиль Кантонской башни. Чтобы подчеркнуть огромные размеры объекта, нам также нужно разместить вокруг его ног крошечные лодки и туристов.
В результате оно действительно усвоило значение слова «пропорция».

▲ Задание: Очень детальная и реалистичная фотография, сделанная с крайне низкого ракурса. Илон Маск сидит на берегу Жемчужной реки, положив одну руку на шпиль Кантонской башни. Чтобы подчеркнуть его огромные размеры, вокруг его ног можно добавить небольшие лодки и туристов. 2K, 16:9
Наконец-то я перестал рисовать эти "каракули", но мой китайский язык всё ещё…
По сравнению с исходной моделью изображения, GPT-Image-1.5 лучше справляется с выполнением сложных и подробных инструкций и может поддерживать заданные взаимосвязи между элементами.
В официальном примере представлена сетка 6×6, где каждая строка должна быть расположена в соответствии с заданным содержимым: греческими буквами, животными, предметами, иконками и словами. Модель упорядочена таким образом, что понравится даже людям с обсессивно-компульсивными наклонностями.

После проведенных испытаний преобразование контурных рисунков в реалистичные изображения стало базовой операцией.

Возможности рендеринга текста также были дополнительно улучшены, что позволяет лучше обрабатывать плотный контент с мелким шрифтом. Например, документ Markdown может быть отрисован в соответствии с макетом газетной статьи, включая примечания к выпуску GPT-5.2, сравнения производительности и т. д., при этом сохраняя целостность и точность форматирования и цифр.

Эта возможность может показаться незначительной, но она абсолютно необходима пользователям, которым нужно создавать плакаты, рекламные изображения и инфографику.
До появления Nano Banana Pro рендеринг текста с помощью генеративного ИИ был до смешного абстрактным; теперь же он наконец-то читабелен. Однако, к сожалению, это не совсем так: хотя возможности GPT-Image-1.5 в английском языке действительно впечатляют, его производительность в китайском языке остается катастрофической.
Я попросил его нарисовать китайский комикс о том, как «Оптимус Прайм покоряет Марс», и он создал для вас марсианский язык.

В качестве альтернативы, можно было бы создать изображение древнего человека, пишущего на стене «Шуйдяо Гетоу», с многочисленными ошибками в тексте и способом держать перо, как будто это перьевая ручка.

К счастью, скорость генерации в 4 раза выше. Пока выполняется одна задача, можно одновременно запускать несколько новых задач, что значительно снижает затраты на пробные попытки. Знание объектов также достаточно хорошее; на вопрос о том, что произойдет, если добавить соль к яйцу в воде, сгенерированное изображение получается вполне приличным.

▲Левое изображение — исходное, а правое — сгенерированное. Подсказка: если добавить в воду много соли, получится изображение, показывающее, что происходит с яйцом.
Блогер @Yuchenj_UW считает, что эффект генерации изображений в GPT Image 1.5 примерно сопоставим с Nano Banana Pro, но его «интеллектуальные/логические способности» значительно уступают Nano Banana Pro, особенно в математических задачах (и других задачах по физике/лабиринтам).

Вашему следующему дизайнеру не обязательно быть человеком. ChatGPT готов конкурировать.
Компания OpenAI также создала специальный портал для создания изображений в ChatGPT.
Этот новый раздел можно найти в боковой панели как на сайте, так и в мобильном приложении. Он содержит предустановленные фильтры и популярные ключевые слова, и регулярно обновляется. Загрузите свой портрет один раз, и на каждой фотографии будете вы; нет необходимости загружать изображения повторно.
Честно говоря, в Nano Banana этой функции нет, но отечественные модели обработки RAW-изображений уже давно её широко используют. В каком-то смысле GPT-Image-1.5 тоже учится на собственном опыте, перенимая опыт своих отечественных аналогов.
Только что Ультрамен также поделился в социальных сетях фотографиями мужских моделей для сексуального рождественского календаря, который он создал с помощью GPT-Image-1.5.

Раз уж мы здесь, решили подарить Ультрамену несколько разных вариантов внешнего вида. Наклейки, фигурки с качающейся головой, эскизы — предсказывается, что после сегодняшнего дня Ультрамен снова станет самым занятым человеком в интернете.

Один из моментов, заслуживающих похвалы, — это то, что OpenAI публично предоставляет предопределенные подсказки при запросе на генерацию готового решения. В этом отношении OpenAI действительно воплощает принцип открытости.

Кроме того, создание поздравительных открыток, обложек альбомов, реставрация старых фотографий и профессиональная фотосъемка для заявлений о приеме на работу — все это очень практичные предустановленные функции. Например, классическая фотография Лу Синя и Тагора после реставрации выглядит довольно хорошо.

В своем блоге генеральный директор OpenAI Фиджи Симо написала: «Человеческая мысль состоит не только из слов. На самом деле, наши самые креативные идеи часто зарождаются из образов, звуков, действий или закономерностей в нашем сознании».
Она рассказала, что ChatGPT трансформируется из реактивного, текстоцентричного продукта в более интуитивно понятный инструмент, лучше отвечающий различным задачам. Переход от чисто текстового интерфейса к мультимедийному и динамическому — важный шаг в этой эволюции.
Многие пользователи впервые знакомятся с ChatGPT, создавая изображения из текста. Этот процесс «превращения текста в изображения» кажется волшебным, но интерфейс чата ChatGPT изначально не был предназначен для этого. Создание и редактирование изображений — это совершенно разные задачи, требующие специального визуального пространства.

Компания OpenAI даже создала специальную точку входа для этой технологии, предоставив процессу генерации изображений более творческую среду, напоминающую студию.
На этом план не заканчивается.
OpenAI добавит больше визуальных элементов для оптимизации общего взаимодействия с ChatGPT. В будущих результатах поиска будет больше изображений и понятных источников. Для таких задач, как преобразование единиц измерения или проверка спортивных результатов, необходимы наглядные визуализации, а не просто текстовые описания.

Даже сам процесс написания текста меняется. В будущем встроенный модуль для написания текстов позволит редактировать сообщения непосредственно в чате, экспортировать их в PDF одним щелчком мыши или отправлять по электронной почте. ChatGPT — это уже не просто языковая модель; он превращается в настоящую мультимодальную рабочую среду.
Разумеется, помимо обычных пользователей, разработчики также могут использовать GPT-Image-1.5 через API.
По сравнению с GPT-Image-1, GPT-Image-1.5 обладает более выраженным фирменным стилем и ключевыми визуальными характеристиками, что делает его подходящим для таких сценариев, как электронная коммерция и брендинговый маркетинг, требующих генерации большого количества вариантов изображений. Стоимость ввода и вывода изображений снижается на 20%, что позволяет генерировать больше изображений при том же бюджете.

Снижение цен в сочетании с повышением эффективности — такое сочетание мер весьма результативно.
Кроме того, на прошлой неделе Disney объявила об инвестициях в размере 1 миллиарда долларов в OpenAI и о заключении партнерского соглашения. В рамках этого трехлетнего лицензионного соглашения модели Sora и генерации изображений от OpenAI смогут создавать персонажей из Disney, Marvel, Pixar и Star Wars, а официальный запуск этой функции запланирован на начало следующего года.

Сочетание интеллектуального контента и генерации искусственного интеллекта открывает огромные возможности.
Что еще более важно, выпуск GPT-Image-1.5 знаменует собой трансформацию инструментов генерации изображений из «игрушек» в «инструменты».
Большинство представленных на рынке инструментов для редактирования изображений с использованием ИИ дают сбой, как только вы начинаете редактировать, и не обеспечивают абсолютно никакой стабильности.
GPT-Image-1.5, по крайней мере, сделал уверенный шаг в этом направлении. В нем появляются возможности постобработки, позволяющие контролировать детали, аналогичные Nano Banana Pro, обеспечивая согласованность изображения.
Учитывая относительно слабые возможности модели, более обширные предустановки генерации изображений и настройки функций GPT-Image-1.5 делают его хорошим контрмером против нового Nano Banana.
Специализированные порталы для создания изображений, библиотеки предустановленных фильтров и другие, казалось бы, незначительные конструктивные решения точно отвечают потребностям обычных пользователей. Многим людям не нужны самые мощные модели; им нужны инструменты, которые «быстро осваиваются, не требуют повторных настроек и дают результаты, практически идентичные оригиналу».
Лидерство в возможностях модели — это только первый шаг; настоящая защита заключается в том, как преобразовать эти возможности в удобные, простые в использовании и полюбившиеся пользователям продукты.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.
ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo