Раскрыты таинственные детали оборудования OpenAI. Я использовал ИИ, чтобы восстановить реальную машину и внедрить в нее дизайн Apple

Недавно появилось загадочное устройство на базе искусственного интеллекта , которое привлекло внимание пользователей сети. Его сценарии использования и частота использования сопоставимы с iPhone и MacBook, но у него нет экрана, и это не очки с искусственным интеллектом, наушники с искусственным интеллектом, пин-код с искусственным интеллектом или iPod… Руководитель, стоящий за ним, даже пообещал «выпустить 100 миллионов единиц».

Трудно предположить, с каким именно «аппаратным обеспечением, открывающим новые пути» , io-компания, совместно основанная генеральным директором OpenAI Альтманом и бывшим главным дизайнером Apple Айвом, использовала ИИ для экспериментов!

Поэтому, хотя Ultraman и раскрыл планы официального выпуска продукта в конце следующего года, многие пользователи сети X уже начали думать об использовании ИИ для «угадайки» картинки . А что, если ему известна какая-то «инсайдерская информация», да?

Подробная информация о первом аппаратном устройстве io приведена ниже:

  1. Экран отсутствует, взаимодействие с внешней средой осуществляется через встроенную камеру и микрофон.
  2. Дизайн похож на iPod Shuffle.
  3. Он не использует очки ИИ, смартфоны, наушники и другие популярные формы оборудования ИИ.
  4. Больше, чем AI pin
  5. С дизайном халтер-холки
  6. Возможность подключения к смартфонам и ПК.

Без лишних слов давайте взглянем на «фотографии io-продуктов», опубликованные блогером Беном Гескином, создающим искусственный интеллект, на X. Посмотреть их пришли почти 9000 пользователей сети X.

Подводя итог, можно сказать, что на приведенной выше фотографии не только отражены эти основные откровения, но и изображен логотип спонсора OpenAI, а также представлен необычный форм-фактор оборудования ИИ — в конце концов, он чем-то напоминает более распространенные бритвы, массажеры и внешние аккумуляторы…

Бен Гескин В разделе комментариев к этому посту другие пользователи сети X по очереди публиковали другие стили «фотографий продуктов io».

«GPT-версия Apple Watch», созданная OpenAI ChatGPT:

Разве в очках и наушниках с искусственным интеллектом нет встроенных камер, следует ли из этого, что в умных часах есть камеры? Это имеет смысл.

«Портативная настольная камера с искусственным интеллектом», созданная Grok из xAI:

Как может Google, владеющая самой мощной видеомоделью в мире Veo 3, отсутствовать на таком мероприятии? Итак, как же работает последняя версия текстовой графической модели Imagen 4 от Google? Давайте сначала рассмотрим Близнецов.

iFanr отправил один и тот же набор подсказок «предсказать изображения продуктов io» устройствам Gemini, оснащенным Imagen 4, ChatGPT, оснащенным GPT-4o, и Grok, оснащенным Grok-3, а затем каждый из них предоставил следующие смоделированные изображения продуктов.

Судя по результатам этого единственного раунда генерации, все три в основном охватывают элементы дизайна продукта, содержащиеся в просочившейся информации. Среди них изображения продуктов Gemini и ChatGPT больше соответствуют замыслу дизайна , позволяющему носить их на шее . По сравнению с этими двумя изображениями, созданные Gemini, немного лучше по визуальной текстуре .

Согласно официальному заявлению Google, Imagen 4 может более четко отображать такие детали изображения, как кожа, волосы и сложные текстуры, а также лучше справляется с созданием изображений «фотографического уровня» и «реалистичных» изображений с использованием ИИ. В то же время утверждается, что ИИ-изображения, генерируемые Imagen 4, поддерживают различные соотношения сторон и имеют разрешение до 2K.

Но, честно говоря, этот io-продукт, разработанный Gemini, «немного похож на толпу». Чем больше на него смотришь, тем больше он напоминает комбинацию Apple Watch + значка AI + шнурка для альпинистской сумки…

Кроме того, Gemini также предоставила схематическую диаграмму, которая может отражать «удалённую связь между новыми io-продуктами и смартфонами и ПК-устройствами».

Кроме того, Imagen 4 также может удовлетворить потребности в создании некоторых абстрактных изображений с использованием искусственного интеллекта.

Кроме того, модель ИИ дополнительно повышает качество вывода с точки зрения орфографии и набора текста, а также может оптимизировать создание ИИ поздравительных открыток, плакатов, комиксов и других сцен .

Текст на английском языке, напечатанный на внешней упаковке коробки для яиц, ясен, точен и красив:

В многокадровых комиксах история непрерывна, картинки и тексты соответствуют друг другу, а дальние, средние и крупные планы учитываются:

Также можно увидеть комиксы в пиксельном стиле, которые в последнее время стали популярны в Интернете:

Imagen 4 теперь доступен в приложениях Gemini, Whisk, Vertex AI, а также в Workspace PPT, Video, Doc и других продуктах.

По данным конференции Google I/O, Imagen 4 позже выпустит более быструю версию, а ее скорость генерации изображений на базе ИИ будет в 10 раз выше, чем у Imagen 3 предыдущего поколения. Подождем и увидим.

Фотограф, внимательный к деталям

С точки зрения восстановления ключевых слов-подсказок и полноты основного содержания картины основные литературные модели изображений, представленные сейчас на рынке, могут достичь «шума и глаз» — общий уровень не сильно отличается.

Поэтому, говоря о качестве генерации изображений, Google начала вдаваться в подробности, утверждая, что Imagen 4 имеет «более нежные цвета» и «более тонкие детали». Это звучит не очень реалистично, поэтому нам все равно придется «позволить картинке говорить самой за себя».

На основе того же набора слов-подсказок:

Золотистый ретривер ищет ракушки на пляже.

iFanr сравнил эффекты изображения, обеспечиваемые моделью Imagen 4, моделью Imagen 3 предыдущего поколения Imagen 4 и Doubao Seedream3.0.

На этом изображении с использованием искусственного интеллекта, созданном с помощью Imagen 3 , выражение морды золотистого ретривера, текстура ракушек, следы собачьих лап на пляже, а также голубое небо, белые облака и ласковые волны на заднем плане — все это очень четко и реалистично.

Более того, если присмотреться, то шерсть золотистого ретривера как будто намокла от морской воды и спуталась.

На самом деле, когда я впервые увидел шедевры, созданные Imagen 3, я немного волновался, что Imagen 4 может не победить.

Однако последний не разочаровал и с настоящей силой продемонстрировал, что значит «гладкий и блестящий» .

Прежде всего, с общей точки зрения, изображения, созданные Imagen 4, имеют более мягкие тона и более естественные цвета, например, небо с градиентом небесно-голубого цвета и море с большими расстояниями и мелкими участками вблизи.

Более того, с местной точки зрения шерсть золотистого ретривера полна деталей. Он не только становится более блестящим, а распределение света и тени более равномерным, но и восстанавливает ощущение пушистости , благодаря чему его очень приятно гладить.

Еще одна деталь, которая также очень привлекает внимание, — это глаза собаки . Золотистый ретривер на изображении смотрит на ракушки на пляже, что соответствует «находке» в подсказке.

Для сравнения, показатели Дубао также очень высоки. Хотя общий цвет снимка ниже темный, он также очень богат деталями, такими как волны, поднятые морским бризом, отчетливо видна шерсть собаки, развеваемая морским бризом, а лапы золотистого ретривера застряли в большом количестве песка после того, как он выкопал ракушку…

Единственный недостаток заключается в том, что все три изображения имеют схожую проблему — фон и его эффект размытия по-прежнему имеют сильный налет искусственного интеллекта .

В примере, предоставленном Google, Imagen 4 может даже достичь «контроля деталей» вплоть до «рисования всего, на что вы указываете». Короткая, жесткая шерсть капибары, мазки масляной картины, свет и тень пузырьков и структура поверхности кристалла — все это можно точно передать.

В то же время, по текстуре изображения и четкости 2K некоторые готовые продукты Imagen 4 могут даже конкурировать с профессиональными фотоработами.

Дизайнер с высокой эстетикой

Когда iFanr попросил Gemini, работающую под управлением последней версии Gemini 2.5 Flash, «спроектировать холщовую сумку с электронным экраном, доступную в больших, средних и маленьких размерах», мультимодальному ИИ-помощнику потребовалось около 10 секунд, чтобы создать следующий дизайн.

На чертеже проекта наглядно отображены два элемента дизайна: «холщовая сумка» и «электронный экран» , а в левом столбце отмечены слова «большой», «средний» и «маленький» . В правой области используются некоторые опорные объекты, такие как «чашка с водой» и «кисть», чтобы отразить разницу в размерах .

Стоит также отметить, что общие линии его внешнего дизайна плавные и не жесткие, а также сохраняется некоторое ощущение «ручной росписи» .

Затем iFanr попросил Gemini указать конкретный размер холщовой сумки для электронного экрана. Судя по полученным результатам, основные английские слова и римские цифры написаны относительно четко и правильно, однако части, включающие английские единицы и знаки препинания, искажены.

Если вы не удовлетворены сгенерированным результатом, нажмите кнопку «Обновить» в интерфейсе чата пользовательского интерфейса, Gemini сотрет этот сгенерированный результат и повторно выполнит вывод в соответствии с новым введенным запросом.

Чертеж продукта готов, но не хватает названия продукта. Gemini помогли придумать простое и понятное название «Canvas Connect».

Фактические результаты, полученные в результате выполнения вышеописанных шагов, не сильно отличаются от подсказок, и не так много мест требуют повторной отладки.

Однако когда дело доходит до разработки соответствующих плакатов и приглашений, если в подсказках есть двусмысленные смыслы , Близнецы, скорее всего, поймут их неправильно.

Компания Gemini первой представила постер слева, основанный на чертеже дизайна изделия — холщовой сумке с электронным экраном «Canvas Connect». Далее в подсказке предлагается изменить цветовую схему постера. Основные цвета — коричневый и зеленый, остальные остаются неизменными.

Однако, поскольку в подсказке не было указано, что цвет «холщовой сумки» остался неизменным, Джемини изменил цвет холщовой сумки, когда изменил цвет фона плаката, как показано на левом рисунке.

Переписав эту подсказку, Gemini изменили только цвет постера, а не продукта, а цвет темы изменился с розового на зеленый. От обдумывания потребностей пользователя, лежащих в основе подсказки, до понимания соответствующих потребностей и затем до создания образа ИИ проходит около 10 секунд.

Более того, нет никаких очевидных изменений в изображениях на электронном экране, движениях и выражениях реальных моделей, а также в текстовом содержании. Этот случай наглядно демонстрирует, что текстовое изображение модели Imagen 4 обладает высокой управляемостью, красивым расположением текста и, как правило, пригодно для повторного использования.

К сожалению, для управления отладкой некоторых абзацев или фрагментов текстового контента по-прежнему необходимы тонкие подсказки.

Близнецы: Папа, загружен 10086-й черновик дизайна. Могу ли я сейчас уйти?

Не волнуйтесь, у Imagen 4 еще много конструктивных особенностей, которые ждут своего изучения пользователями сети.

iFanr попробовал это сделать и обнаружил, что может напрямую заменить реальную модель на постере на персонажа мультфильма, чья прическа, одежда и движения более похожи, как на постере в правом углу изображения выше. Это также способ подумать о том, как делать фотографии, когда вам лень их украшать.

Однако, если не будет подано специального запроса, первоначальный макет плаката будет изменен. В настоящее время это требует больших усилий в оперативной части.

Или вы можете выбрать электронное приглашение , которое «живое и интересное по стилю», «коннотативное по содержанию» и «подходящее для социальных сетей».

Наконец, не забудьте попросить Gemini придумать рекламный текст с эмодзи и тегами: «Приглашаем вас вместе стать свидетелями запуска нового продукта Canvas Connect».  #TechStyle».

#Добро пожаловать на официальный публичный аккаунт WeChat iFanr: iFanr (WeChat ID: ifanr), где вам будет представлен еще более интересный контент как можно скорее.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo