Версия GPT Image 2 с открытым исходным кодом: инфографика, непрерывная графика и текст, а также локальное развертывание — все в одном Тестирование SenseTime SenseNova U1 в реальных условиях

С тех пор как GPT Image 2 стал популярным, интернет наводнен невероятно реалистичными изображениями, созданными с помощью ИИ. Крупномасштабные модели расширяют границы визуальной визуализации, что одновременно захватывает и вызывает восхищение.
В современной области обработки изображений с помощью ИИ GPT Image 2 практически не имеет себе равных. Однако, если GPT Image 2 — лучшая закрытая платная модель, доступная в облаке, то SenseNova U1 может быть лучшей бесплатной моделью с открытым исходным кодом, которую можно развернуть локально .
▲Сгенерировано SenseNova U1
SenseNova U1 — это недавно выпущенная модель многомодального отображения с открытым исходным кодом от SenseTime. Ее облегченные версии с параметрами 8B и A3B в настоящее время находятся в открытом доступе на Hugging Face и GitHub.
Исходя из параметров модели и выбора открытого исходного кода, мы видим, что она существенно отличается от GPT Image 2.
Компания APPSO также заранее получила сертификаты соответствия требованиям тестирования, и мы обнаружили, что новое поколение моделей SenseTime, сочетающих в себе понимание кода и унифицированные функции, достигло наилучшего уровня среди моделей с открытым исходным кодом.
Это обеспечивает революционную возможность непрерывной генерации изображений и текста в индустрии больших моделей, что означает, что изображения и текст могут выводиться непрерывно с использованием одной модели. Эта новая функция определенно заслуживает внимания.
Весовые коэффициенты модели SenseNova U1 с открытым исходным кодом теперь доступны для скачивания на сайтах Hugging Face и GitHub.
GitHub: https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face: https://huggingface.co/collections/sensenova/SenseNova-U1
Мышление с помощью картинок
Возможно, мы сталкивались с ситуацией, когда нам нужно, чтобы ИИ объяснил сложную концепцию, сопроводив её диаграммой, причём диаграмма должна следовать логике текста, показывая соответствующий шаг в объяснении.
Типичные модели могут напрямую решить эту проблему путем генерации кода, например, с помощью гибкой композиции, используемой Клодом, или некоторых веб-страниц, созданных с помощью Vibe Coding, которые содержат текст и изображения.
Однако существующие модели, как правило, не могут одновременно генерировать текст и изображения в потоке ответа, используя одну модель, без использования внешних инструментов. Это связано с тем, что генерация текста и генерация изображений обычно являются двумя отдельными процессами на базовом уровне модели.
Первая особенность SenseNova U1 — это возможность непрерывного создания и вывода изображений и текста на одном устройстве.
Например, мы попробовали сценарий, в котором попросили его придумать простую иллюстрированную историю о маленьком медвежонке, переживающем четыре времени года.

▲ Задание: Пожалуйста, создайте иллюстрированную историю о буром медведе, главным героем которой будет сам медведь, и расскажите о его переживаниях в разные времена года.
Созданный непрерывный текст и изображения не только легко воспринимаются и обладают определённой повествовательной составляющей, но и отличаются хорошей согласованностью. При этом текст и изображения отображаются точно, а маленький медвежонок одет в свитер и шапку, характерные для зимы.
В ходе реального тестирования выяснилось, что использование SenseNova U1 для некоторых видов творческой работы также оказалось очень интересным.
В официальном тестовом случае к модели был загружен портрет, и ей было предложено разработать несколько разных причесок. Видно, что на протяжении всего процесса генерации непрерывных изображений и текста SenseNova U1 точно поддерживала целостность персонажа, а также его структуру и детали.

▲ Задание: Пожалуйста, придумайте для меня несколько подходящих причесок. Надеюсь, они будут красивыми и оригинальными, и помогите мне выбрать ту, которая мне больше всего подходит.
Вы также можете попросить его разработать игрового персонажа и продемонстрировать логический итеративный процесс, начиная с общего визуального стиля и основных интерактивных деталей и заканчивая сюжетной линией в окружении и изображением персонажа.

Что еще интереснее, учитывая хронологический характер ответа, SenseNova U1 оказался идеальным инструментом для создания изображения. Мы попросили его сгенерировать процесс превращения авокадо в комнатное растение в горшке, и непрерывный текст и изображения прекрасно представили весь процесс роста.

▲ Подсказка: Как вырастить из обычного авокадо комнатное растение в горшке
После серии экспериментов изображения ни разу не отклонились от логики текста; куда бы ни вела логика, изображения следовали за ней.
Ранее объединение текста и изображений могло потребовать вызова различных моделей и соответствующих инструментов для обеспечения того, чтобы текст и изображения в ответе передавали одно и то же сообщение. Теперь этот процесс написания происходит непосредственно в модели на самом низком уровне. Для выравнивания не требуется ни инструментов, ни программного обеспечения; нам нужно лишь увидеть конечный результат.
Для создателей контента, дизайнеров и маркетологов появление SenseNova U1 начало решать давнюю проблему: как научить ИИ одновременно писать и рисовать, обеспечивая бесшовную интеграцию текста и графики.
Самый мощный проект с открытым исходным кодом, обладающий большим количеством ресурсов и удовлетворяющий потребности.
Подтвердив свою способность к формированию единого понимания, теперь нам нужно посмотреть, сможет ли SenseNova U1 достичь наилучшего уровня среди моделей с открытым исходным кодом в плане генерации сложных инфографик.
Инфографика — это способ сжать большой объем сложного текста или данных в одно легко понятное изображение. На самом деле это гораздо сложнее, чем просто «нарисовать красивую картинку». Для этого требуется понимание содержания, знание того, какие части являются основными, а какие — дополнительными, логическая взаимосвязь между информацией и эффективное отображение текста — все это представляет собой значительные трудности.
Простая версия GPT Image 2 уже демонстрирует очень хорошие результаты в этом отношении, и вначале мы не возлагали больших надежд на то, что она будет лучше, чем GPT Image 2. Но производительность SenseNova U1 действительно заслуживает звания лучшей открытой версии (SOTA).
Начнём с предложения "Объясните DeepSeek V4 с помощью инфографики" без каких-либо дополнительных подсказок, чтобы посмотреть, насколько хорошо сгенерированная инфографика покажет себя.

▲ Сгенерировано SenseNova U1
Совершенно очевидно, что SenseNova U1 выполнил поиск в интернете и обнаружил информацию, связанную с DeepSeek V4, такую как встроенная мультимодальность, триллионы параметров и миллионы контекстных токенов.
Помимо простых подсказок, вы также можете отправить ему прямую ссылку. SenseNova U1 также имеет соответствующий инструмент для веб-скрейпинга, позволяющий извлекать контент веб-страниц и создавать инфографику.
Устройство SenseNova U1 с легкостью справляется с большинством подобных образовательных инфографик. Оно также может быстро создавать более простые примеры, например, трехмерную схему разборки, объясняющую, что такое электронная сигарета.

▲Сгенерировано SenseNova U1
Если подсказки будут немного подробнее, программа сможет точно преобразовать текст в наглядную инфографику, как и предполагают подсказки.

Например, для создания пошаговой схемы всего процесса производства популярного в последнее время уханьского десерта из тофу можно напрямую указать программе SenseNova U1.

С приближением лета выбор солнцезащитных средств также можно осуществить с помощью инфографики, которая наглядно объясняет сложные параметры выбора, такие как значения SPF и PA.

Он даже может построить диаграмму, иллюстрирующую принцип работы большой модели ИИ от обучения до вывода результатов, что позволяет людям без технических знаний легко понять принцип ее работы; SenseNova U1 также может использовать легкий и занимательный стиль для простого описания процесса работы большой модели ИИ.

В других сценариях применения, таких как маркетинг, офисная работа, разработка дизайна и бизнес-аналитика, мы протестировали производительность SenseNova U1 на различных примерах.
В целом, маркетинговые сценарии предъявляют самые высокие требования к визуальному стилю и являются лучшим показателем того, действительно ли модель понимает, «какие чувства хочет передать пользователь». Хорошее маркетинговое изображение, размещенное в середине статьи, может быть даже принято за внутристатью в рекламе в WeChat.
Как и эта инфографика о путешествии в Шанхай, созданная SenseNova U1, она не только отображает карту, но и перечисляет уникальные особенности Шанхая.

В офисной обстановке визуальная привлекательность важнее точности и эффективности. Мы проверили возможности обработки информации, сжав пятистраничный протокол совещания в одну легко просматриваемую сводную диаграмму. Диаграмма должна была быть логически понятной, выделять ключевые моменты и легко пересылаться коллегам, которые не присутствовали на совещании.

Помимо сложной информации, SenseNova U1 также предоставляет превосходные визуальные стилистические ориентиры. Имея описание тональности бренда, система должна сгенерировать эталонное изображение, включающее предложения по цветовой схеме, макету и ключевым словам, создающим атмосферу, и результат оказывается на удивление хорошим.

Мы также протестировали возможности визуализации данных SenseNova U1 в некоторых задачах анализа данных, представив более логичные инфографики в виде диаграмм.

Как видите, SenseNova U1 отлично справляется с извлечением информации; он действительно понимает контент и знает, что важно, а что второстепенно.
Однако в визуальном плане еще есть куда стремиться. Иногда все еще возникают ошибки при отображении текста. Для сценариев, требующих быстрой выдачи изображений и не желающих тратить время на многократную настройку в инструментах дизайна, этого более чем достаточно.
Как будет выглядеть следующая мультимодальная модель
После тестирования SenseNova U1 мы обнаружили, что её значимость заключается в том, что это первая модель с открытым исходным кодом, которая всерьёз достигла объединения «понимания и генерации». И это может стать следующим направлением для всей области мультимодальных технологий.
Широкое распространение GPT Image 2 демонстрирует, что модели с закрытым исходным кодом уже установили высокую планку для «качества генерации» изображений. Если модели с открытым исходным кодом продолжат двигаться в том же направлении, им, вероятно, потребуется очень много времени, чтобы догнать конкурентов, и ценность открытого исходного кода сведется лишь к «дешевизне».
SenseNova U1 предлагает иной технологический путь и имеет важное значение для развития всего сообщества открытого исходного кода. Помимо решения вопроса «как создавать более качественные графы», он также показывает, как может выглядеть следующий шаг в развитии мультимодальных моделей.

▲ В SenseNova U1 используется первая в отрасли собственная архитектура NEO-unify, обеспечивающая эффективное и унифицированное многомодальное понимание и генерацию.
В традиционных мультимодальных моделях понимание графа и его построение представляют собой две взаимодействующие системы. Одна система отвечает за понимание входных данных, а другая — за их вывод, при этом информация передается через интерфейс. Каждая система имеет свой собственный внутренний язык, и информация теряется во время передачи. Это похоже на общение двух людей с помощью программы-переводчика: общий смысл понятен, но всегда чего-то не хватает.
С другой стороны, SenseNova U1 объединяет эти два элемента в единое пространство представления с самого начала. В их технической статье в блоге в марте этого года основное внимание было уделено объяснению архитектуры NEO-unify.
В настоящее время в индустрии для крупномасштабных моделей принято использовать многомодальную обработку изображений с помощью ИИ, основанную на «визуальном кодировщике (VE)», который сжимает и обрабатывает изображения перед передачей их генератору. В архитектуре NEO-unify компания SenseTime полностью отказалась от этой громоздкой традиционной парадигмы.
В SenseNova U1, использующей архитектуру NEO-unify, применяется практически без потерь визуальный интерфейс, который напрямую интегрирует фрагменты изображений без предварительного обучения кодировщика для сжатия. Затем, в рамках одной и той же базовой сети, обучение текста и изображений осуществляется сквозным образом.
В плане понимания и генерации различных эталонных тестов производительность SenseNova U1 достигла уровня передовых моделей с открытым исходным кодом того же масштаба, а по многим показателям она даже сопоставима с моделями с закрытым исходным кодом, такими как Nano Banana.
▲ Это результаты эталонных тестов по пониманию изображений, генерации изображений и визуальному мышлению, соответственно.
Она возвращается к основополагающим принципам мультимодальных вычислений, начиная с базовых пикселей и текста и формируя собственное внутреннее познание.
Это также объясняет, почему она потребляет меньше токенов и имеет более высокую эффективность генерации. Даже версия всего с 8 байтами параметров может достичь чрезвычайно высокой экономической эффективности.
Этот релиз с открытым исходным кодом представляет собой SenseNova U1 Lite, облегченную версию SenseNova U1. В настоящее время доступны две версии: SenseNova-U1-8B-MoT с 8 миллиардами параметров, которая может работать на периферийных устройствах; и SenseNova-U1-A3B-MoT с 38 миллиардами параметров, но только 3 миллиардами активных, которая обеспечивает более широкие возможности при сохранении очень низких затрат на вывод данных.

▲SenseNova U1 уже находится в открытом доступе на GitHub и Hugging Face, ссылки: https://github.com/OpenSenseNova/SenseNova-U1, https://huggingface.co/collections/sensenova/sensenova-u1
Обе версии можно развернуть локально, точно настроить и интегрировать в собственный конвейер обработки данных. Разработчики, которым необходимо внедрить возможности генерации изображений в свои продукты, получают полный контроль над поведением модели, и данные не нужно экспортировать.
Если вам нужна модель, способная эффективно осуществлять понимание и генерацию, SenseNova U1, как наиболее сильный представитель моделей с открытым исходным кодом, безусловно, заслуживает внимания.
Компания SenseTime также открыла исходный код библиотеки навыков AIGC для сред выполнения агентов на GitHub. Мы можем напрямую интегрировать мощные возможности SenseNova U1 в наши собственные рабочие процессы агентов.
Используя этот набор инструментов, мы можем вызвать его одним щелчком мыши на платформах Agent, таких как OpenClaw и Hermes. Модель автоматически оценивает наши запросы, выбирает подходящий макет и после нескольких этапов генерации выдает наилучшие профессиональные инфографические результаты.

▲ Ссылка на навыки: https://github.com/OpenSenseNova/SenseNova-Skills
Оглядываясь назад на весь тест, SenseNova U1 показала хорошие результаты, став самой мощной моделью с открытым исходным кодом в своем классе, к которой мы сейчас имеем доступ.
Для создателей контента уникальная для отрасли возможность непрерывного создания текста и изображений устраняет существовавшую ранее проблему разделения текста и изображений, делая по-настоящему возможным согласованное создание идей, текста и изображений одновременно.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

