После Nano Banana 2 появился еще один отечественный генератор изображений на базе искусственного интеллекта, ставший «эталоном стабильности»: генератор изображений Vidu доступен в течение ограниченного времени с неограниченным бесплатным доступом.

1 декабря, 2025 Дядя Влад

Честно говоря, инструменты обработки изображений, созданные с помощью ИИ, порой представляют собой отношения типа «любовь-ненависть».

Когда вы впервые с ним познакомитесь (когда он будет создан в первый раз), вы подумаете, что он потрясающий, идеальный во всех отношениях. Но как только вы захотите развить его дальше (превратить в серию диаграмм, внедрить в рабочий процесс), он начнет «терпеть неудачу» и погрузится в тайну гачи.

Это состояние «можно только наблюдать, но не сражаться» делает использование ИИ в реальных рабочих целях невероятно сложным. Однако с появлением таких инструментов, как Nano Banana, ситуация наконец начала меняться, показывая, что ИИ можно контролировать более точно.

И вот наконец-то отечественный ИИ берёт верх и прокладывает путь дальше. Недавно запущенные функции преобразования текста в изображение, создания ссылок на изображения и редактирования изображений в Vidu Q2 следуют этому пути: после того, как всё «пригляделось», оно начинает фокусироваться на «стабильности».

На этот раз Vidu Q2 сосредоточила все свои усилия на «постоянстве». Что это значит? Это означает полное устранение давних проблем, таких как «разрушение характера», «искажение продукта» и «резкая смена стиля».

Проще говоря, речь идет не только о том, чтобы дать вам возможность продемонстрировать свои навыки в социальных сетях, но и о том, чтобы предоставить вам практический творческий рабочий процесс, который вы сможете использовать «от начала до конца».

В последнем рейтинге AA возможности редактирования изображений Vidu Q2, впервые представленного на рынке, даже превзошли GPT-5 от OpenAI . Самое похвальное то, что, будучи стартапом, существующим всего чуть больше двух лет, он доказал свою технологическую мощь , войдя в тройку лидеров наряду с такими гигантами, как Google и ByteDance , догнав Nana Banana Pro и по-настоящему уловив суть концепции «беззаботности».

Vidu также предлагает месячный «бесплатный подарочный пакет», открывая двери всем желающим воспользоваться выгодными предложениями. С сегодняшнего дня и до 31 декабря подписчики Vidu могут использовать изображения в формате RAW «бесплатно», будь то референсные изображения, текстовые изображения или изображения для редактирования — они могут творить всё, что захотят. Подписчики Standard и Professional также получают 300 бесплатных изображений в месяц, а флагманская версия предлагает неограниченное количество бесплатных изображений в формате RAW.

Давайте сегодня воспользуемся возможностью «неограниченного пополнения», чтобы подвергнуть функцию обработки необработанных изображений Vidu Q2 серьезному испытанию и посмотреть, сможет ли она действительно спасти наши волоски.

Начните с одного изображения; остальное — дело вашего воображения.

Среди инструментов искусственного интеллекта Vidu одним из первых усовершенствовал «непрерывное создание эталонных изображений на основе одного изображения» в качестве основной функции. Vidu поддерживает наибольшее количество входных изображений и обладает наивысшей согласованностью при генерации многопараметрических изображений в Китае .

В недавнем обновлении Vidu Q2 эта возможность значительно продвинулась вперёд: теперь она не только поддерживает более сложные комбинации из нескольких референсов, но и значительно снижает порог создания исходных изображений. Дизайнеры, режиссёры и даже обычные пользователи, любящие творить, могут предоставлять изображения объектов и референсы окружения по-своему, а модель может воспроизвести действие, положение, расположение, текстуру, освещение, цвет и т. д. одним щелчком мыши, автоматически «выстраиваясь по нужному референсу и сохраняя персонажа неизменным».

Многопараметрическое необработанное изображение

В сценарии многопараметрических необработанных изображений необработанные изображения, которые мы предоставляем Vidu Q2, очень близки к реальному рабочему процессу: одно из них — «топовый» цыпленок Даван с недавних Национальных игр, а другое — атмосфера сцены, которую мы надеемся создать, смотровая площадка Бунда на закате.

Затем я написал короткую подсказку и предоставил остальное ему.

Когда результаты стали известны, я просто сказал: «Уважение!»

Это не тот упрощённый подход, который просто вырезает объект и вставляет его; он фактически «пересчитывает» освещение и тени в сцене. Направление освещения и теней объекта совпадает с окружающей средой, а его движения точно меняются в соответствии с командами.

Я даже распечатал его на машине, и он идеально рассчитал цвета отражения на кузове.

Что ещё важнее, многие изображения сохраняют высокую степень согласованности при многократной генерации различных композиций и поз, например, узор на груди курицы породы да вань и разноцветный гребень на её голове. Этого часто сложно добиться при традиционном процессе генерации изображений, основанном на быстрой настройке параметров.

Это действительно гениально. Раньше, чтобы разместить персонажа, защищенного авторским правом, на плакатах в разных сценариях, брендам приходилось моделировать, визуализировать и редактировать изображения. Теперь же? Это можно сделать за считанные секунды, и эта «несоответствие» полностью исчезло.

Пространственная согласованность

Ещё больше впечатляет способность Виду понимать пространственные отношения. Когда я попросил «кур Давань пробраться сквозь резные ограды Запретного города», Виду не проскользнул сквозь них, как другие ИИ, и не превратил сцену в фильм ужасов.

Фактически, он «вообразил» пространственную структуру Запретного города на основе карты окружающей среды, что позволило курице Да Ван свободно передвигаться по коридору.

Давайте увеличим сложность, заставив персонажа ИИ использовать сложные приемы боевых искусств.

Раньше ИИ-персонажи не могли точно воспроизводить сложные движения, которые вы создали: движения либо искажались, либо персонаж выглядел совершенно иначе во время боя. Теперь, благодаря референсным изображениям Vidu Q2, эта проблема для создателей ИИ решена. Вы можете воспроизводить движения одним щелчком мыши, что позволяет вашему ИИ-герою обладать широким спектром навыков.

В примере ниже два главных героя аниме точно воссоздали боевые позы на рисунке 1, сохранив при этом высокую степень единообразия в одежде, деталях лиц и пространственных отношениях.

Такое понимание «пространства» позволяет использовать справочные изображения не только в качестве фона; они по-настоящему становятся пригодными для раскадровки и компоновки кадров .

Такое понимание пространства невероятно полезно для создания раскадровок фильмов или групповых постеров, таких как для недавно ставшего популярным «Зверополиса 2».

Например, в приведенном ниже случае одно и то же изображение в сочетании с различными сигналами камеры позволяет создавать крупные, общие и крупные планы футболиста, бьющего мяч, а затем монтировать их в полноценный сюжетный кадр посредством конвертации изображения в видео. В производстве короткометражных драматических фильмов, анимации и фильмов это устраняет необходимость в создании нескольких кадров или сложной раскадровке для одной сцены, что делает этот метод по-настоящему эффективным инструментом повышения производительности.

Затем, используя функцию преобразования изображения в видео Vidu Q2, выведите видеоролик с лучшими моментами двух игроков, борющихся за мяч на футбольном поле:

Что касается единообразия стиля, традиционные функции ИИ, преобразующие текст в изображения, обладают богатой фантазией, но зачастую не обладают единообразием, что приводит к несоответствию стилей и смешению персонажей. Vidu Q2, напротив, не только поддерживает сотни стилей аниме, но и обеспечивает единообразие стиля и сюжетную связность в генерируемых последовательно нескольких изображениях.

Например, текстовый редактор Vidu Q2 может создать четырёхпанельный комикс всего из нескольких предложений. Он не только сохраняет единообразие стиля и персонажей, но и детали, но и позволяет рассказать целую историю всего в нескольких предложениях:

Эти примеры показывают, что усовершенствования Vidu в области референсных изображений выходят за рамки простого «создания изображения, похожего на референс». Вместо этого в дизайне реализованы «целостность объекта» и «пространственное понимание» . С одной стороны, Vidu может надёжно генерировать полный набор изображений человека с разных ракурсов, в разных атмосферах, стилях и при разном освещении, основываясь на референсном изображении. С другой стороны, Vidu воспринимает изображения окружающей среды как реальные пространства, а не просто как фоновые текстуры.

Это не просто игрушка, это настоящее «боевое оружие».

Если эталонное изображение решает проблему «как выбрать первое изображение», то недавно представленная функция редактирования изображений на Vidu Q2 по-настоящему интегрирует это изображение в повседневный рабочий процесс, обеспечивая более точное управление изображением и отвечая потребностям реальных коммерческих сценариев.

Позиционирование Vidu в этой области очень простое: оно охватывает 90% распространенных сценариев редактирования изображений — добавление элементов, удаление элементов, изменение фона, изменение цветов, регулировка освещения, масштабирование и переключение пропорций — все это можно делать с помощью естественного языка , сохраняя при этом единообразие предмета на протяжении всего процесса непрерывной модификации.

В рамках теста замены и частичного редактирования я попытался заменить рекламу на вокзале на Маска. Раньше мне пришлось бы вырезать изображение до потери зрения, но теперь это занимает всего несколько секунд, и я могу воспроизвести его одним кликом.

В будущем, увидев популярную рекламу или обложку, вы сможете легко скопировать её в большом количестве одним кликом, сохранить в формате 4K и напрямую загрузить. Создавать рекламу и контент для социальных сетей стало ещё проще.

Аналогично в следующем случае требование заключалось в том, чтобы добавить бокалы для вина трем девушкам — Q2 не только выполнил требование, но и уточнил детали рук трех девушек, приняв во внимание преломление света в бокалах для вина.

Редактирование изображений — поистине «практический» навык, особенно в таких областях, как электронная коммерция или маркетинг в социальных сетях. Многие изображения продукта изначально представляют собой лишь простой линейный рисунок: дизайнер предоставляет эскиз, а операционному отделу требуется основное изображение, которое можно сразу загрузить.

Вот где графические редакторы могут проявить себя во всей красе. Мы использовали Vidu для проведения полного комплекса работ по эскизированию, раскрашиванию и замене материалов. Сначала мы создали линейные чертежи мебели, а затем использовали их в качестве референсного изображения одним щелчком мыши, указав материалы и стиль в подсказке.

Vidu использует рендеринг материалов для создания высокодетализированных и точных изображений реального мира за один шаг. Затем, одним щелчком мыши, их можно использовать повторно, отображая диван в различных стилях интерьера с соответствующими подсказками.

Также можно легко изменить материал одного и того же изделия.

Видно, что возможности редактирования изображений Vidu Q2 фактически реализуют «базовые возможности эпохи многопараметрических необработанных изображений» на практике: определение того, кто является объектом на снимке, блокировка его/ее/его, а затем предоставление вам возможности добавлять, удалять и изменять все вокруг него на понятном языке, даже для нескольких снимков и видео.

Это как если бы раньше вам приходилось настраивать множество параметров при управлении автомобилем с механической коробкой передач, но теперь Vidu предлагает вам систему автономного вождения. Вам нужно сосредоточиться только на творческом аспекте, а всю остальную рутинную работу система возьмёт на себя.

Это также включает в себя ещё одну очень полезную возможность: сохранение основного объекта. Мы можем сохранить указанное выше изображение Q2 RAW/референсное изображение RAW/изображение после редактирования в качестве основного объекта одним щелчком мыши, выбрав «Добавить этот IP в библиотеку персонажей». Впоследствии основной объект можно будет напрямую вызвать в референсном видео RAW Vidu.

После этого, независимо от того, измените ли вы фон, действие или поместите его/ее в новую сцену, при условии выбора этого персонажа или IP модель будет строго поддерживать последовательность персонажа, и не возникнет ситуации, когда главный герой, сгенерированный в следующую секунду, будет отличаться от героя в предыдущую секунду.

Ссылайтесь на исходные изображения в формате RAW – сохраняйте основной сюжет – берите исходные видео в формате RAW. Vidu оптимизировал рабочий процесс от вдохновения до готового продукта , избавив от необходимости переключаться между различными платформами. Это настоящая находка для профессионалов в области создания короткометражных фильмов, анимации, рекламы и электронной коммерции. API теперь доступен.

В сфере искусственного интеллекта забудьте о «нарушениях», сосредоточьтесь на «выполнении работы».

Каково было авторам работать с ИИ в прошлом? Вероятно, это был горько-сладкий опыт: в одну секунду он создаёт потрясающее изображение, а в следующую — погружает вас в состояние ментального срыва на следующие десять часов, потому что вы не можете воссоздать этот образ.

На перекрестке эволюции креативных инструментов на базе ИИ мы наблюдали две различные философии продукта.

Такие продукты, как Midjourney, подобны мощному «двигателю», освоить который под силу только настоящим гикам. Они обладают сложными параметрами и мантроподобными подсказками, которые пытаются довести эстетические границы одного изображения до предела.

Это круто, это занудно, но это также невероятно мучительно.

Vidu Q2, напротив, выбрал более прагматичный, даже, казалось бы, «скучный» путь — создать «массовый автомобиль», которым может управлять каждый. Он больше не фокусируется на случайных сюрпризах, а ставит во главу угла стабильность.

Такой «надёжный» рабочий процесс, охватывающий все этапы, — это и есть настоящая продуктивность. Ведь для команд, которые постоянно сталкиваются с давлением со стороны клиентов, требующих внесения изменений в черновики, и со стороны операционных отделов, требующих запуска, «уверенность» в результатах гораздо важнее, чем «случайность» внезапного вдохновения.

Возможно, при исследовании некоторых экстремальных стилей искусства он не столь дикий и свободный, как эти инструменты, управляемые параметрами, и поскольку он слишком стремится к стабильности, ему не хватает вдохновения «неожиданных сюрпризов».

Но для создателей контента, которых мучает механика гача, Vidu Q2 предлагает давно потерянное чувство безопасности.

Пока индустрия рассуждает о грандиозном сюжете AGI, Vidu опускает голову и перестает просто создавать для вас нереальные мечты; он помогает вам заложить прочный фундамент для того, что вы делаете.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (WeChat ID: ifanr), где вы сможете как можно скорее получить еще больше интересного контента.

ifanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo