Короткометражный фильм, созданный с помощью искусственного интеллекта и набравший более 100 миллионов просмотров, содержит запоминающуюся сцену, которая оказывается ошибкой монтажа Интервью с создателями «Paper Cellphone»

Во время просмотра этого короткометражного фильма вы, возможно, и не заподозрите, что смотрите видео, сгенерированное искусственным интеллектом, пока не увидите этот эпизод:

Почему палец находится именно здесь, когда вы набираете номер на этом старомодном телефоне, который вращается по кругу? Кроме того, в обстановке фильма бумажные подношения, которые сжигаются, уже являются айфонами, так зачем тогда нужен такой старомодный телефон?

Это самая обсуждаемая сцена в короткометражном фильме «Бумажный мобильный телефон», созданном с помощью ИИ, — не потому, что она так хороша, а потому, что она полностью демонстрирует, что фильм создан с помощью ИИ, хотя первые несколько минут настолько реалистичны, что это незаметно.

Но никто в комментариях не ругался. В итоге появились комментарии вроде: «Я понял, что это сделал ИИ, только когда увидел это», за которыми последовали «Мне совершенно всё равно» и «Ну и что, если это ИИ? Это не мешает мне плакать».

С тех пор как ИИ смог создавать полноценные видеоролики, ни одно видео, созданное с помощью ИИ, не избежало вопроса: насколько оно реалистично? Скорость создания моделей используется как мера технологического прогресса, и каждый релиз сопровождается либо восклицаниями «наконец-то, это неотличимо», либо насмешками «все еще явно подделка». Это особенно верно для игровых сцен, как будто, пока это достаточно реалистично, зрители будут в это верить.

«Бумажный мобильный телефон» — контрпример. Даже зная, что он был создан искусственным интеллектом, зрители всё равно были тронуты и охотно признались, что их это задело. Ошибка с телефоном не была «прощена» — она даже не входила в оценочную шкалу зрителей. Важно было совсем другое: мальчик, не зная о смерти, накопил 15 юаней, чтобы сжечь мобильный телефон в память о своей умершей бабушке.

Этот короткометражный фильм, созданный с помощью искусственного интеллекта, набрал более 40 миллионов просмотров в интернете и был перепощен телеканалом CCTV и газетой People's Daily. Он был создан за три дня двумя молодыми людьми из Чаошаня. Режиссер, Ли Тин, 1998 года рождения, после пяти лет работы в сфере управления продуктами перешла в эту область; ее партнер, Ян Сюань, 1990-х годов рождения, — директор по рекламе с образованием в области истории искусств. С помощью Keling AI 3.0 Omni все в фильме — освещение, персонажи, сцены и выражения лиц — было полностью сгенерировано с помощью моделей, за исключением картонного реквизита в виде телефона.

Если короткометражный фильм, в котором нет ни секунды физической реальности, вызывает подлинный эмоциональный отклик, что тогда означает слово «реальность»?

Три дня, два человека, одна модель

История начинается с воспоминания о временах года.

Сегодня праздник Цинмин, и Ли Тин и Ян Сюань оба родом из Чаошаня. Сжигание бумажных денег, почитание предков и «отправка подарков» умершим родственникам — привычки, привитые им с детства. Ян Сюань помнит, как в детстве ходил с семьей в горы и видел, как бумажные газовые баллоны, дома и машины скручивались и чернели в огне. «Изготовление этих вещей из бумаги точно отражает замкнутые и отложенные эмоции китайского народа», — сказал он.

Концепция «бумажных мобильных телефонов» зародилась из этих воспоминаний, но превратить её в историю стало результатом ряда дизайнерских решений, определяющих повествование.

В начале истории лавочник сначала пытался успокоить ребёнка, у которого было всего 15 юаней, нарисовав фальшивый мобильный телефон. Только узнав, что ребёнок сирота и что его последний оставшийся родственник умер, он встал и погнался за ним.

Найдя ребёнка, начальник не сразу сказал: «Я вам помогу», а вместо этого заявил, что у бумажного телефона «плохой сигнал», и дал ему новый.

Ли Тин сказала, что эти неуклюжие оправдания возникли у нее после размышлений, когда она представила себя в этой роли: «Как бы этот человек отреагировал в этой ситуации?» Она вспомнила, как в детстве спрашивала старших: «Что такое смерть?», и старшие на мгновение замолкали, прежде чем ответить. Она включила этот момент «паузы» в короткометражный фильм — короткую паузу прохожего после вопроса маленького мальчика.

Прежде чем броситься в погоню за кем-либо, владелец магазина опускал рольставни наполовину, давая понять: «Временно вышел, скоро вернусь».

Хотя это короткометражный фильм, созданный с помощью ИИ, процесс написания сценария был полностью человеческим. Ян Сюань неоднократно подчеркивал в интервью, что начинающие должны писать собственные сценарии, «только те, которые основаны на реальном опыте, могут тронуть людей».

После завершения работы над сценарием началась фаза генерации ИИ. Для этого использовали KELING 3.0 Omni, который в основном опирается на три функции: многокадровое эталонное изображение (для обеспечения единообразия внешнего вида персонажей), одновременная генерация аудио и видео (для синхронной генерации визуальных и звуковых эффектов) и синхронизация тембра основных элементов (для обеспечения единообразия голоса персонажа на протяжении всего фильма).

Рабочий процесс начинается с разработки персонажа. Сначала создаётся образ, затем модель, которая свободно произносит диалоги, после чего выбирается наиболее подходящий голос и он фиксируется.

Ли Тин сказала, что наиболее часто упускаемый из виду шаг в этом процессе — это «обдумывание перед написанием ключевых слов». «Многие считают, что ключевые слова должны быть длинными и сложными, но гораздо важнее точность — чего именно вы хотите?»

Точность — повторяющееся слово в их рабочем процессе. Чтобы понять лежащую в основе логику различных визуальных стилей, Ян Сюань провел эксперимент: используя одну и ту же модель, он сгенерировал 10 совершенно разных кинематографических текстур — японскую, в стиле Цзя Чжанке и современную. «Речь идет не о том, чтобы писать в заданиях „стиль Ян Дечана“, — сказал он, — а в основном об анализе того, почему каждый стиль работает, откуда берется мягкий белый эффект японского стиля? Как текстура снега влияет на общую атмосферу изображения?»

Пленочная текстура «Бумажного мобильного телефона» — результат применения этой методики. Интересно, что в рекламных материалах они никогда не использовали слова «зернистость» или «пленка». Ян Сюань отметил, что текстура получилась тонкой и естественной.

«Действие разворачивается в ту эпоху, и в сценах, таких как газетный киоск, залитый теплым послеполуденным светом, и старинные стеклянные витрины, чувствуется естественная текстура». Он откровенно заявил, что ему нравится кинематографический язык и стиль повествования поколения Эдварда Янга, Энга Ли и Хоу Сяосяня, но это не намеренное подражание. Скорее, «Когда вы думаете об этой истории, вы естественным образом будете думать в духе той эпохи».

Финальный длинный кадр внутри машины — самая хваленая часть всего фильма. Чуть больше минуты маленький мальчик сидит в машине, за окном проносится пейзаж, нет диалогов, только фоновая музыка. Ли Тин объяснил, что музыкальное сопровождение в основном описывает пейзаж за окном, эмоциональное состояние мальчика и тряску в машине — чтобы имитировать настоящую поездку на автомобиле.

Первоначально сцена длилась всего 30 секунд. После просмотра Ян Сюань понял, что её можно было бы сделать длиннее, поэтому постепенно её удлинил. «Когда умирает любимый человек, горе может наступить не сразу, — сказал он. — Вы можете даже не замечать окружающих звуков. Какое-то время вас мучает шум в ушах, а затем внезапно, как прилив, накатывают необъяснимые эмоции».

Этот дизайн не был разработан на основе анализа данных или результатов A/B-тестирования; это был выбор, сделанный ими как создателями, продиктованный их личными воспоминаниями и эмоциями.

Два человека, три дня, а то и меньше при экстремальном сжатии. Будучи супер-создателями на платформе Keling, они обладают вычислительной мощностью, поэтому производственные затраты низки. Но Ли Тин подчеркнул один момент: «После того, как ИИ снизит производственные затраты, ценность человека станет еще более очевидной. В стоимость должно входить творческое планирование режиссера и сценариста — ценность, которую представляют эти нематериальные вещи, является ключевой».

Если вы верите в персонажей, вы верите и в историю.

В ходе интервью я задал гипотетический вопрос: если бы этот сюжет был снят с участием реальных людей, были бы эмоции, которые он передает, другими?

Ян Сюань был предельно откровенен: «Снимать что-то подобное невероятно сложно. Смогут ли юные актеры дать то, что нужно? Сможет ли режиссер эффективно руководить ими? А как насчет операторской работы? Здесь задействовано так много аспектов».

Ответ Ли Тин был более прагматичным: «Съемки вживую проверяют понимание актерами сюжета и их актерские навыки в большей степени, в то время как производство с использованием ИИ проверяет режиссеров. Все планирование и дизайн контролируются режиссером». Она сказала, что для таких создателей, как она, у которых никогда не было опыта съемок вживую, инструменты ИИ дали уровень свободы, которого раньше не существовало.

Эти ответы звучат так, будто они защищают ИИ, но если объединить их с другими ответами, картина станет гораздо интереснее.

Когда я спросил: «Что вы думаете о высказывании, что „самый бесчеловечный ИИ создал самый человечный короткометражный фильм“?», Ян Сюань ответил следующее:

«Как и в живописи, краска статична, и игра актеров тоже искусственна. Но почему это может тронуть людей? Потому что создатели искренни. Мы верили в наших персонажей и наши истории. При создании сценариев мы тонко передавали реализм».

В традиционном кино и на телевидении источник «реализма» примерно таков: сценаристы создают правдоподобных персонажей, актеры «проживают» этих персонажей своими телами и эмоциями, а операторская работа и монтаж запечатлевают и усиливают эти неповторимые моменты.

Основное предположение этого подхода заключается в том, что в качестве посредника необходимо реальное тело. Представление «фальшивое» (игра роли) на повествовательном уровне, но сам акт исполнения реален: мышечная память, эмоциональная вовлеченность, микровыражения, ритм дыхания — все это исходит от живого тела.

Изображения, созданные с помощью ИИ, устранили этого посредника; не было ни актеров, ни тел, которые бы «пережили» персонажей, и тем не менее Paper Cellphone все равно ощущался «реальным».

Одно из возможных объяснений заключается в том, что большая часть «реализма», воспринимаемого как исходящий от тел актеров, на самом деле проистекает из наблюдательности режиссеров и сценаристов. Когда Ли Тин погружается в роль и размышляет о том, «как он отреагирует», она опирается на свои детские воспоминания, наблюдения за людьми и интуицию в отношении эмоциональных ритмов.

Эти элементы передаются модели посредством подсказок, модель генерирует визуальные образы, а визуальные образы вызывают отклик у аудитории. Путь изменился, но отправная точка и конечная цель остались прежними: человеческий опыт, ведущий к человеческим эмоциям .

Это также объясняет, почему партнерство между ними настолько эффективно. Ян Сюань сказал, что Ли Тин отвечает за «воображаемые сцены», а он — за «рассказывание истории». Когда сталкиваются разные люди с разным жизненным опытом, возникают так называемые «антисюжеты» — детали, которых не было в сценарии, но которые были сохранены, потому что они были достаточно реальными, детали, которые ИИ не может сгенерировать самостоятельно.

В интервью Ян Сюань упомянул тайваньское поколение «новой волны», включая Эдварда Янга, Хоу Сяосяня и Энга Ли. Эти режиссёры определяли «правду» как сосредоточение на честности на эмоциональном уровне. Хоу Сяосянь, снимая фильм «Мальчики из Фэнкуэй», использовал множество непрофессиональных актёров, стремясь к своего рода «незапланированной» аутентичности. Он не стремился к точной игре, а скорее к естественным реакциям людей в реальных ситуациях.

Создатели ИИ перенимают эту логику через различные средства. Посредник сместился с тела актёра на параметры модели, но то, что вносит режиссёр, остаётся неизменным: наблюдение за людьми, интуиция в отношении эмоций и, как неоднократно подчёркивает Ян Сюань, «искренность».

Стремление к совершенству — враг творения.

В конце интервью я задал гипотетический вопрос: если бы в будущем ИИ мог создавать идеальные работы одним щелчком мыши — без багов, без ошибок, с безупречным каждым кадром — вы были бы больше удовлетворены или почувствовали бы, что чего-то не хватает?

Ответ Ли Тин был прост: «Слишком много совершенства не всегда хорошо».

Она привела в пример характер босса. Сначала он был равнодушен к маленькому мальчику, а его оправдания после погони за ним были до смешного неуклюжими. Но именно из-за этого недостатка зрители находили его многогранным и реалистичным.

Что касается ошибки с телефоном, Ли Тин считает это незначительным недостатком, который не снижает общего качества. Она выбрала эту версию не из-за технических характеристик, а из-за «тонких движений и выражений лиц персонажей, а также плавности переходов камеры — именно такого ощущения подлинной игры я и хотела добиться».

«Чем проще инструмент, тем легче выразить себя». Ян Сюань пошел еще дальше: «Чтобы лучше выразить свои мысли простым способом, нужно яснее понимать, чего вы хотите и что вам нравится».

Именно этот вопрос неоднократно обсуждался: по мере постоянного совершенствования инструментов искусственного интеллекта и снижения технологических барьеров, в чем же именно заключается основная конкурентоспособность создателей контента?

В интервью Ян Сюань выделил три ключевых человеческих фактора: написание сценария, режиссура и художественное оформление. Хотя «умение пользоваться инструментами» имеет важное значение, эти инструменты будут становиться все более удобными и, следовательно, не будут представлять собой конкурентное преимущество.

Это скорее навык: умение вовремя остановиться.

Когда вы эмоционально вовлечены, прекратите вносить изменения; если ошибки на самом деле улучшают работу, не исправляйте их; если оставление пустых мест эффективнее их заполнения, не переусердствуйте.

Подобные суждения формируются не на основе моделей, а на основе человеческого опыта и интуиции. Чем мощнее инструмент, тем реже он становится.

Как и пропавший микрофон, это была техническая ошибка. Но с точки зрения коммуникации это неожиданно привело к определенному результату: после подтверждения аудитории, что «это было сделано искусственным интеллектом», внимание зрителей сосредоточилось на самой истории.

Этот «баг» стал своего рода пропуском, освобождающим зрителей от дилеммы «это правда?», поскольку ответ уже был ясен. Затем они перешли к оценке более важного вопроса: хороша ли эта история?

Ответ кроется в 40 миллионах просмотров и слезах, пролитых зрителями как внутри, так и вне фильма.

Самый бесчеловечный инструмент породил самый человечный короткометражный фильм. Возможно, более точное утверждение звучит так: инструменты никогда не были человечными. Человек всегда тот, кто использует инструмент.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.