Технология VOID AI от Netflix удаляет объекты, сохраняя при этом движение в реальном мире.

Netflix подробно рассказывает об инструменте для обработки видео на основе искусственного интеллекта , который выходит за рамки простой очистки. Его система, называемая VOID, вырезает отдельные элементы из видеоматериала, сохраняя при этом все остальное в реалистичном виде.

Это знаменует собой сдвиг в области видеомонтажа с использованием ИИ. Существующие инструменты могут удалять ненужные элементы, но часто оставляют после себя движение, которое кажется неправдоподобным, например, парящие объекты или беспричинные остановки действий. VOID фокусируется на том, что происходит после монтажа, восстанавливая последовательность таким образом, чтобы результат по-прежнему соответствовал правдоподобной причинно-следственной связи.

Исследование показывает, что модель может корректировать взаимодействия в ответ на изменения, поэтому, если удалить вспомогательный объект, оставшиеся элементы реагируют естественным образом, а не зависают или дают сбои. По сути, она переписывает физическую логику кадра в соответствии с новой конфигурацией.

Для монтажеров и студий это означает возможность более качественной обработки на этапе постпродакшена без нарушения эффекта погружения, особенно в кадрах, где взаимодействуют несколько элементов.

Как VOID переписывает кадр

VOID рассматривает изменения как цепную реакцию. Он определяет, что может быть затронуто после удаления элемента, а затем восстанавливает последовательность таким образом, чтобы действие оставалось логически выверенным.

Модель начинает с определения затронутых областей, включая те, где могут измениться тени, столкновения или опоры. Затем она строит структурированную карту этих изменений и генерирует новую версию видеоматериала, отражающую их. Второй этап уточнения сглаживает движение и предотвращает деформацию объектов при следовании по обновленным траекториям.

Почему важен монтаж с учетом физических законов физики

Особенно выделяется подход VOID к анализу причинно-следственных связей. Модель была обучена на тысячах смоделированных последовательностей, что помогает ей понимать, как объекты реагируют на изменение условий.

В одном из примеров удаление части цепочки домино не просто стирает плитки, а полностью останавливает реакцию, потому что не остаётся ничего, что могло бы продолжить движение. В другом случае удаление человека, взаимодействующего с объектами, не останавливает кадр, оставшееся поведение продолжается, как и ожидалось.

VOID применяет усвоенные правила причинно-следственной связи, а не копирует закономерности из ранее использованных видеоматериалов.

Что посмотреть дальше

VOID пока находится на стадии исследования, подробности описаны в статье на arXiv, а не в официальном релизе продукта. Сроки появления подобного редактирования в потребительских инструментах или профессиональном программном обеспечении пока неизвестны.

Тем не менее, направление ясно. По мере развития видеомонтажных процессов с использованием ИИ, инструменты, понимающие физические взаимодействия, станут более важными для высококачественного монтажа, особенно в кино и на телевидении, где небольшие несоответствия быстро разрушают эффект погружения.

Следующий шаг — масштабирование до более сложных сценариев. Это включает в себя более плотные конфигурации, больше объектов и более длинные последовательности, где перекрываются множественные взаимодействия. Если этот прогресс сохранится, редактирование с учетом физических законов может подтолкнуть видеоинструменты к полной реконструкции последовательностей, которая выдержит более тщательную проверку.