Эксклюзив: YouTube показывает, как заставить вас говорить на языках, которых вы не знаете

Было бы преуменьшением сказать, что индустрия видеоконтента сейчас переживает переломный момент. С одной стороны, ИИ значительно расширяет творческий потенциал создателей контента, но с другой стороны, проблема неэффективности ИИ и дезинформации никуда не девается. Однако нельзя игнорировать огромный потенциал ИИ.

Ребята с YouTube используют это с пользой, делая акцент на доступности и реализме. Итак, что дальше? Губы должны двигаться естественно под мелодию любого языка, даже если говорящий на нём не говорит. Развивая функцию автоматического дубляжа, запущенную в прошлом году, команда теперь разработала новую функцию синхронизации губ на базе искусственного интеллекта.

Качество машинного перевода значительно улучшилось за последние несколько кварталов, и теперь оно звучит почти естественно. Обзоры аудиозаписей в NotebookLM от Google — отличный пример. Но когда дело доходит до видео, они оказываются неэффективными, потому что движение губ просто не соответствует тому, что говорит говорящий в переводе.

Это довольно раздражающе и отталкивающе. Функция синхронизации губ на базе искусственного интеллекта призвана преодолеть этот аудиовизуальный диссонанс. И, судя по уже увиденным мной примерам, они выглядят невероятно естественно. Я поговорил с руководителем отдела автодаббинга YouTube Буддхикой Коттахаччи, чтобы узнать, как развивалась технология синхронизации губ, как она повлияла на неё и какие перспективы у неё на будущее.

Углубляемся в техническую сторону

Менее чем за год с момента запуска функция автоматического дубляжа YouTube использовалась для озвучивания более 60 миллионов видеороликов на 20 языках. Но сохранить естественный тон разговорной речи со всеми её нюансами и сопоставить его с реалистичными движениями губ — это совершенно новая задача.

На поверхностном уровне Коттахаччи рассказывает мне, что система синхронизации губ «изменяет пиксели на экране в соответствии с переводимой речью». Руководитель Google рассказал мне, что это специальный технологический стек, добавив, что им нужно было разработать трёхмерное представление мира, формы губ, зубов, осанки и лица.

На данный момент технология поддерживает Full HD (1080p), но пока не поддерживает видео 4K. «Но в целом она должна работать с видео того разрешения, которое вы загружаете», — отмечает он. Что касается языковой поддержки, функция синхронизации губ YouTube на базе искусственного интеллекта поддерживает английский, испанский, немецкий, португальский и французский языки.

Это довольно ограниченный набор, но Коттахаччи рассказал мне, что команда расширяется, и в конечном итоге синхронизация с губами будет поддерживать тот же набор языков, что и функция автоматического дубляжа (сейчас она насчитывает более 20 языков). Для сравнения, функция синхронизации с губами Meta на базе искусственного интеллекта для Facebook и Instagram поддерживает только английский, испанский, хинди и португальский.

Синхронизация губ с помощью ИИ — не совсем новая концепция. Adobe уже предлагает функцию автоматической синхронизации губ. Существуют также сторонние сервисы, такие как HeyGen, которые заявляют, что делают это бесплатно. Но когда речь идёт о YouTube, речь идёт о масштабной встроенной системе на платформе, где ежедневно загружается 20 миллионов видео.

Рыбка Babel для вашего лица

Итак, что нас ждёт в плане доступности? «Мы не готовы делать какие-либо общие заявления о том, насколько широко мы его сделаем, но мы хотим сделать его доступным для большего числа создателей и понимать ограничения вычислительных мощностей и качество», — говорит мне Коттахаччи. И это подводит нас к важному вопросу стоимости.

Когда я спросил об этом, руководство YouTube ответило, что они не могут предсказать размер комиссии, если вообще могут. Это также объясняет, почему функция всё ещё находится в рамках пилотного проекта, реализуемого небольшой группой доверенных тестировщиков, чтобы понять рынок и рассчитать стоимость. Напомним, что это сложная реализация искусственного интеллекта на основе машинного зрения.

Итак, как и в случае с видео, созданными с помощью искусственного интеллекта, где можно создать несколько клипов бесплатно, но нужно платить за более высокое разрешение или количество попыток, YouTube придётся учитывать затраты на вычисления и принимать решение о запуске. Но с точки зрения автора, если я стремлюсь к более широкому охвату, я, вероятно, заплачу подписку.

Дилемма ИИ

С тех пор, как изображения, созданные с помощью ИИ, начали заполонять интернет, споры о подлинности и честности раскрытия информации обострились. «Что вообще реально?» Пользователи социальных сетей стали задавать этот вопрос с ещё большим энтузиазмом после того, как начали появляться невероятно реалистичные видеоролики, созданные приложением Sora от OpenAI .

На этих видео есть видимый водяной знак, но уже существуют бесплатные и платные инструменты, которые удаляют метку Sora из клипов, созданных ИИ. Или любого другого генератора контента, созданного ИИ. Google, один из крупнейших разработчиков и последователей ИИ, прекрасно это знает.

Компания была одним из первых лидеров в гонке за создание отпечатков пальцев на основе искусственного интеллекта со своей системой SynthID , а также запустила инструмент SynthID Detector в начале этого года, чтобы помочь пользователям проверять происхождение мультимедийного контента .

К видео на YouTube, использующим функцию синхронизации губ Google на базе искусственного интеллекта, будут применяться ещё более осторожные меры. «Мы должным образом объясним, что и аудио, и видео в этом видео были созданы или изменены искусственно», — говорит мне Коттахаччи. «Сам видеоконтент также будет подвергнут идентификации».

Текстовые уведомления будут отображаться в поле описания под названием видео на YouTube, так же, как и для видео, озвученных с помощью системы автоматического дубляжа. Но как другие платформы будут относиться к видео на YouTube с озвучкой ИИ и синхронизацией с губами, если создатели публикуют их в Instagram или TikTok?

Будут ли алгоритмы разогреваться?

TikTok недавно объявил, что будет помечать видео, «созданное или отредактированное» с помощью инструментов ИИ, а также маркировать их, чтобы пользователи могли проверить их происхождение с помощью инструмента Verify от C2PA. У Meta есть похожая система. Так что же происходит с видео, отредактированными ИИ и размещенными на других социальных видеоплатформах?

Будут ли они алгоритмически понижены в рейтинге или заблокированы от появления в определённых лентах? Ситуация довольно сложная и непредсказуемая. «Мы внимательно следим за этим, но пока рано делать выводы, поскольку платформы сделали заявления, но мы не видели, как они эффективно реализуются», — говорит он. «Как правило, мы переводим переводы, а не новый контент».

Я также поднял вопрос о том, как недобросовестные актёры используют видео создателей без их согласия, переводят аудио и продвигают их с другого канала или платформы. Автоматическое дубляж и синхронизация речи с помощью искусственного интеллекта технически упрощают реализацию этого недобросовестного акта, но вряд ли он превратится в полный хаос.

«Если ваше изображение используется где-то ещё на платформе, вы можете сообщить нам об этом и попросить удалить его», — сказал мне Коттахаччи. Было бы интересно посмотреть, как автоматическое дубляж, выразительный звук и видео с синхронизацией губ сделают использование YouTube более разнообразным. На первый взгляд, это кажется победой.

Мне не терпится заговорить по-испански, хотя я уже много лет как забросил Duolingo.