Новый инструмент Meta с открытым исходным кодом и искусственным интеллектом поможет вам очистить шумные записи, просто набрав текст.
Обычно очистка звука сводится к проработке временных шкал и настройке фильтров, но компания Meta считает, что это должно быть так же просто, как описать желаемый звук. Компания выпустила новую модель искусственного интеллекта с открытым исходным кодом под названием SAM Audio, которая может выделить практически любой звук из сложной записи, используя простые текстовые подсказки.
Пользователи могут извлекать определенные звуки, такие как голоса, инструменты или фоновые шумы, без необходимости разбираться в сложном программном обеспечении для редактирования. Эта модель теперь доступна в Segment Anything Playground от Meta , где также размещены другие инструменты для редактирования изображений и видео на основе подсказок.
В общих чертах, SAM Audio разработан для того, чтобы понимать, с каким звуком вы хотите работать, и четко отделять его от всего остального. По словам Меты, это открывает возможности для более быстрого редактирования аудио в таких областях применения, как создание музыки, подкасты, кино и телевидение, инструменты обеспечения доступности и исследования.
Например, создатель может выделить вокал из записи музыкальной группы, удалить шум дорожного движения из подкаста или вырезать лай собаки из идеальной записи, — и все это, указав, на что именно он хочет, чтобы модель воздействовала.
Как работает SAM Audio
SAM Audio — это мультимодальная модель, поддерживающая три различных типа подсказок. Пользователи могут описать звук текстом, щелкнуть по человеку или объекту в видео, чтобы визуально определить звук, который они хотят выделить, или отметить временной промежуток, в котором звук впервые появляется. Эти подсказки можно использовать по отдельности или в сочетании, что позволяет пользователям точно контролировать, что именно будет выделено.
В основе системы лежит аудиовизуальный движок Meta Perception Encoder. Он отвечает за способность модели распознавать и понимать звуки, прежде чем исключать их из микса.
Для улучшения оценки разделения звука компания Meta также представила SAM Audio-Bench — бенчмарк для измерения того, насколько хорошо модели обрабатывают речь, музыку и звуковые эффекты. Его дополняет SAM Audio Judge, который оценивает, насколько естественно и точно разделенный звук звучит для слушателя-человека, даже без эталонных треков для сравнения.
Компания Meta утверждает, что эти оценки показывают, что SAM Audio демонстрирует наилучшие результаты при комбинировании различных типов подсказок и может обрабатывать аудио быстрее, чем в реальном времени, даже в больших масштабах.
Тем не менее, у этой модели есть явные ограничения. Она не поддерживает аудиоподсказки, не может выполнить полное разделение без каких-либо подсказок и испытывает трудности с похожими наложенными звуками, например, с выделением отдельного голоса из хора.
Компания Meta заявляет о планах по улучшению этих областей и уже изучает возможности их практического применения, включая работу по обеспечению доступности совместно с производителями слуховых аппаратов и организациями, оказывающими поддержку людям с ограниченными возможностями.
Запуск SAM Audio связан с более широким направлением развития искусственного интеллекта в Meta. Компания улучшает четкость речи в своих очках с ИИ для работы в шумной обстановке , работает над созданием очков смешанной реальности следующего поколения, выход которых ожидается в 2027 году , и разрабатывает разговорный ИИ, который может составить конкуренцию ChatGPT , что свидетельствует о более широком внимании к моделям ИИ, которые понимают звук, контекст и взаимодействие.
Статья "Новый инструмент Meta с открытым исходным кодом на основе ИИ помогает очищать шумные записи просто с помощью ввода текста" впервые появилась на сайте Digital Trends .