Código abierto para Spleeter, un sistema para separar música y voz

Proveedor de streaming Deezer ha abierto Textos fuente del proyecto experimental Spleeter, que desarrolla un sistema de aprendizaje automático para separar fuentes de sonido de composiciones de audio complejas. El programa te permite eliminar voces de una composición y dejar solo el acompañamiento musical, manipular el sonido de instrumentos individuales o descartar la música y dejar la voz para superponerla con otra serie de sonidos, crear mezclas, karaoke o transcripción. El código del proyecto está escrito en Python usando el motor Tensorflow y distribuido por bajo la licencia del MIT.

Para cargar Ofrecido Modelos ya entrenados para separar voces (una voz) del acompañamiento, así como para dividir en 4 y 5 corrientes, incluyendo voz, batería, bajo, piano y el resto del sonido. Spleeter se puede utilizar como biblioteca de Python y como utilidad de línea de comandos independiente. En el caso más simple, basado en el archivo fuente. se crea dos, cuatro o cinco archivos con componentes de voz y acompañamiento (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav).

Al dividirse en 2 y 4 subprocesos, Spleeter proporciona un rendimiento muy alto; por ejemplo, cuando se usa la GPU, dividir un archivo de audio en 4 subprocesos lleva 100 veces menos tiempo que la duración de la composición original. En un sistema con una GPU NVIDIA GeForce GTX 1080 y una CPU Intel Xeon Gold 32 de 6134 núcleos, la colección de pruebas de musDB, que duró tres horas y 27 minutos, se procesó en 90 segundos.

Código abierto para Spleeter, un sistema para separar música y voz



Entre las ventajas de Spleeter, frente a otros desarrollos en el campo de la separación de audio, como el proyecto de código abierto Abrir-desmezclar, menciona el uso de modelos de mayor calidad creados a partir de una extensa colección de archivos de sonido. Debido a las restricciones de derechos de autor, los investigadores de aprendizaje automático tienen acceso limitado a colecciones públicas de archivos de música bastante escasas, mientras que los modelos de Spleeter se construyeron utilizando datos del vasto catálogo de música de Deezer.

En por comparacion con Open-Unmix, la herramienta de separación de Spleeter es aproximadamente un 35% más rápida cuando se prueba en la CPU, admite archivos MP3 y genera resultados notablemente mejores (la separación de voces en Open-Unmix deja rastros de algunas herramientas, lo que probablemente se deba al hecho de que el Los modelos Open-Unmix están entrenados en una colección de sólo 150 composiciones).

Fuente: opennet.ru

Añadir un comentario