Sistema de aprendizaje automático Stable Diffusion adaptado para síntesis musical

El proyecto Riffusion desarrolla una variante del sistema de aprendizaje automático Stable Diffusion adaptado para generar música en lugar de imágenes. La música se puede sintetizar mediante una descripción textual en lenguaje natural o basándose en una plantilla sugerida. Los componentes de síntesis musical están escritos en Python utilizando el marco PyTorch y están disponibles bajo la licencia MIT. El enlace con la interfaz se implementa en el lenguaje TypeScript y también se distribuye bajo la licencia MIT. Los modelos entrenados se publican bajo la licencia permisiva Creative ML OpenRAIL-M para uso comercial.

El proyecto es interesante porque continúa utilizando los modelos “texto a imagen” e “imagen a imagen” para la generación de música, pero manipula espectrogramas como imágenes. En otras palabras, la Difusión Estable clásica no se basa en fotografías e imágenes, sino en imágenes de espectrogramas que reflejan el cambio en la frecuencia y amplitud de la onda sonora a lo largo del tiempo. De este modo, en la salida se genera también un espectrograma que luego se convierte en una representación de audio.

Sistema de aprendizaje automático Stable Diffusion adaptado para síntesis musical

El método también se puede utilizar para modificar composiciones de sonido existentes y síntesis de música de muestra, similar a la modificación de imágenes en Stable Diffusion. Por ejemplo, la generación puede configurar espectrogramas de muestra con un estilo de referencia, combinar diferentes estilos, realizar una transición suave de un estilo a otro o realizar cambios en un sonido existente para resolver problemas como aumentar el volumen de instrumentos individuales, cambiar el ritmo y sustitución de instrumentos. Los patrones también se utilizan para generar composiciones de larga duración, compuestas por una serie de pasajes cercanos entre sí que varían ligeramente con el tiempo. Los fragmentos generados por separado se combinan en un flujo continuo interpolando los parámetros internos del modelo.

Sistema de aprendizaje automático Stable Diffusion adaptado para síntesis musical

Para crear un espectrograma a partir de sonido, se utiliza una transformada de Fourier en ventana. Al recrear el sonido a partir de un espectrograma, surge el problema de determinar la fase (en el espectrograma solo están presentes la frecuencia y la amplitud), para cuya reconstrucción se utiliza el algoritmo de aproximación de Griffin-Lim.



Fuente: opennet.ru

Añadir un comentario