Sistema de aprendizaxe automática Stable Diffusion adaptado para a síntese de música

O proxecto Riffusion está a desenvolver unha versión do sistema de aprendizaxe automática Stable Diffusion, adaptada para xerar música en lugar de imaxes. A música pódese sintetizar a partir dunha descrición de texto en linguaxe natural ou baseándose nun modelo proposto. Os compoñentes de síntese de música están escritos en Python usando o marco PyTorch e están dispoñibles baixo a licenza MIT. A ligazón de interface está implementada en TypeScript e tamén se distribúe baixo a licenza MIT. Os modelos adestrados están licenciados baixo unha licenza Creative ML OpenRAIL-M permisiva para uso comercial.

O proxecto é interesante porque segue a utilizar os modelos "texto a imaxe" e "imaxe a imaxe" para xerar música, pero manipula os espectrogramas como imaxes. Noutras palabras, a difusión estable clásica non está adestrada en fotografías e imaxes, senón en imaxes de espectrogramas que reflicten os cambios na frecuencia e amplitude dunha onda sonora ao longo do tempo. En consecuencia, tamén se forma un espectrograma na saída, que despois se converte nunha representación de audio.

Sistema de aprendizaxe automática Stable Diffusion adaptado para a síntese de música

O método tamén se pode usar para modificar composicións sonoras existentes e sintetizar música a partir dunha mostra, de xeito similar á modificación da imaxe en Stable Diffusion. Por exemplo, a xeración pode mostrar espectrogramas cun estilo de referencia, combinar diferentes estilos, realizar transicións suaves dun estilo a outro ou facer cambios nun son existente para resolver problemas como aumentar o volume de instrumentos individuais, cambiar o ritmo e cambiar o ritmo. instrumentos. As mostras tamén se utilizan para xerar composicións de longa duración, compostas por unha serie de pasaxes moi espaciadas que varían lixeiramente co tempo. As pasaxes xeradas por separado combínanse nun fluxo continuo mediante a interpolación dos parámetros internos do modelo.

Sistema de aprendizaxe automática Stable Diffusion adaptado para a síntese de música

Unha transformada de Fourier con fiestra úsase para crear un espectrograma a partir do son. Ao recrear o son dun espectrograma, xorde un problema ao determinar a fase (no espectrograma só están presentes a frecuencia e a amplitude), para a reconstrución da cal se utiliza o algoritmo de aproximación Griffin-Lim.



Fonte: opennet.ru

Engadir un comentario