Système d'apprentissage automatique Stable Diffusion adapté à la synthèse musicale

Le projet Riffusion développe une version du système d'apprentissage automatique Stable Diffusion, adaptée pour générer de la musique au lieu d'images. La musique peut être synthétisée à partir d’une description textuelle en langage naturel ou à partir d’un modèle proposé. Les composants de synthèse musicale sont écrits en Python à l'aide du framework PyTorch et sont disponibles sous licence MIT. La liaison d'interface est implémentée en TypeScript et est également distribuée sous licence MIT. Les modèles formés sont sous licence Creative ML OpenRAIL-M permissive pour un usage commercial.

Le projet est intéressant dans la mesure où il continue d'utiliser les modèles « texte à image » et « image à image » pour générer de la musique, mais manipule les spectrogrammes comme des images. En d’autres termes, la diffusion stable classique n’est pas formée sur des photographies et des images, mais sur des images de spectrogrammes qui reflètent les changements de fréquence et d’amplitude d’une onde sonore au fil du temps. En conséquence, un spectrogramme est également formé à la sortie, qui est ensuite converti en représentation audio.

Système d'apprentissage automatique Stable Diffusion adapté à la synthèse musicale

La méthode peut également être utilisée pour modifier des compositions sonores existantes et synthétiser de la musique à partir d'un échantillon, similaire à la modification d'image dans Stable Diffusion. Par exemple, la génération peut échantillonner des spectrogrammes avec un style de référence, combiner différents styles, effectuer des transitions en douceur d'un style à un autre ou apporter des modifications à un son existant pour résoudre des problèmes tels que l'augmentation du volume d'instruments individuels, le changement de rythme et le changement de style. instruments. Les échantillons sont également utilisés pour générer des compositions longues, composées d'une série de passages rapprochés qui varient légèrement dans le temps. Les passages générés séparément sont combinés en un flux continu en utilisant l'interpolation des paramètres internes du modèle.

Système d'apprentissage automatique Stable Diffusion adapté à la synthèse musicale

Une transformée de Fourier fenêtrée est utilisée pour créer un spectrogramme à partir du son. Lors de la recréation du son à partir d'un spectrogramme, un problème se pose avec la détermination de la phase (seules la fréquence et l'amplitude sont présentes sur le spectrogramme), pour la reconstruction de laquelle l'algorithme d'approximation Griffin-Lim est utilisé.



Source: opennet.ru

Ajouter un commentaire