Stabiles maschinelles Diffusionslernsystem, angepasst für die Musiksynthese

Das Riffusion-Projekt entwickelt eine Version des maschinellen Lernsystems Stable Diffusion, die so angepasst ist, dass sie Musik anstelle von Bildern generiert. Musik kann aus einer Textbeschreibung in natürlicher Sprache oder basierend auf einer vorgeschlagenen Vorlage synthetisiert werden. Die Musiksynthesekomponenten sind in Python unter Verwendung des PyTorch-Frameworks geschrieben und stehen unter der MIT-Lizenz zur Verfügung. Die Schnittstellenbindung ist in TypeScript implementiert und wird auch unter der MIT-Lizenz vertrieben. Trainierte Modelle werden unter einer freizügigen Creative ML OpenRAIL-M-Lizenz für die kommerzielle Nutzung lizenziert.

Das Projekt ist insofern interessant, als es weiterhin die Modelle „Text-zu-Bild“ und „Bild-zu-Bild“ zur Musikerzeugung verwendet, Spektrogramme jedoch als Bilder manipuliert. Mit anderen Worten: Die klassische stabile Diffusion wird nicht auf Fotos und Bildern trainiert, sondern auf Bildern von Spektrogrammen, die Veränderungen der Frequenz und Amplitude einer Schallwelle im Laufe der Zeit widerspiegeln. Dementsprechend entsteht auch am Ausgang ein Spektrogramm, das dann in eine Audiodarstellung umgewandelt wird.

Stabiles maschinelles Diffusionslernsystem, angepasst für die Musiksynthese

Die Methode kann auch verwendet werden, um bestehende Klangkompositionen zu modifizieren und Musik aus einem Sample zu synthetisieren, ähnlich der Bildmodifikation in Stable Diffusion. Beispielsweise kann die Generierung Spektrogramme mit einem Referenzstil abtasten, verschiedene Stile kombinieren, sanfte Übergänge von einem Stil zum anderen vornehmen oder Änderungen an einem vorhandenen Klang vornehmen, um Probleme wie das Erhöhen der Lautstärke einzelner Instrumente, das Ändern des Rhythmus usw. zu lösen Instrumente. Samples werden auch verwendet, um lange Kompositionen zu erstellen, die aus einer Reihe eng beieinander liegender Passagen bestehen, die sich im Laufe der Zeit leicht ändern. Separat generierte Passagen werden durch Interpolation der internen Parameter des Modells zu einem kontinuierlichen Strom zusammengefasst.

Stabiles maschinelles Diffusionslernsystem, angepasst für die Musiksynthese

Eine gefensterte Fourier-Transformation wird verwendet, um aus Schall ein Spektrogramm zu erstellen. Bei der Rekonstruktion von Schall aus einem Spektrogramm entsteht ein Problem bei der Bestimmung der Phase (im Spektrogramm sind nur Frequenz und Amplitude vorhanden), für deren Rekonstruktion der Griffin-Lim-Näherungsalgorithmus verwendet wird.



Source: opennet.ru

Kommentar hinzufügen