Stabil diffúziós gépi tanulási rendszer zenei szintézishez adaptálva

A Riffusion projekt a Stable Diffusion gépi tanulási rendszer egy olyan változatát fejleszti, amely képek helyett zenét generál. A zene szintetizálható szöveges leírásból természetes nyelven vagy egy javasolt sablon alapján. A zenei szintézis összetevői Python nyelven, a PyTorch keretrendszerrel vannak megírva, és az MIT licenc alatt érhetők el. Az interfész-összerendelés TypeScript-ben van megvalósítva, és az MIT licenc alatt is terjeszthető. A betanított modellek kereskedelmi használatra engedélyezett Creative ML OpenRAIL-M licenc alatt állnak.

A projekt érdekessége, hogy továbbra is a „text-image” és „image-to-image” modelleket használja zene generálására, de a spektrogramokat képként manipulálja. Más szavakkal, a klasszikus stabil diffúziót nem fényképeken és képeken, hanem spektrogrammokon képezik, amelyek tükrözik a hanghullámok frekvenciájának és amplitúdójának időbeli változásait. Ennek megfelelően a kimeneten egy spektrogram is keletkezik, amelyet aztán audio reprezentációvá alakítanak át.

Stabil diffúziós gépi tanulási rendszer zenei szintézishez adaptálva

A módszer használható meglévő hangkompozíciók módosítására és zene szintetizálására is mintából, hasonlóan a Stable Diffusion képmódosításához. A generálás például mintát vehet spektrogramokból referenciastílussal, különböző stílusokat kombinálhat, zökkenőmentesen válthat át egyik stílusról a másikra, vagy módosíthat egy meglévő hangzást olyan problémák megoldása érdekében, mint az egyes hangszerek hangerejének növelése, ritmusváltás és változtatás. hangszerek. A minták segítségével hosszan játszható kompozíciókat is készítenek, amelyek egymáshoz közel elhelyezkedő szakaszokból állnak, amelyek idővel kissé változnak. A külön generált szövegrészeket a modell belső paramétereinek interpolációjával egy folytonos adatfolyamba vonják össze.

Stabil diffúziós gépi tanulási rendszer zenei szintézishez adaptálva

Az ablakos Fourier-transzformáció segítségével spektrogramot hozhatunk létre hangból. A hang spektrogramból történő újraalkotásakor probléma adódik a fázis meghatározásával (a spektrogramon csak a frekvencia és az amplitúdó van jelen), amelynek rekonstrukciójához a Griffin-Lim közelítő algoritmust használjuk.



Forrás: opennet.ru

Hozzászólás