Stabilios difuzijos mašininio mokymosi sistema, pritaikyta muzikos sintezei

Projektas „Riffusion“ kuria mašininio mokymosi sistemos „Stable Diffusion“ versiją, pritaikytą generuoti muziką, o ne vaizdus. Muzika gali būti susintetinta iš teksto aprašymo natūralia kalba arba pagal siūlomą šabloną. Muzikos sintezės komponentai parašyti Python naudojant PyTorch sistemą ir yra prieinami pagal MIT licenciją. Sąsajos susiejimas įdiegtas „TypeScript“ ir taip pat platinamas pagal MIT licenciją. Apmokyti modeliai yra licencijuoti pagal leidžiamą Creative ML OpenRAIL-M licenciją komerciniam naudojimui.

Projektas įdomus tuo, kad ir toliau naudoja modelius „tekstas į vaizdą“ ir „vaizdas į vaizdą“ kuriant muziką, tačiau manipuliuoja spektrogramomis kaip vaizdais. Kitaip tariant, klasikinė stabili difuzija treniruojama ne nuotraukomis ir paveikslėliais, o spektrogramų vaizdais, atspindinčiais garso bangos dažnio ir amplitudės pokyčius laikui bėgant. Atitinkamai, išvestyje taip pat suformuojama spektrograma, kuri vėliau paverčiama garso atvaizdavimu.

Stabilios difuzijos mašininio mokymosi sistema, pritaikyta muzikos sintezei

Metodas taip pat gali būti naudojamas esamoms garso kompozicijoms modifikuoti ir muzikai iš pavyzdžio sintezuoti, panašiai kaip vaizdo modifikavimas naudojant Stable Diffusion. Pavyzdžiui, generavimas gali atrinkti spektrogramas su etaloniniu stiliumi, derinti skirtingus stilius, sklandžiai pereiti iš vieno stiliaus į kitą arba pakeisti esamą garsą, kad išspręstų tokias problemas kaip atskirų instrumentų garsumo didinimas, ritmo keitimas ir pakeitimas. instrumentai. Pavyzdžiai taip pat naudojami kuriant ilgai grojančias kompozicijas, sudarytas iš eilės ištraukų, kurios yra arti viena kitos ir laikui bėgant šiek tiek skiriasi. Atskirai sukurti fragmentai sujungiami į nenutrūkstamą srautą, naudojant modelio vidinių parametrų interpoliaciją.

Stabilios difuzijos mašininio mokymosi sistema, pritaikyta muzikos sintezei

Langinė Furjė transformacija naudojama spektrogramai iš garso sukurti. Atkuriant garsą iš spektrogramos, iškyla fazės nustatymo problema (spektrogramoje yra tik dažnis ir amplitudė), kurios atkūrimui naudojamas Grifino-Limo ​​aproksimacijos algoritmas.



Šaltinis: opennet.ru

Добавить комментарий