Stabilný difúzny systém strojového učenia prispôsobený na syntézu hudby

Projekt Riffusion vyvíja verziu systému strojového učenia Stable Diffusion, prispôsobenú na generovanie hudby namiesto obrázkov. Hudbu je možné syntetizovať z textového popisu v prirodzenom jazyku alebo na základe navrhovanej šablóny. Komponenty hudobnej syntézy sú napísané v Pythone pomocou rámca PyTorch a sú dostupné pod licenciou MIT. Väzba rozhrania je implementovaná v TypeScript a je tiež distribuovaná pod licenciou MIT. Trénované modely sú licencované pod licenciou Creative ML OpenRAIL-M pre komerčné použitie.

Projekt je zaujímavý tým, že na generovanie hudby naďalej používa modely „text-to-image“ a „image-to-image“, ale so spektrogramami manipuluje ako s obrázkami. Inými slovami, klasická stabilná difúzia nie je trénovaná na fotografiách a obrázkoch, ale na obrázkoch spektrogramov, ktoré odrážajú zmeny frekvencie a amplitúdy zvukovej vlny v priebehu času. Podľa toho sa na výstupe vytvorí aj spektrogram, ktorý sa potom prevedie na zvukovú reprezentáciu.

Stabilný difúzny systém strojového učenia prispôsobený na syntézu hudby

Metódu možno použiť aj na úpravu existujúcich zvukových kompozícií a syntetizovanie hudby zo vzorky, podobne ako pri úprave obrazu v Stable Diffusion. Generovanie môže napríklad vzorkovať spektrogramy s referenčným štýlom, kombinovať rôzne štýly, robiť plynulé prechody z jedného štýlu do druhého alebo vykonávať zmeny v existujúcom zvuku, aby sa vyriešili problémy, ako je zvýšenie hlasitosti jednotlivých nástrojov, zmena rytmu a zmena nástrojov. Ukážky sa tiež používajú na generovanie dlhohrajúcich kompozícií, zložených zo série tesne rozmiestnených pasáží, ktoré sa v priebehu času mierne menia. Samostatne generované pasáže sú spojené do súvislého prúdu pomocou interpolácie vnútorných parametrov modelu.

Stabilný difúzny systém strojového učenia prispôsobený na syntézu hudby

Okienková Fourierova transformácia sa používa na vytvorenie spektrogramu zo zvuku. Pri obnove zvuku zo spektrogramu vzniká problém s určením fázy (na spektrograme je prítomná iba frekvencia a amplitúda), na rekonštrukciu ktorej sa používa Griffinov-Limov aproximačný algoritmus.



Zdroj: opennet.ru

Pridať komentár