Stabilni difuzijski sustav strojnog učenja prilagođen za glazbenu sintezu

Projekt Riffusion razvija verziju sustava za strojno učenje Stable Diffusion, prilagođenu generiranju glazbe umjesto slika. Glazba se može sintetizirati iz opisa teksta na prirodnom jeziku ili na temelju predloženog predloška. Komponente za sintezu glazbe napisane su u Pythonu pomoću okvira PyTorch i dostupne su pod licencom MIT-a. Povezivanje sučelja implementirano je u TypeScriptu i također se distribuira pod licencom MIT-a. Obučeni modeli licencirani su pod dopuštenom licencom Creative ML OpenRAIL-M za komercijalnu upotrebu.

Projekt je zanimljiv po tome što nastavlja koristiti modele "text-to-image" i "image-to-image" za generiranje glazbe, ali manipulira spektrogramima kao slikama. Drugim riječima, klasična stabilna difuzija ne trenira se na fotografijama i slikama, već na slikama spektrograma koji odražavaju promjene u frekvenciji i amplitudi zvučnog vala tijekom vremena. Sukladno tome, na izlazu se također formira spektrogram koji se zatim pretvara u audio prikaz.

Stabilni difuzijski sustav strojnog učenja prilagođen za glazbenu sintezu

Metoda se također može koristiti za modificiranje postojećih zvučnih kompozicija i sintetiziranje glazbe iz uzorka, slično modificiranju slike u Stable Diffusion. Na primjer, generacija može uzorkovati spektrograme s referentnim stilom, kombinirati različite stilove, napraviti glatke prijelaze iz jednog stila u drugi ili unijeti promjene u postojeći zvuk kako bi se riješili problemi kao što su povećanje glasnoće pojedinačnih instrumenata, promjena ritma i promjena instrumenti. Uzorci se također koriste za stvaranje dugosvirajućih skladbi, sastavljenih od niza blisko raspoređenih odlomaka koji se neznatno mijenjaju tijekom vremena. Odvojeno generirani odlomci kombiniraju se u kontinuirani tok pomoću interpolacije unutarnjih parametara modela.

Stabilni difuzijski sustav strojnog učenja prilagođen za glazbenu sintezu

Prozorska Fourierova transformacija koristi se za stvaranje spektrograma zvuka. Kod rekreiranja zvuka iz spektrograma javlja se problem određivanja faze (na spektrogramu su prisutne samo frekvencija i amplituda), za čiju se rekonstrukciju koristi Griffin-Lim aproksimacijski algoritam.



Izvor: opennet.ru

Dodajte komentar