Sistem mašinskog učenja Stable Diffusion prilagođen za sintezu muzike

Projekat Riffusion razvija verziju sistema za mašinsko učenje Stable Diffusion, prilagođen za generisanje muzike umesto slika. Muzika se može sintetizirati iz tekstualnog opisa na prirodnom jeziku ili na osnovu predloženog šablona. Komponente muzičke sinteze su napisane u Python-u koristeći PyTorch framework i dostupne su pod MIT licencom. Vezivanje interfejsa je implementirano u TypeScript i takođe se distribuira pod MIT licencom. Obučeni modeli su licencirani pod dopuštenom Creative ML OpenRAIL-M licencom za komercijalnu upotrebu.

Projekat je zanimljiv po tome što nastavlja da koristi modele “tekst-slika” i “slika-slika” za generisanje muzike, ali manipuliše spektrogramima kao slikama. Drugim riječima, klasična stabilna difuzija se ne trenira na fotografijama i slikama, već na slikama spektrograma koji odražavaju promjene frekvencije i amplitude zvučnog talasa tokom vremena. Shodno tome, na izlazu se formira i spektrogram, koji se zatim pretvara u audio prikaz.

Sistem mašinskog učenja Stable Diffusion prilagođen za sintezu muzike

Metoda se također može koristiti za modificiranje postojećih zvučnih kompozicija i sintetiziranje muzike iz uzorka, slično modificiranju slike u Stable Diffusion. Na primjer, generacija može uzorkovati spektrograme s referentnim stilom, kombinirati različite stilove, napraviti glatke prijelaze iz jednog stila u drugi ili napraviti promjene u postojećem zvuku kako bi riješio probleme kao što su povećanje jačine pojedinačnih instrumenata, promjena ritma i promjena instrumenti. Uzorci se također koriste za generiranje dugosvirajućih kompozicija, sastavljenih od niza usko raspoređenih pasusa koji se neznatno mijenjaju tokom vremena. Zasebno generisani pasusi se kombinuju u kontinuirani tok koristeći interpolaciju internih parametara modela.

Sistem mašinskog učenja Stable Diffusion prilagođen za sintezu muzike

Fourierova transformacija sa prozorima koristi se za kreiranje spektrograma iz zvuka. Prilikom rekreacije zvuka iz spektrograma javlja se problem s određivanjem faze (na spektrogramu su prisutne samo frekvencija i amplituda), za čiju se rekonstrukciju koristi Griffin-Lim aproksimacijski algoritam.



izvor: opennet.ru

Dodajte komentar