Stabilen difuzijski strojni učni sistem, prilagojen za glasbeno sintezo

Projekt Riffusion razvija različico sistema strojnega učenja Stable Diffusion, ki je prilagojen za ustvarjanje glasbe namesto slik. Glasbo je mogoče sintetizirati iz besedilnega opisa v naravnem jeziku ali na podlagi predlagane predloge. Komponente za sintezo glasbe so napisane v Pythonu z uporabo ogrodja PyTorch in so na voljo pod licenco MIT. Vezava vmesnika je implementirana v TypeScript in se prav tako distribuira pod licenco MIT. Izurjeni modeli so licencirani pod permisivno licenco Creative ML OpenRAIL-M za komercialno uporabo.

Projekt je zanimiv, ker še naprej uporablja modele "besedilo v sliko" in "slika v sliko" za ustvarjanje glasbe, vendar manipulira s spektrogrami kot s slikami. Z drugimi besedami, klasična stabilna difuzija se ne trenira na fotografijah in slikah, temveč na slikah spektrogramov, ki odražajo spremembe frekvence in amplitude zvočnega vala skozi čas. Skladno s tem se na izhodu oblikuje tudi spektrogram, ki se nato pretvori v zvočno predstavitev.

Stabilen difuzijski strojni učni sistem, prilagojen za glasbeno sintezo

Metodo je mogoče uporabiti tudi za spreminjanje obstoječih zvočnih kompozicij in sintetiziranje glasbe iz vzorca, podobno kot spreminjanje slike v Stable Diffusion. Generacija lahko na primer vzorči spektrograme z referenčnim slogom, kombinira različne sloge, naredi gladke prehode iz enega sloga v drugega ali spremeni obstoječi zvok, da reši težave, kot je povečanje glasnosti posameznih instrumentov, spreminjanje ritma in zamenjava instrumenti. Vzorci se uporabljajo tudi za ustvarjanje dolgo igrajočih skladb, sestavljenih iz niza odlomkov, ki so blizu drug drugemu in se skozi čas nekoliko spreminjajo. Ločeno ustvarjeni prehodi so združeni v neprekinjen tok z uporabo interpolacije notranjih parametrov modela.

Stabilen difuzijski strojni učni sistem, prilagojen za glasbeno sintezo

Okenska Fourierjeva transformacija se uporablja za ustvarjanje spektrograma iz zvoka. Pri poustvarjanju zvoka iz spektrograma se pojavi težava pri določanju faze (na spektrogramu sta prisotni le frekvenca in amplituda), za rekonstrukcijo katere se uporablja Griffin-Limov aproksimacijski algoritem.



Vir: opennet.ru

Dodaj komentar