Stabila difūzijas mašīnmācīšanās sistēma, kas pielāgota mūzikas sintēzei

Riffusion projekts izstrādā mašīnmācīšanās sistēmas Stable Diffusion versiju, kas pielāgota mūzikas ģenerēšanai attēlu vietā. Mūziku var sintezēt no teksta apraksta dabiskā valodā vai pamatojoties uz piedāvāto veidni. Mūzikas sintēzes komponenti ir rakstīti Python, izmantojot PyTorch sistēmu, un ir pieejami saskaņā ar MIT licenci. Saskarnes saistīšana ir ieviesta TypeScript un tiek izplatīta arī saskaņā ar MIT licenci. Apmācītie modeļi ir licencēti saskaņā ar Creative ML OpenRAIL-M licenci komerciālai lietošanai.

Projekts ir interesants ar to, ka mūzikas ģenerēšanai turpina izmantot modeļus “teksts-attēls” un “attēls-attēls”, bet manipulē ar spektrogrammām kā attēliem. Citiem vārdiem sakot, klasiskā stabilā difūzija tiek apmācīta nevis uz fotogrāfijām un attēliem, bet gan uz spektrogrammu attēliem, kas atspoguļo skaņas viļņa frekvences un amplitūdas izmaiņas laika gaitā. Attiecīgi izejā tiek veidota arī spektrogramma, kas pēc tam tiek pārveidota par audio attēlojumu.

Stabila difūzijas mašīnmācīšanās sistēma, kas pielāgota mūzikas sintēzei

Šo metodi var izmantot arī, lai modificētu esošās skaņas kompozīcijas un sintezētu mūziku no parauga, līdzīgi kā attēla modifikācijā Stable Diffusion. Piemēram, ģenerēšana var atlasīt spektrogrammas ar atsauces stilu, apvienot dažādus stilus, veikt vienmērīgas pārejas no viena stila uz citu vai veikt izmaiņas esošajā skaņā, lai atrisinātu tādas problēmas kā atsevišķu instrumentu skaļuma palielināšana, ritma maiņa un maiņa. instrumenti. Paraugus izmanto arī, lai radītu ilgstoši atskaņotas skaņdarbus, kas sastāv no cieši izvietotu fragmentu sērijas, kas laika gaitā nedaudz mainās. Atsevišķi ģenerēti fragmenti tiek apvienoti nepārtrauktā plūsmā, izmantojot modeļa iekšējo parametru interpolāciju.

Stabila difūzijas mašīnmācīšanās sistēma, kas pielāgota mūzikas sintēzei

Logu Furjē transformācija tiek izmantota, lai izveidotu spektrogrammu no skaņas. Atjaunojot skaņu no spektrogrammas, rodas problēma ar fāzes noteikšanu (spektrogrammā ir tikai frekvence un amplitūda), kuras rekonstrukcijai tiek izmantots Grifina-Lima aproksimācijas algoritms.



Avots: opennet.ru

Pievieno komentāru