Sistemi i mësimit të makinerive me difuzion të qëndrueshëm i përshtatur për sintezën e muzikës

Projekti Riffusion po zhvillon një version të sistemit të mësimit të makinerive Stable Diffusion, i përshtatur për të gjeneruar muzikë në vend të imazheve. Muzika mund të sintetizohet nga një përshkrim teksti në gjuhën natyrore ose bazuar në një shabllon të propozuar. Komponentët e sintezës së muzikës janë shkruar në Python duke përdorur kornizën PyTorch dhe janë të disponueshme nën licencën MIT. Lidhja e ndërfaqes zbatohet në TypeScript dhe shpërndahet gjithashtu nën licencën MIT. Modelet e trajnuara janë të licencuara nën një licencë lejuese Creative ML OpenRAIL-M për përdorim komercial.

Projekti është interesant në atë që vazhdon të përdorë modelet "tekst-për-imazh" dhe "imazh-për-imazh" për të gjeneruar muzikë, por manipulon spektrogramet si imazhe. Me fjalë të tjera, Difuzioni klasik i Qëndrueshëm nuk trajnohet në fotografi dhe fotografi, por në imazhe të spektrogrameve që pasqyrojnë ndryshimet në frekuencën dhe amplituda e një valë zanore me kalimin e kohës. Prandaj, në dalje formohet gjithashtu një spektrogram, i cili më pas shndërrohet në një paraqitje audio.

Sistemi i mësimit të makinerive me difuzion të qëndrueshëm i përshtatur për sintezën e muzikës

Metoda mund të përdoret gjithashtu për të modifikuar kompozimet ekzistuese të tingullit dhe për të sintetizuar muzikën nga një mostër, e ngjashme me modifikimin e imazhit në Difuzion të qëndrueshëm. Për shembull, gjenerimi mund të mostrojë spektrogramet me një stil referimi, të kombinojë stile të ndryshme, të bëjë tranzicion të qetë nga një stil në tjetrin ose të bëjë ndryshime në një tingull ekzistues për të zgjidhur probleme të tilla si rritja e volumit të instrumenteve individuale, ndryshimi i ritmit dhe ndryshimi instrumente. Mostrat përdoren gjithashtu për të gjeneruar kompozime me luajtje të gjatë, të përbërë nga një seri pasazhesh të ndara ngushtë që ndryshojnë pak me kalimin e kohës. Pasazhet e krijuara veçmas kombinohen në një rrjedhë të vazhdueshme duke përdorur interpolimin e parametrave të brendshëm të modelit.

Sistemi i mësimit të makinerive me difuzion të qëndrueshëm i përshtatur për sintezën e muzikës

Një transformim Furier me dritare përdoret për të krijuar një spektrogram nga tingulli. Kur rikrijohet tingulli nga një spektrogram, lind një problem me përcaktimin e fazës (në spektrogram janë të pranishme vetëm frekuenca dhe amplituda), për rindërtimin e së cilës përdoret algoritmi i përafrimit Griffin-Lim.



Burimi: opennet.ru

Shto një koment