Stable Diffusion ikasketa automatikoko sistema musika-sintesirako egokitua

Riffusion proiektua Stable Diffusion ikaskuntza automatikoaren sistemaren bertsio bat garatzen ari da, irudien ordez musika sortzeko egokitua. Musika hizkuntza naturaleko testu-deskribapen batetik sintetizatu daiteke edo proposatutako txantiloi batean oinarrituta. Musika sintesiaren osagaiak Python-en idatzita daude PyTorch esparrua erabiliz eta MIT lizentziapean daude eskuragarri. Interfazearen lotura TypeScript-en inplementatuta dago eta MIT lizentziapean ere banatzen da. Prestatutako modeloek Creative ML OpenRAIL-M lizentzia baimendun baten pean daude erabilera komertzialerako.

Proiektua interesgarria da, musika sortzeko β€œtestutik irudira” eta β€œiruditik irudira” ereduak erabiltzen jarraitzen duelako, baina espektrogramak irudi gisa manipulatzen ditu. Beste era batera esanda, Stable Diffusion klasikoa ez da argazkietan eta irudietan trebatzen, soinu-uhin baten maiztasun eta anplitudearen aldaketak denboran zehar islatzen dituzten espektrogramen irudietan baizik. Horren arabera, irteeran espektrograma bat ere sortzen da, eta gero audio-irudikapen bihurtzen da.

Stable Diffusion ikasketa automatikoko sistema musika-sintesirako egokitua

Metodoa lehendik dauden soinu-konposizioak aldatzeko eta lagin batetik musika sintetizatzeko ere erabil daiteke, Stable Diffusion-en irudien aldaketaren antzera. Esate baterako, belaunaldiak espektrogramak lagin ditzake erreferentzia-estilo batekin, estilo desberdinak konbinatu, estilo batetik besterako trantsizio leunak egin edo lehendik dagoen soinu batean aldaketak egin ditzake, instrumentu indibidualen bolumena handitzea, erritmoa aldatzea eta aldatzea bezalako arazoak konpontzeko. instrumentuak. Laginak luze jotzeko konposizioak sortzeko ere erabiltzen dira, denboraren poderioz pixka bat aldatzen diren tarte hurbileko pasartez osatuak. Bereiz sortutako pasabideak etengabeko korronte batean konbinatzen dira ereduaren barne-parametroen interpolazioa erabiliz.

Stable Diffusion ikasketa automatikoko sistema musika-sintesirako egokitua

Leihodun Fourier transformatua erabiltzen da soinutik espektrograma bat sortzeko. Soinua espektrograma batetik birsortzerakoan, fasea zehaztean arazo bat sortzen da (espektrograman maiztasuna eta anplitudea bakarrik daude), zeinaren berreraikuntzarako Griffin-Lim hurbilketa algoritmoa erabiltzen da.



Iturria: opennet.ru

Gehitu iruzkin berria