Stabila Disvastigo maŝinlernsistemo adaptita por muzika sintezo

La Riffusion-projekto disvolvas version de la maŝinlernada sistemo Stable Diffusion, adaptita por generi muzikon anstataŭ bildoj. Muziko povas esti sintezita el teksta priskribo en natura lingvo aŭ bazita sur proponita ŝablono. La muziksintezkomponentoj estas skribitaj en Python uzante la PyTorch-kadron kaj estas haveblaj sub la MIT-licenco. La interfaca ligado estas efektivigita en TypeScript kaj ankaŭ estas distribuita sub la MIT-licenco. Trejnitaj modeloj estas licencitaj laŭ permesilo Creative ML OpenRAIL-M por komerca uzo.

La projekto estas interesa pro tio, ke ĝi daŭre uzas la modelojn "teksto-al-bildo" kaj "bildo-al-bildo" por generi muzikon, sed manipulas spektrogramojn kiel bildojn. Alivorte, klasika Stable Diffusion estas trejnita ne sur fotoj kaj bildoj, sed sur bildoj de spektrogramoj kiuj reflektas ŝanĝojn en la frekvenco kaj amplitudo de sonondo laŭlonge de la tempo. Sekve, spektrogramo ankaŭ estas formita ĉe la eligo, kiu tiam estas konvertita en sonreprezentantaron.

Stabila Disvastigo maŝinlernsistemo adaptita por muzika sintezo

La metodo ankaŭ povas esti uzita por modifi ekzistantajn sonkunmetaĵojn kaj sintezi muzikon de provaĵo, simila al bildmodifo en Stable Diffusion. Ekzemple, generacio povas provi spektrogramojn kun referenca stilo, kombini malsamajn stilojn, fari glatajn transirojn de unu stilo al alia aŭ fari ŝanĝojn al ekzistanta sono por solvi problemojn kiel pliigi la volumenon de individuaj instrumentoj, ŝanĝi la ritmon kaj ŝanĝi. instrumentoj. Provaĵoj ankaŭ kutimas generi long-ludantajn kunmetaĵojn, kunmetitajn de serio de proksime spacigitaj trairejoj kiuj varias iomete dum tempo. Aparte generitaj trairejoj estas kombinitaj en kontinuan fluon uzante interpoladon de la internaj parametroj de la modelo.

Stabila Disvastigo maŝinlernsistemo adaptita por muzika sintezo

Fenestra transformo de Fourier estas uzata por krei spektrogramon el sono. Dum rekreado de sono de spektrogramo, problemo ekestas kun determinado de la fazo (nur frekvenco kaj amplitudo ĉeestas sur la spektrogramo), por kies rekonstruo la Griffin-Lim-algoritmo estas uzata.



fonto: opennet.ru

Aldoni komenton