Sistema ta 'tagħlim tal-magni tad-Diffużjoni stabbli adattata għas-sinteżi tal-mużika

Il-proġett Riffusion qed jiżviluppa verżjoni tas-sistema tat-tagħlim tal-magni Stable Diffusion, adattata biex tiġġenera mużika minflok immaġini. Il-mużika tista' tiġi sintetizzata minn deskrizzjoni ta' test b'lingwaġġ naturali jew ibbażata fuq mudell propost. Il-komponenti tas-sinteżi tal-mużika huma miktuba f'Python bl-użu tal-qafas PyTorch u huma disponibbli taħt il-liċenzja MIT. L-irbit tal-interface huwa implimentat f'TypeScript u huwa distribwit ukoll taħt il-liċenzja tal-MIT. Mudelli mħarrġa huma liċenzjati taħt liċenzja Creative ML OpenRAIL-M permissiva għall-użu kummerċjali.

Il-proġett huwa interessanti peress li jkompli juża l-mudelli "test-to-image" u "image-to-image" biex jiġġenera mużika, iżda jimmanipula spettrogrammi bħala immaġini. Fi kliem ieħor, id-Diffużjoni Stabbli klassika hija mħarrġa mhux fuq ritratti u stampi, iżda fuq stampi ta 'spettrogrammi li jirriflettu bidliet fil-frekwenza u l-amplitudni ta' mewġa tal-ħoss maż-żmien. Għaldaqstant, spettrogramma hija wkoll iffurmata fl-output, li mbagħad tiġi kkonvertita f'rappreżentazzjoni awdjo.

Sistema ta 'tagħlim tal-magni tad-Diffużjoni stabbli adattata għas-sinteżi tal-mużika

Il-metodu jista 'jintuża wkoll biex jimmodifika kompożizzjonijiet tal-ħoss eżistenti u jissintetizza l-mużika minn kampjun, simili għall-modifika tal-immaġni fi Stabbli Diffusion. Pereżempju, il-ġenerazzjoni tista' tieħu kampjun ta' spettrogrammi bi stil ta' referenza, tgħaqqad stili differenti, tagħmel transizzjonijiet bla xkiel minn stil għal ieħor, jew tagħmel bidliet f'ħoss eżistenti biex issolvi problemi bħal żieda fil-volum ta' strumenti individwali, tibdil tar-ritmu u tibdil. strumenti. Il-kampjuni jintużaw ukoll biex jiġġeneraw kompożizzjonijiet li jdaqqu fit-tul, magħmulin minn serje ta’ passaġġi spazjati mill-qrib li jvarjaw xi ftit maż-żmien. Passaġġi ġenerati separatament huma kkombinati fi fluss kontinwu bl-użu ta 'interpolazzjoni tal-parametri interni tal-mudell.

Sistema ta 'tagħlim tal-magni tad-Diffużjoni stabbli adattata għas-sinteżi tal-mużika

It-twieqi Fourier transform huwa użat biex jinħoloq spettrogramma mill-ħoss. Meta tinħoloq mill-ġdid ħoss minn spettrogramma, tqum problema bid-determinazzjoni tal-fażi (il-frekwenza u l-amplitudni biss huma preżenti fuq l-ispettrogramma), li għar-rikostruzzjoni tagħha jintuża l-algoritmu ta 'approssimazzjoni Griffin-Lim.



Sors: opennet.ru

Żid kumment