Mfumo thabiti wa kujifunza wa mashine ya Usambazaji uliorekebishwa kwa usanisi wa muziki

Mradi wa Riffusion unatengeneza toleo la mfumo wa mashine ya kujifunzia Imara wa Usambazaji, uliorekebishwa kutoa muziki badala ya picha. Muziki unaweza kuunganishwa kutoka kwa maelezo ya maandishi katika lugha asilia au kulingana na kiolezo kilichopendekezwa. Vipengele vya usanisi wa muziki vimeandikwa katika Python kwa kutumia mfumo wa PyTorch na vinapatikana chini ya leseni ya MIT. Ufungaji wa kiolesura unatekelezwa katika TypeScript na pia husambazwa chini ya leseni ya MIT. Miundo iliyofunzwa imepewa leseni chini ya leseni ya Creative ML OpenRAIL-M inayoruhusiwa kwa matumizi ya kibiashara.

Mradi huu ni wa kuvutia kwa kuwa unaendelea kutumia miundo ya "maandishi-kwa-picha" na "picha-kwa-picha" kuzalisha muziki, lakini hubadilisha spectrogram kama picha. Kwa maneno mengine, Usambazaji Imara wa kawaida haufunzwa kwenye picha na picha, lakini kwenye picha za spectrogram zinazoonyesha mabadiliko katika mzunguko na amplitude ya wimbi la sauti kwa muda. Ipasavyo, spectrogram pia huundwa kwenye pato, ambayo inabadilishwa kuwa uwakilishi wa sauti.

Mfumo thabiti wa kujifunza wa mashine ya Usambazaji uliorekebishwa kwa usanisi wa muziki

Mbinu hiyo pia inaweza kutumika kurekebisha nyimbo zilizopo za sauti na kusawazisha muziki kutoka kwa sampuli, sawa na urekebishaji wa picha katika Usambazaji Imara. Kwa mfano, kizazi kinaweza sampuli ya spectrogram kwa mtindo wa marejeleo, kuchanganya mitindo tofauti, kufanya mabadiliko laini kutoka kwa mtindo mmoja hadi mwingine, au kufanya mabadiliko kwa sauti iliyopo ili kutatua matatizo kama vile kuongeza sauti ya ala binafsi, kubadilisha mdundo, na kubadilisha. vyombo. Sampuli pia hutumiwa kutengeneza utunzi wa kucheza kwa muda mrefu, unaojumuisha safu ya vifungu vilivyo na nafasi ambayo hutofautiana kidogo kulingana na wakati. Vifungu vinavyozalishwa tofauti vinajumuishwa kwenye mkondo unaoendelea kwa kutumia tafsiri ya vigezo vya ndani vya mfano.

Mfumo thabiti wa kujifunza wa mashine ya Usambazaji uliorekebishwa kwa usanisi wa muziki

Kigeuzi cha Fourier kilicho na dirisha kinatumika kuunda spectrogram kutoka kwa sauti. Wakati wa kuunda tena sauti kutoka kwa spectrogram, tatizo linatokea kwa kuamua awamu (frequency tu na amplitude zipo kwenye spectrogram), kwa ajili ya ujenzi upya ambao algorithm ya makadirio ya Griffin-Lim hutumiwa.



Chanzo: opennet.ru

Kuongeza maoni