System dysgu peiriant Tryledu Sefydlog wedi'i haddasu ar gyfer synthesis cerddoriaeth

Mae'r prosiect Riffusion yn datblygu fersiwn o'r system dysgu peirianyddol Stable Diffusion, wedi'i addasu i gynhyrchu cerddoriaeth yn lle delweddau. Gellir syntheseiddio cerddoriaeth o ddisgrifiad testun mewn iaith naturiol neu yn seiliedig ar dempled arfaethedig. Mae'r cydrannau synthesis cerddoriaeth wedi'u hysgrifennu yn Python gan ddefnyddio fframwaith PyTorch ac maent ar gael o dan drwydded MIT. Gweithredir y rhwymiad rhyngwyneb yn TypeScript ac fe'i dosberthir hefyd o dan y drwydded MIT. Mae modelau hyfforddedig wedi'u trwyddedu o dan drwydded caniataol Creative ML OpenRAIL-M at ddefnydd masnachol.

Mae’r prosiect yn ddiddorol gan ei fod yn parhau i ddefnyddio’r modelau β€œtestun-i-ddelwedd” a β€œdelwedd-i-ddelwedd” i gynhyrchu cerddoriaeth, ond yn trin sbectrogramau fel delweddau. Mewn geiriau eraill, mae Stable Diffusion clasurol wedi'i hyfforddi nid ar ffotograffau a lluniau, ond ar ddelweddau o sbectrogramau sy'n adlewyrchu newidiadau yn amlder ac osgled ton sain dros amser. Yn unol Γ’ hynny, mae sbectrogram hefyd yn cael ei ffurfio yn yr allbwn, sydd wedyn yn cael ei drawsnewid yn gynrychiolaeth sain.

System dysgu peiriant Tryledu Sefydlog wedi'i haddasu ar gyfer synthesis cerddoriaeth

Gellir defnyddio'r dull hefyd i addasu cyfansoddiadau sain presennol a syntheseiddio cerddoriaeth o sampl, yn debyg i addasu delwedd yn Stable Diffusion. Er enghraifft, gall cenhedlaeth samplu sbectrogramau ag arddull cyfeirio, cyfuno gwahanol arddulliau, gwneud trawsnewidiadau llyfn o un arddull i'r llall, neu wneud newidiadau i sain sy'n bodoli eisoes i ddatrys problemau megis cynyddu cyfaint offerynnau unigol, newid y rhythm, a newid offerynnau. Defnyddir samplau hefyd i gynhyrchu cyfansoddiadau chwarae hir, sy'n cynnwys cyfres o ddarnau Γ’ bylchau agos sy'n amrywio ychydig dros amser. Mae darnau a gynhyrchir ar wahΓ’n yn cael eu cyfuno'n ffrwd barhaus gan ddefnyddio rhyngosod paramedrau mewnol y model.

System dysgu peiriant Tryledu Sefydlog wedi'i haddasu ar gyfer synthesis cerddoriaeth

Defnyddir trawsffurfiad Fourier ffenestr i greu sbectrogram o sain. Wrth ail-greu sain o sbectrogram, mae problem yn codi wrth bennu'r gwedd (dim ond amledd ac osgled sy'n bresennol ar y sbectrogram), y defnyddir algorithm brasamcan Griffin-Lim ar gyfer yr ail-greu.



Ffynhonnell: opennet.ru

Ychwanegu sylw