Stable Diffusion machine learning system nga gipahaom alang sa music synthesis

Ang proyekto sa Riffusion nagpalambo sa usa ka bersyon sa sistema sa pagkat-on sa makina nga Stable Diffusion, gipahiangay aron makamugna og musika imbes nga mga imahe. Ang musika mahimong ma-synthesize gikan sa usa ka deskripsyon sa teksto sa natural nga pinulongan o base sa gisugyot nga template. Ang mga component sa synthesis sa musika gisulat sa Python gamit ang PyTorch framework ug anaa ubos sa lisensya sa MIT. Ang pagbugkos sa interface gipatuman sa TypeScript ug giapod-apod usab ubos sa lisensya sa MIT. Ang nabansay nga mga modelo lisensyado ubos sa permissive Creative ML OpenRAIL-M nga lisensya para sa komersyal nga paggamit.

Ang proyekto makaiikag tungod kay nagpadayon kini sa paggamit sa "text-to-image" ug "image-to-image" nga mga modelo aron makamugna og musika, apan nagmaniobra sa spectrograms isip mga hulagway. Sa laing pagkasulti, ang klasiko nga Stable Diffusion gibansay dili sa mga litrato ug mga litrato, apan sa mga imahe sa spectrograms nga nagpakita sa mga pagbag-o sa frequency ug amplitude sa usa ka sound wave sa paglabay sa panahon. Tungod niini, ang usa ka spectrogram naporma usab sa output, nga dayon gi-convert sa usa ka representasyon sa audio.

Stable Diffusion machine learning system nga gipahaom alang sa music synthesis

Ang pamaagi mahimo usab nga gamiton sa pag-usab sa kasamtangan nga mga komposisyon sa tunog ug pag-synthesize sa musika gikan sa usa ka sample, susama sa pagbag-o sa imahe sa Stable Diffusion. Pananglitan, ang henerasyon mahimong mag-sample sa mga spectrograms nga adunay usa ka istilo sa pakisayran, maghiusa sa lainlaing mga istilo, maghimo hapsay nga pagbalhin gikan sa usa ka istilo ngadto sa lain, o maghimo mga pagbag-o sa usa ka naglungtad nga tunog aron masulbad ang mga problema sama sa pagdugang sa volume sa indibidwal nga mga instrumento, pagbag-o sa ritmo, ug pagbag-o. mga instrumento. Ang mga sampol gigamit usab aron makamugna og dugay nga pagpatugtog nga mga komposisyon, nga gilangkuban sa usa ka serye sa duol nga gilay-on nga mga tudling nga magkalainlain gamay sa paglabay sa panahon. Ang gilain nga mga agianan gihiusa sa usa ka padayon nga sapa gamit ang interpolation sa internal nga mga parameter sa modelo.

Stable Diffusion machine learning system nga gipahaom alang sa music synthesis

Ang usa ka windowed Fourier nga pagbag-o gigamit sa paghimo og spectrogram gikan sa tunog. Kung nagmugna pag-usab sa tingog gikan sa usa ka spectrogram, usa ka problema ang mitungha sa pagtino sa hugna (ang frequency ug amplitude lamang ang anaa sa spectrogram), alang sa pagtukod pag-usab diin gigamit ang Griffin-Lim approximation algorithm.



Source: opennet.ru

Idugang sa usa ka comment