Stabiele diffusiemasjienleerstelsel aangepas vir musieksintese

Die Riffusion-projek ontwikkel 'n weergawe van die masjienleerstelsel Stable Diffusion, aangepas om musiek in plaas van beelde te genereer. Musiek kan gesintetiseer word vanaf 'n teksbeskrywing in natuurlike taal of gebaseer op 'n voorgestelde sjabloon. Die musieksintese-komponente word in Python geskryf deur die PyTorch-raamwerk te gebruik en is beskikbaar onder die MIT-lisensie. Die koppelvlakbinding word in TypeScript geïmplementeer en word ook onder die MIT-lisensie versprei. Opgeleide modelle is gelisensieer onder 'n permissiewe Creative ML OpenRAIL-M-lisensie vir kommersiële gebruik.

Die projek is interessant deurdat dit voortgaan om die "teks-na-beeld"- en "beeld-na-beeld"-modelle te gebruik om musiek te genereer, maar spektrogramme as beelde manipuleer. Met ander woorde, klassieke stabiele diffusie word nie opgelei op foto's en prente nie, maar op beelde van spektrogramme wat veranderinge in die frekwensie en amplitude van 'n klankgolf oor tyd weerspieël. Gevolglik word 'n spektrogram ook by die uitset gevorm, wat dan in 'n oudio-voorstelling omgeskakel word.

Stabiele diffusiemasjienleerstelsel aangepas vir musieksintese

Die metode kan ook gebruik word om bestaande klankkomposisies te wysig en musiek uit 'n monster te sintetiseer, soortgelyk aan beeldmodifikasie in Stable Diffusion. Generasie kan byvoorbeeld spektrogramme met 'n verwysingstyl monster, verskillende style kombineer, gladde oorgange van een styl na 'n ander maak, of veranderinge aan 'n bestaande klank maak om probleme op te los soos om die volume van individuele instrumente te verhoog, die ritme te verander en te verander instrumente. Monsters word ook gebruik om langspeel-komposisies te genereer, saamgestel uit 'n reeks nougespasiëerde passasies wat effens wissel oor tyd. Afsonderlik gegenereerde gedeeltes word gekombineer in 'n aaneenlopende stroom deur interpolasie van die interne parameters van die model te gebruik.

Stabiele diffusiemasjienleerstelsel aangepas vir musieksintese

'n Fourier-transform met vensters word gebruik om 'n spektrogram van klank te skep. Wanneer klank vanaf 'n spektrogram herskep word, ontstaan ​​'n probleem met die bepaling van die fase (slegs frekwensie en amplitude is teenwoordig op die spektrogram), vir die rekonstruksie waarvan die Griffin-Lim-benaderingsalgoritme gebruik word.



Bron: opennet.ru

Voeg 'n opmerking