Stabilt Diffusionsmaskininlärningssystem anpassat för musiksyntes

Riffusion-projektet utvecklar en version av maskininlärningssystemet Stable Diffusion, anpassat för att generera musik istället för bilder. Musik kan syntetiseras från en textbeskrivning på naturligt språk eller baserat på en föreslagen mall. Musiksynteskomponenterna är skrivna i Python med PyTorch-ramverket och är tillgängliga under MIT-licensen. Gränssnittsbindningen är implementerad i TypeScript och distribueras även under MIT-licensen. Utbildade modeller är licensierade under en tillåten Creative ML OpenRAIL-M-licens för kommersiellt bruk.

Projektet är intressant eftersom det fortsätter att använda modellerna "text-till-bild" och "bild-till-bild" för att generera musik, men manipulerar spektrogram som bilder. Med andra ord, klassisk stabil diffusion tränas inte på fotografier och bilder, utan på bilder av spektrogram som reflekterar förändringar i frekvensen och amplituden hos en ljudvåg över tid. Följaktligen bildas också ett spektrogram vid utgången, som sedan omvandlas till en ljudrepresentation.

Stabilt Diffusionsmaskininlärningssystem anpassat för musiksyntes

Metoden kan också användas för att modifiera befintliga ljudkompositioner och syntetisera musik från ett sampel, liknande bildmodifiering i Stable Diffusion. Till exempel kan generation sampla spektrogram med en referensstil, kombinera olika stilar, göra mjuka övergångar från en stil till en annan, eller göra ändringar i ett befintligt ljud för att lösa problem som att öka volymen på enskilda instrument, ändra rytmen och ändra instrument. Samplar används också för att skapa långspelade kompositioner, sammansatta av en serie tätt åtskilda passager som varierar något över tiden. Separat genererade passager kombineras till en kontinuerlig ström genom interpolering av modellens interna parametrar.

Stabilt Diffusionsmaskininlärningssystem anpassat för musiksyntes

En Fouriertransform med fönster används för att skapa ett spektrogram från ljud. När man återskapar ljud från ett spektrogram, uppstår ett problem med att bestämma fasen (endast frekvens och amplitud finns på spektrogrammet), för vars rekonstruktion Griffin-Lim-approximationsalgoritmen används.



Källa: opennet.ru

Lägg en kommentar