Stabiel diffusie-machineleersysteem aangepast voor muzieksynthese

Het Riffusion-project ontwikkelt een versie van het machine learning-systeem Stable Diffusion, aangepast om muziek te genereren in plaats van afbeeldingen. Muziek kan worden samengesteld uit een tekstbeschrijving in natuurlijke taal of op basis van een voorgesteld sjabloon. De componenten voor muzieksynthese zijn geschreven in Python met behulp van het PyTorch-framework en zijn beschikbaar onder de MIT-licentie. De interfacebinding is geïmplementeerd in TypeScript en wordt ook gedistribueerd onder de MIT-licentie. Getrainde modellen zijn gelicentieerd onder een toegestane Creative ML OpenRAIL-M-licentie voor commercieel gebruik.

Het project is interessant omdat het de “text-to-image” en “image-to-image” modellen blijft gebruiken om muziek te genereren, maar spectrogrammen als afbeeldingen manipuleert. Met andere woorden: klassieke stabiele diffusie wordt niet getraind op foto's en afbeeldingen, maar op afbeeldingen van spectrogrammen die veranderingen in de frequentie en amplitude van een geluidsgolf in de loop van de tijd weerspiegelen. Dienovereenkomstig wordt aan de uitgang ook een spectrogram gevormd, dat vervolgens in een audioweergave wordt omgezet.

Stabiel diffusie-machineleersysteem aangepast voor muzieksynthese

De methode kan ook worden gebruikt om bestaande geluidscomposities te wijzigen en muziek uit een sample te synthetiseren, vergelijkbaar met beeldmodificatie in Stable Diffusion. Generatie kan bijvoorbeeld spectrogrammen met een referentiestijl samplen, verschillende stijlen combineren, vloeiende overgangen maken van de ene stijl naar de andere, of wijzigingen aanbrengen in een bestaand geluid om problemen op te lossen zoals het verhogen van het volume van individuele instrumenten, het veranderen van het ritme en het vervangen van instrumenten. instrumenten. Samples worden ook gebruikt om langspeelcomposities te genereren, samengesteld uit een reeks passages die dicht bij elkaar liggen en in de loop van de tijd enigszins variëren. Afzonderlijk gegenereerde passages worden gecombineerd tot een continue stroom met behulp van interpolatie van de interne parameters van het model.

Stabiel diffusie-machineleersysteem aangepast voor muzieksynthese

Een Fourier-transformatie met vensters wordt gebruikt om van geluid een spectrogram te maken. Bij het opnieuw creëren van geluid uit een spectrogram ontstaat er een probleem bij het bepalen van de fase (alleen frequentie en amplitude zijn aanwezig op het spectrogram), voor de reconstructie waarvan het Griffin-Lim-benaderingsalgoritme wordt gebruikt.



Bron: opennet.ru

Voeg een reactie