Stabilt diffusjonsmaskinlæringssystem tilpasset musikksyntese

Riffusion-prosjektet utvikler en versjon av maskinlæringssystemet Stable Diffusion, tilpasset for å generere musikk i stedet for bilder. Musikk kan syntetiseres fra en tekstbeskrivelse på naturlig språk eller basert på en foreslått mal. Musikksyntesekomponentene er skrevet i Python ved hjelp av PyTorch-rammeverket og er tilgjengelig under MIT-lisensen. Grensesnittbindingen er implementert i TypeScript og distribueres også under MIT-lisensen. Trente modeller er lisensiert under en tillatende Creative ML OpenRAIL-M-lisens for kommersiell bruk.

Prosjektet er interessant ved at det fortsetter å bruke "tekst-til-bilde"- og "bilde-til-bilde"-modellene for å generere musikk, men manipulerer spektrogrammer som bilder. Med andre ord trenes klassisk stabil diffusjon ikke på fotografier og bilder, men på bilder av spektrogrammer som reflekterer endringer i frekvensen og amplituden til en lydbølge over tid. Følgelig dannes det også et spektrogram ved utgangen, som deretter konverteres til en lydrepresentasjon.

Stabilt diffusjonsmaskinlæringssystem tilpasset musikksyntese

Metoden kan også brukes til å modifisere eksisterende lydkomposisjoner og syntetisere musikk fra en prøve, tilsvarende bildemodifikasjon i Stable Diffusion. Generering kan for eksempel sample spektrogrammer med en referansestil, kombinere forskjellige stiler, gjøre jevne overganger fra en stil til en annen, eller gjøre endringer i en eksisterende lyd for å løse problemer som å øke volumet til individuelle instrumenter, endre rytmen og erstatte instrumenter. Samples brukes også til å generere langspillende komposisjoner, sammensatt av en serie passasjer som er nær hverandre og varierer litt over tid. Separat genererte passasjer kombineres til en kontinuerlig strøm ved hjelp av interpolering av de interne parameterne til modellen.

Stabilt diffusjonsmaskinlæringssystem tilpasset musikksyntese

En windowed Fourier-transformasjon brukes til å lage et spektrogram fra lyd. Når du gjenskaper lyd fra et spektrogram, oppstår det et problem med å bestemme fasen (bare frekvens og amplitude er til stede på spektrogrammet), for rekonstruksjonen som Griffin-Lim-tilnærmingsalgoritmen brukes.



Kilde: opennet.ru

Legg til en kommentar