Vakaa diffuusiokoneoppimisjärjestelmä, joka on sovitettu musiikin synteesiin

Riffusion-projekti kehittää versiota koneoppimisjärjestelmästä Stable Diffusion, joka on mukautettu tuottamaan musiikkia kuvien sijaan. Musiikki voidaan syntetisoida tekstikuvauksesta luonnollisella kielellä tai ehdotetun mallin perusteella. Musiikin synteesikomponentit on kirjoitettu Pythonissa käyttäen PyTorch-kehystä ja ne ovat saatavilla MIT-lisenssillä. Liitäntäsidonta on toteutettu TypeScriptissä ja sitä jaetaan myös MIT-lisenssillä. Koulutetut mallit on lisensoitu kaupalliseen käyttöön sallitulla Creative ML OpenRAIL-M -lisenssillä.

Projekti on mielenkiintoinen siinä mielessä, että se käyttää edelleen "teksti kuvaksi" ja "kuvasta kuvaksi" -malleja musiikin tuottamiseen, mutta manipuloi spektrogrammeja kuvina. Toisin sanoen klassista Stable Diffusionia ei harjoiteta valokuvien ja kuvien perusteella, vaan spektrogrammien kuviin, jotka heijastavat ääniaallon taajuuden ja amplitudin muutoksia ajan myötä. Vastaavasti ulostuloon muodostetaan myös spektrogrammi, joka muunnetaan sitten audioesitykseen.

Vakaa diffuusiokoneoppimisjärjestelmä, joka on sovitettu musiikin synteesiin

Menetelmällä voidaan myös muokata olemassa olevia äänikoostumuksia ja syntetisoida musiikkia näytteestä samalla tavalla kuin kuvanmuokkausta Stable Diffusionissa. Sukupolvi voi esimerkiksi ottaa näytteitä spektrogrammeista referenssityylillä, yhdistää eri tyylejä, tehdä sujuvasti siirtymiä tyylistä toiseen tai tehdä muutoksia olemassa olevaan soundiin ratkaistakseen ongelmia, kuten yksittäisten instrumenttien äänenvoimakkuuden lisääminen, rytmin muuttaminen ja muuttaminen. soittimia. Näytteitä käytetään myös pitkään soivien sävellysten luomiseen, jotka koostuvat sarjasta lähekkäin olevia kohtia, jotka vaihtelevat hieman ajan myötä. Erikseen luodut kohdat yhdistetään jatkuvaksi virraksi käyttämällä mallin sisäisten parametrien interpolointia.

Vakaa diffuusiokoneoppimisjärjestelmä, joka on sovitettu musiikin synteesiin

Ikkunallista Fourier-muunnosta käytetään spektrogrammin luomiseen äänestä. Kun ääntä luodaan uudelleen spektrogrammista, syntyy ongelma vaiheen määrittämisessä (spektrogrammissa on vain taajuus ja amplitudi), jonka rekonstruoinnissa käytetään Griffin-Lim-approksimaatioalgoritmia.



Lähde: opennet.ru

Lisää kommentti