Stabiilne difusiooni masinõppesüsteem, mis on kohandatud muusika sünteesiks

Projekt Riffusion arendab stabiilse difusiooni masinõppesüsteemi varianti, mis on kohandatud piltide asemel muusika genereerimiseks. Muusikat saab sünteesida loomulikus keeles tekstilise kirjelduse või soovitatud malli põhjal. Muusika sünteesi komponendid on kirjutatud Pythonis, kasutades PyTorchi raamistikku ja on saadaval MIT litsentsi all. Liidesega sidumine on realiseeritud TypeScripti keeles ja seda levitatakse ka MIT litsentsi all. Koolitatud mudelid avaldatakse äriliseks kasutamiseks Creative ML OpenRAIL-M lubava litsentsi alusel.

Projekt on huvitav selle poolest, et jätkab "tekst-pildiks" ja "pilt-pildiks" mudelite kasutamist muusika genereerimiseks, kuid manipuleerib spektrogramme piltidena. Teisisõnu, klassikalist stabiilset difusiooni ei treenita mitte fotodel ja piltidel, vaid spektrogrammide kujutistel, mis kajastavad helilaine sageduse ja amplituudi muutumist ajas. Vastavalt sellele moodustatakse väljundis ka spektrogramm, mis seejärel teisendatakse heliesituseks.

Stabiilne difusiooni masinõppesüsteem, mis on kohandatud muusika sünteesiks

Meetodit saab kasutada ka olemasolevate helikompositsioonide muutmiseks ja muusika sünteesiks, sarnaselt pildi muutmisele Stable Diffusionis. Näiteks saab genereerimine määrata näidisspektrogramme koos võrdlusstiiliga, kombineerida erinevaid stiile, teostada sujuvat üleminekut ühelt stiililt teisele või teha olemasolevas helis muudatusi, et lahendada probleeme, nagu üksikute instrumentide helitugevuse suurendamine, rütmi muutmine ja instrumentide väljavahetamine. Mustreid kasutatakse ka kauamängivate kompositsioonide genereerimiseks, mis koosnevad üksteisele lähedal asuvatest lõikudest, mis aja jooksul veidi muutuvad. Eraldi genereeritud fragmendid kombineeritakse pidevaks vooks, interpoleerides mudeli sisemisi parameetreid.

Stabiilne difusiooni masinõppesüsteem, mis on kohandatud muusika sünteesiks

Helist spektrogrammi loomiseks kasutatakse akendega Fourier' teisendust. Spektrogrammilt heli taasloomisel tekib probleem faasi määramisega (spektrogrammil on ainult sagedus ja amplituud), mille rekonstrueerimiseks kasutatakse Griffin-Limi lähendusalgoritmi.



Allikas: opennet.ru

Lisa kommentaar