Stabil Diffusiounsmaschinn Léiersystem adaptéiert fir Musiksynthese

De Riffusion Projet entwéckelt eng Versioun vum Maschinn Léiersystem Stable Diffusion, adaptéiert fir Musek amplaz vu Biller ze generéieren. Musek kann aus enger Textbeschreiwung an natierlecher Sprooch synthetiséiert ginn oder baséiert op enger proposéierter Schabloun. D'Musekssynthesekomponente ginn am Python mam PyTorch Kader geschriwwe a sinn ënner der MIT Lizenz verfügbar. D'Interface Bindung gëtt am TypeScript implementéiert a gëtt och ënner der MIT Lizenz verdeelt. Trainéiert Modeller sinn ënner enger permissive Creative ML OpenRAIL-M Lizenz fir kommerziell Notzung lizenzéiert.

De Projet ass interessant datt et weiderhin d'"Text-zu-Bild" an "Bild-zu-Bild" Modeller benotzt fir Musek ze generéieren, awer Spektrogramme als Biller manipuléiert. An anere Wierder, klassesch Stable Diffusioun gëtt net op Fotoen a Biller trainéiert, mee op Biller vu Spektrogrammen, déi Ännerungen an der Frequenz an Amplitude vun enger Tounwell iwwer Zäit reflektéieren. Deementspriechend gëtt och e Spektrogramm um Ausgang geformt, deen dann an eng Audiovertriedung ëmgewandelt gëtt.

Stabil Diffusiounsmaschinn Léiersystem adaptéiert fir Musiksynthese

D'Method kann och benotzt ginn fir existéierend Tounkompositioune z'änneren an Musek aus enger Probe ze synthetiséieren, ähnlech wéi Bildmodifikatioun an der Stable Diffusion. Zum Beispill kann d'Generatioun Spektrogramme mat engem Referenzstil probéieren, verschidde Stiler kombinéieren, glat Iwwergäng vun engem Stil an en aneren maachen, oder Ännerungen un engem existente Sound maachen fir Probleemer ze léisen wéi d'Erhéijung vum Volume vun eenzel Instrumenter, de Rhythmus z'änneren, an z'änneren Instrumenter. Echantillon ginn och benotzt fir laangspillende Kompositiounen ze generéieren, besteet aus enger Serie vu enk begrenzte Passagen, déi liicht mat der Zäit variéieren. Separat generéiert Passagen ginn an e kontinuéierleche Stroum kombinéiert mat Interpolatioun vun den internen Parameteren vum Modell.

Stabil Diffusiounsmaschinn Léiersystem adaptéiert fir Musiksynthese

E windowed Fourier Transform gëtt benotzt fir e Spektrogramm aus Toun ze kreéieren. Wann Dir Toun aus engem Spektrogramm nei erstallt, entsteet e Problem mat der Bestëmmung vun der Phase (nëmmen Frequenz an Amplitude sinn um Spektrogramm präsent), fir d'Rekonstruktioun vun deem de Griffin-Lim Approximatioun Algorithmus benotzt gëtt.



Source: opennet.ru

Setzt e Commentaire