Sistem de învățare automată Stable Diffusion adaptat pentru sinteza muzicii

Proiectul Riffusion dezvoltă o versiune a sistemului de învățare automată Stable Diffusion, adaptată pentru a genera muzică în loc de imagini. Muzica poate fi sintetizată dintr-o descriere text în limbaj natural sau pe baza unui șablon propus. Componentele de sinteză muzicală sunt scrise în Python folosind cadrul PyTorch și sunt disponibile sub licența MIT. Legarea interfeței este implementată în TypeScript și este, de asemenea, distribuită sub licența MIT. Modelele instruite sunt licențiate în baza unei licențe permisive Creative ML OpenRAIL-M pentru utilizare comercială.

Proiectul este interesant prin faptul că continuă să folosească modelele „text-to-image” și „image-to-image” pentru a genera muzică, dar manipulează spectrogramele ca imagini. Cu alte cuvinte, Difuziunea stabilă clasică este antrenată nu pe fotografii și imagini, ci pe imagini ale spectrogramelor care reflectă modificări ale frecvenței și amplitudinii unei unde sonore în timp. În consecință, la ieșire se formează și o spectrogramă, care este apoi convertită într-o reprezentare audio.

Sistem de învățare automată Stable Diffusion adaptat pentru sinteza muzicii

Metoda poate fi folosită și pentru a modifica compozițiile de sunet existente și pentru a sintetiza muzica dintr-un eșantion, similar cu modificarea imaginii în Stable Diffusion. De exemplu, generația poate eșantiona spectrograme cu un stil de referință, poate combina stiluri diferite, poate face tranziții ușoare de la un stil la altul sau poate face modificări unui sunet existent pentru a rezolva probleme precum creșterea volumului instrumentelor individuale, schimbarea ritmului și schimbarea instrumente. Mostrele sunt, de asemenea, folosite pentru a genera compoziții de lungă durată, compuse dintr-o serie de pasaje strâns distanțate, care variază ușor în timp. Pasajele generate separat sunt combinate într-un flux continuu folosind interpolarea parametrilor interni ai modelului.

Sistem de învățare automată Stable Diffusion adaptat pentru sinteza muzicii

O transformată Fourier cu fereastră este utilizată pentru a crea o spectrogramă din sunet. La recrearea sunetului dintr-o spectrogramă, apare o problemă cu determinarea fazei (pe spectrogramă sunt prezente doar frecvența și amplitudinea), pentru reconstrucția căreia se folosește algoritmul de aproximare Griffin-Lim.



Sursa: opennet.ru

Adauga un comentariu