Stöðugt dreifingarvélanámskerfi aðlagað fyrir tónlistarmyndun

Riffusion verkefnið er að þróa útgáfu af vélanámskerfinu Stable Diffusion, aðlagað til að búa til tónlist í stað mynda. Hægt er að búa til tónlist úr textalýsingu á náttúrulegu máli eða út frá fyrirhuguðu sniðmáti. Tónlistargervihlutirnir eru skrifaðir í Python með PyTorch ramma og eru fáanlegir undir MIT leyfinu. Viðmótsbindingin er útfærð í TypeScript og er einnig dreift undir MIT leyfinu. Þjálfaðar gerðir eru með leyfi samkvæmt leyfilegu Creative ML OpenRAIL-M leyfi til notkunar í atvinnuskyni.

Verkefnið er áhugavert að því leyti að það heldur áfram að nota "texta-í-mynd" og "mynd-í-mynd" módel til að búa til tónlist, en meðhöndlar litróf sem myndir. Með öðrum orðum, klassískt stöðugt dreifing er ekki þjálfað á ljósmyndum og myndum, heldur myndum af litrófsritum sem endurspegla breytingar á tíðni og amplitude hljóðbylgju með tímanum. Í samræmi við það myndast litróf einnig við úttakið, sem síðan er breytt í hljóðmynd.

Stöðugt dreifingarvélanámskerfi aðlagað fyrir tónlistarmyndun

Aðferðina er einnig hægt að nota til að breyta fyrirliggjandi hljóðsamsetningum og búa til tónlist úr sýnishorni, svipað og myndbreyting í Stable Diffusion. Til dæmis getur kynslóð tekið sýnishorn af litrófsmyndum með tilvísunarstíl, sameinað mismunandi stíla, gert mjúkar umbreytingar frá einum stíl í annan eða gert breytingar á núverandi hljóði til að leysa vandamál eins og að auka hljóðstyrk einstakra hljóðfæra, breyta takti og breyta hljóðfæri. Sýnishorn eru einnig notuð til að búa til langspilandi tónverk, samsett úr röð af þéttum köflum sem eru örlítið breytileg með tímanum. Sérstaklega myndaðar rásir eru sameinaðar í samfelldan straum með því að nota innskot á innri færibreytur líkansins.

Stöðugt dreifingarvélanámskerfi aðlagað fyrir tónlistarmyndun

Fourier umbreyting með glugga er notuð til að búa til litróf úr hljóði. Þegar hljóð er endurskapað úr litrófsriti kemur upp vandamál við að ákvarða fasa (aðeins tíðni og amplitude eru til staðar á litrófsritinu), fyrir endurgerð þess er Griffin-Lim nálgunaralgrímið notað.



Heimild: opennet.ru

Bæta við athugasemd