Åpen kildekode for Spleeter, et system for å skille musikk og stemme

Strømmeleverandøren Deezer har åpnet Kildetekster til det eksperimentelle prosjektet Spleeter, som utvikler et maskinlæringssystem for å skille lydkilder fra komplekse lydkomposisjoner. Programmet lar deg fjerne vokal fra en komposisjon og la bare det musikalske akkompagnementet, manipulere lyden til individuelle instrumenter, eller forkaste musikken og la stemmen overlegges med en annen lydserie, lage mikser, karaoke eller transkripsjon. Prosjektkoden er skrevet i Python ved hjelp av Tensorflow-motoren og distribuert av under MIT-lisensen.

For lasting tilbys allerede trente modeller for å skille vokal (én stemme) fra akkompagnement, samt for å dele inn i 4 og 5 strømmer, inkludert vokal, trommer, bass, piano og resten av lyden. Spleeter kan brukes både som et Python-bibliotek og som et frittstående kommandolinjeverktøy. I det enkleste tilfellet, basert på kildefilen opprettet to, fire eller fem filer med stemme- og akkompagnementkomponenter (vokal.wav, drums.wav, bass.wav, piano.wav, other.wav).

Når du deler opp i 2 og 4 tråder, gir Spleeter svært høy ytelse, for eksempel når du bruker GPU, tar det å dele en lydfil i 4 tråder 100 ganger kortere tid enn varigheten til den originale komposisjonen. På et system med en NVIDIA GeForce GTX 1080 GPU og en 32-kjerners Intel Xeon Gold 6134 CPU, ble musDB-testsamlingen, som varte i tre timer og 27 minutter, behandlet på 90 sekunder.

Åpen kildekode for Spleeter, et system for å skille musikk og stemme



Blant fordelene med Spleeter, sammenlignet med andre utviklinger innen lydseparasjon, for eksempel åpen kildekode-prosjektet Åpne - Unmix, nevner bruken av modeller av høyere kvalitet bygget fra en omfattende samling av lydfiler. På grunn av opphavsrettsbegrensninger er maskinlæringsforskere begrenset til tilgang til ganske sparsomme offentlige samlinger av musikkfiler, mens Spleeters modeller ble bygget ved hjelp av data fra Deezers enorme musikkkatalog.

sammenligning med Open-Unmix er Spleeters separasjonsverktøy omtrent 35 % raskere når det testes på CPU, støtter MP3-filer og genererer merkbart bedre resultater (enkelte stemmer i Open-Unmix etterlater spor av noen verktøy, noe som sannsynligvis skyldes det faktum at modellene Open-Unmix er trent på en samling på kun 150 komposisjoner).

Kilde: opennet.ru

Legg til en kommentar