Åpen kildekode for Spleeter, et system for å skille musikk og stemme
Strømmeleverandøren Deezer har åpnet Kildetekster til det eksperimentelle prosjektet Spleeter, som utvikler et maskinlæringssystem for å skille lydkilder fra komplekse lydkomposisjoner. Programmet lar deg fjerne vokal fra en komposisjon og la bare det musikalske akkompagnementet, manipulere lyden til individuelle instrumenter, eller forkaste musikken og la stemmen overlegges med en annen lydserie, lage mikser, karaoke eller transkripsjon. Prosjektkoden er skrevet i Python ved hjelp av Tensorflow-motoren og distribuert av under MIT-lisensen.
For lasting tilbys allerede trente modeller for å skille vokal (én stemme) fra akkompagnement, samt for å dele inn i 4 og 5 strømmer, inkludert vokal, trommer, bass, piano og resten av lyden. Spleeter kan brukes både som et Python-bibliotek og som et frittstående kommandolinjeverktøy. I det enkleste tilfellet, basert på kildefilen opprettet to, fire eller fem filer med stemme- og akkompagnementkomponenter (vokal.wav, drums.wav, bass.wav, piano.wav, other.wav).
Når du deler opp i 2 og 4 tråder, gir Spleeter svært høy ytelse, for eksempel når du bruker GPU, tar det å dele en lydfil i 4 tråder 100 ganger kortere tid enn varigheten til den originale komposisjonen. På et system med en NVIDIA GeForce GTX 1080 GPU og en 32-kjerners Intel Xeon Gold 6134 CPU, ble musDB-testsamlingen, som varte i tre timer og 27 minutter, behandlet på 90 sekunder.
På sammenligning med Open-Unmix er Spleeters separasjonsverktøy omtrent 35 % raskere når det testes på CPU, støtter MP3-filer og genererer merkbart bedre resultater (enkelte stemmer i Open-Unmix etterlater spor av noen verktøy, noe som sannsynligvis skyldes det faktum at modellene Open-Unmix er trent på en samling på kun 150 komposisjoner).