Öppen källkod för Spleeter, ett system för att separera musik och röst

Streamingleverantören Deezer jag öppnade Källtexter till experimentprojektet Spleeter, som utvecklar ett maskininlärningssystem för att separera ljudkällor från komplexa ljudkompositioner. Programmet låter dig ta bort sång från en komposition och lämna endast det musikaliska ackompanjemanget, manipulera ljudet från enskilda instrument eller kassera musiken och lämna rösten för överlagring med en annan ljudserie, skapa mixar, karaoke eller transkription. Projektkoden är skriven i Python med hjälp av Tensorflow-motorn och levererad av under MIT-licensen.

För lastning erbjuds redan tränade modeller för att separera sång (en röst) från ackompanjemang, samt för att dela upp i 4 och 5 strömmar, inklusive sång, trummor, bas, piano och resten av ljudet. Spleeter kan användas både som ett Python-bibliotek och som ett fristående kommandoradsverktyg. I det enklaste fallet, baserat på källfilen skapas två, fyra eller fem filer med röst- och ackompanjemangskomponenter (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav).

När du delar upp i 2 och 4 trådar ger Spleeter mycket hög prestanda, till exempel när du använder GPU:n tar det 4 gånger kortare tid att dela en ljudfil i 100 trådar än den ursprungliga kompositionens varaktighet. På ett system med en NVIDIA GeForce GTX 1080 GPU och en 32-kärnig Intel Xeon Gold 6134 CPU, bearbetades musDB-testsamlingen, som varade i tre timmar och 27 minuter, på 90 sekunder.

Öppen källkod för Spleeter, ett system för att separera musik och röst



Bland fördelarna med Spleeter, jämfört med andra utvecklingar inom området för ljudseparering, såsom open source-projektet Öppna - Unmix, nämner användningen av modeller av högre kvalitet byggda från en omfattande samling ljudfiler. På grund av upphovsrättsbegränsningar är maskininlärningsforskare begränsade till att få tillgång till ganska glesa offentliga samlingar av musikfiler, medan Spleeters modeller byggdes med hjälp av data från Deezers enorma musikkatalog.

jämförelse med Open-Unmix är Spleeters separationsverktyg cirka 35 % snabbare när det testas på processorn, stöder MP3-filer och genererar märkbart bättre resultat (enkla röster i Open-Unmix lämnar spår av vissa verktyg, vilket troligen beror på att modellerna Open-Unmix tränas på en samling av endast 150 kompositioner).

Källa: opennet.ru

Lägg en kommentar