Open source til Spleeter, et system til at adskille musik og stemme

Streamingudbyderen Deezer har åbnet Kildetekster til det eksperimentelle projekt Spleeter, som udvikler et maskinlæringssystem til at adskille lydkilder fra komplekse lydkompositioner. Programmet giver dig mulighed for at fjerne vokal fra en komposition og kun lade det musikalske akkompagnement efterlades, manipulere lyden af ​​individuelle instrumenter eller kassere musikken og lade stemmen blive overlejret med en anden lydserie, skabe mix, karaoke eller transskription. Projektkoden er skrevet i Python ved hjælp af Tensorflow-motoren og distribueret af under MIT-licensen.

Til lastning tilbydes allerede trænede modeller til at adskille vokal (én stemme) fra akkompagnement, samt til at opdele i 4 og 5 streams, inklusive vokal, trommer, bas, klaver og resten af ​​lyden. Spleeter kan bruges både som et Python-bibliotek og som et selvstændigt kommandolinjeværktøj. I det enkleste tilfælde, baseret på kildefilen oprettet to, fire eller fem filer med stemme- og akkompagnementskomponenter (vocals.wav, drums.wav, bas.wav, piano.wav, other.wav).

Når den er opdelt i 2 og 4 streams, giver Spleeter meget høj ydeevne, for eksempel, når du bruger GPU'en, tager det 4 gange kortere tid at opdele en lydfil i 100 streams end varigheden af ​​den originale komposition. På et system med en NVIDIA GeForce GTX 1080 GPU og en 32-kernet Intel Xeon Gold 6134 CPU blev musDB-testsamlingen, som varede tre timer og 27 minutter, behandlet på 90 sekunder.

Open source til Spleeter, et system til at adskille musik og stemme



Blandt fordelene ved Spleeter sammenlignet med andre udviklinger inden for lydseparation, såsom open source-projektet Åben-Unmix, nævner brugen af ​​modeller af højere kvalitet bygget fra en omfattende samling af lydfiler. På grund af copyright-begrænsninger er maskinlæringsforskere begrænset til adgang til ret sparsomme offentlige samlinger af musikfiler, mens Spleeters modeller blev bygget ved hjælp af data fra Deezers store musikkatalog.

On sammenligning med Open-Unmix er Spleeters separationsværktøj omkring 35 % hurtigere, når det testes på CPU'en, understøtter MP3-filer og genererer mærkbart bedre resultater (enkelte stemmer i Open-Unmix efterlader spor af nogle værktøjer, hvilket sandsynligvis skyldes, at modeller Open-Unmix er trænet på en samling på kun 150 kompositioner).

Kilde: opennet.ru

Tilføj en kommentar