Open source voor Spleeter, een systeem voor het scheiden van muziek en stem

Streamingprovider Deezer ik opende Bronteksten van het experimentele project Spleeter, dat een machine learning-systeem ontwikkelt voor het scheiden van geluidsbronnen van complexe audiocomposities. Met dit programma kun je zang uit een compositie verwijderen en alleen de muzikale begeleiding achterlaten, het geluid van individuele instrumenten manipuleren, of de muziek weggooien en de stem laten overlappen met een andere geluidsreeks, waardoor mixen, karaoke of transcriptie ontstaan. De projectcode is geschreven in Python met behulp van de Tensorflow-engine en gedistribueerd door onder de MIT-licentie.

Voor laden aangeboden reeds getrainde modellen voor het scheiden van zang (één stem) van begeleiding, en voor het verdelen in 4 en 5 stromen, inclusief zang, drums, bas, piano en de rest van het geluid. Spleeter kan zowel als Python-bibliotheek als als zelfstandig opdrachtregelhulpprogramma worden gebruikt. In het eenvoudigste geval op basis van het bronbestand gemaakt twee, vier of vijf bestanden met stem- en begeleidingscomponenten (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav).

Bij het splitsen in 2 en 4 threads levert Spleeter zeer hoge prestaties. Bij gebruik van de GPU kost het splitsen van een audiobestand in 4 threads bijvoorbeeld 100 keer minder tijd dan de duur van de originele compositie. Op een systeem met een NVIDIA GeForce GTX 1080 GPU en een 32-core Intel Xeon Gold 6134 CPU werd de musDB-testverzameling, die drie uur en 27 minuten duurde, in 90 seconden verwerkt.

Open source voor Spleeter, een systeem voor het scheiden van muziek en stem



Een van de voordelen van Spleeter, vergeleken met andere ontwikkelingen op het gebied van audioscheiding, zoals het open source project Open-ontmengen, vermeldt het gebruik van modellen van hogere kwaliteit, opgebouwd uit een uitgebreide verzameling geluidsbestanden. Vanwege auteursrechtbeperkingen zijn onderzoekers op het gebied van machine learning beperkt tot toegang tot tamelijk schaarse openbare collecties muziekbestanden, terwijl de modellen van Spleeter zijn gebouwd met behulp van gegevens uit de enorme muziekcatalogus van Deezer.

Op vergelijking van met Open-Unmix is ​​de scheidingstool van Spleeter ongeveer 35% sneller wanneer deze op de CPU wordt getest, ondersteunt hij MP3-bestanden en genereert hij merkbaar betere resultaten (het afzonderlijk stemmen in Open-Unmix laat sporen achter van sommige tools, wat waarschijnlijk te wijten is aan het feit dat de modellen Open-Unmix zijn getraind op een verzameling van slechts 150 composities).

Bron: opennet.ru

Voeg een reactie