Ανοιχτός κώδικας για το Spleeter, ένα σύστημα διαχωρισμού μουσικής και φωνής

Πάροχος ροής Deezer άνοιξε Κείμενα πηγής του πειραματικού έργου Spleeter, το οποίο αναπτύσσει ένα σύστημα μηχανικής εκμάθησης για το διαχωρισμό των πηγών ήχου από τις σύνθετες συνθέσεις ήχου. Το πρόγραμμα σάς επιτρέπει να αφαιρέσετε φωνητικά από μια σύνθεση και να αφήσετε μόνο τη μουσική συνοδεία, να χειριστείτε τον ήχο μεμονωμένων οργάνων ή να απορρίψετε τη μουσική και να αφήσετε τη φωνή για επικάλυψη με άλλη σειρά ήχου, δημιουργώντας μίξεις, καραόκε ή μεταγραφή. Ο κώδικας του έργου είναι γραμμένος σε Python χρησιμοποιώντας τη μηχανή Tensorflow και διανέμονται από υπό την άδεια του MIT.

Για φόρτωση προσφέρεται ήδη εκπαιδευμένα μοντέλα για τον διαχωρισμό των φωνητικών (μία φωνή) από τη συνοδεία, καθώς και για τη διαίρεση σε 4 και 5 streams, συμπεριλαμβανομένων φωνητικών, ντραμς, μπάσου, πιάνου και του υπόλοιπου ήχου. Το Spleeter μπορεί να χρησιμοποιηθεί τόσο ως βιβλιοθήκη Python όσο και ως αυτόνομο βοηθητικό πρόγραμμα γραμμής εντολών. Στην απλούστερη περίπτωση, με βάση το αρχείο προέλευσης δημιουργήθηκε δύο, τέσσερα ή πέντε αρχεία με στοιχεία φωνής και συνοδείας (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav).

Όταν χωρίζεται σε 2 και 4 νήματα, το Spleeter παρέχει πολύ υψηλή απόδοση, για παράδειγμα, όταν χρησιμοποιείται η GPU, ο διαχωρισμός ενός αρχείου ήχου σε 4 νήματα απαιτεί 100 φορές λιγότερο χρόνο από τη διάρκεια της αρχικής σύνθεσης. Σε ένα σύστημα με GPU NVIDIA GeForce GTX 1080 και CPU 32 πυρήνων Intel Xeon Gold 6134, η συλλογή δοκιμής musDB, η οποία διήρκεσε τρεις ώρες και 27 λεπτά, υποβλήθηκε σε επεξεργασία σε 90 δευτερόλεπτα.

Ανοιχτός κώδικας για το Spleeter, ένα σύστημα διαχωρισμού μουσικής και φωνής



Μεταξύ των πλεονεκτημάτων του Spleeter, σε σύγκριση με άλλες εξελίξεις στον τομέα του διαχωρισμού ήχου, όπως το έργο ανοιχτού κώδικα Άνοιγμα-Απομίξη, αναφέρει τη χρήση μοντέλων υψηλότερης ποιότητας κατασκευασμένα από μια εκτενή συλλογή αρχείων ήχου. Λόγω περιορισμών πνευματικών δικαιωμάτων, οι ερευνητές μηχανικής μάθησης περιορίζονται στην πρόσβαση σε αρκετά αραιές δημόσιες συλλογές μουσικών αρχείων, ενώ τα μοντέλα του Spleeter κατασκευάστηκαν χρησιμοποιώντας δεδομένα από τον τεράστιο μουσικό κατάλογο της Deezer.

Επί σύγκριση με το Open-Unmix, το εργαλείο διαχωρισμού του Spleeter είναι περίπου 35% πιο γρήγορο όταν δοκιμάζεται στην CPU, υποστηρίζει αρχεία MP3 και παράγει αισθητά καλύτερα αποτελέσματα (η απλή φωνή στο Open-Unmix αφήνει ίχνη ορισμένων εργαλείων, κάτι που είναι πιθανό να οφείλεται στο γεγονός ότι τα μοντέλα Open-Unmix εκπαιδεύονται σε μια συλλογή μόνο 150 συνθέσεων).

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο