Η Google κυκλοφορεί δεδομένα και μοντέλο μηχανικής εκμάθησης για να διαχωρίζει τους ήχους

Google опубликовала μια σχολιασμένη βάση δεδομένων μικτών ήχων αναφοράς που μπορεί να χρησιμοποιηθεί σε συστήματα μηχανικής εκμάθησης που χρησιμοποιούνται για τον διαχωρισμό αυθαίρετων μικτών ήχων στα επιμέρους συστατικά τους. Έχει επίσης δημοσιευτεί ένα γενικό μοντέλο βαθιάς μηχανικής εκμάθησης (TDCN++) που μπορεί να χρησιμοποιηθεί στο Tensorflow για διαχωρισμό ήχων. Στοιχεία που προετοιμάστηκαν με βάση τη συλλογή freesound.org и που δημοσιεύθηκε άδεια σύμφωνα με το CC BY 4.0.

Το παρουσιαζόμενο έργο FUSS (Free Universal Sound Separation) στοχεύει στην επίλυση του προβλήματος του διαχωρισμού οποιουδήποτε αριθμού αυθαίρετων ήχων, η φύση των οποίων δεν είναι γνωστή εκ των προτέρων. Άλλα παρόμοια συστήματα περιορίζονται γενικά στο έργο της διάκρισης μεταξύ ορισμένων ήχων, όπως φωνών και μη, ή διαφορετικών ατόμων που μιλούν.

Η βάση δεδομένων περιέχει περίπου 20 χιλιάδες μίξεις. Το κιτ περιλαμβάνει επίσης προ-υπολογισμένες αποκρίσεις παλμών δωματίου χρησιμοποιώντας έναν προσαρμοσμένο προσομοιωτή δωματίου που λαμβάνει υπόψη την αντανάκλαση του τοίχου, τη θέση της πηγής ήχου και τη θέση του μικροφώνου.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο