Ενημέρωση φωνής Mozilla Common Voice 7.0

Η NVIDIA και η Mozilla κυκλοφόρησαν μια ενημέρωση στα σύνολα δεδομένων Common Voice, τα οποία περιλαμβάνουν δείγματα ομιλίας 182 ατόμων, αυξημένα κατά 25% από 6 μήνες πριν. Τα δεδομένα δημοσιεύονται ως δημόσιο τομέα (CC0). Τα προτεινόμενα σύνολα μπορούν να χρησιμοποιηθούν σε συστήματα μηχανικής μάθησης για τη δημιουργία μοντέλων αναγνώρισης και σύνθεσης ομιλίας.

Σε σύγκριση με την προηγούμενη ενημέρωση, το μέγεθος του υλικού ομιλίας στη συλλογή έχει αυξηθεί από 9 σε 13.9 χιλιάδες ώρες ομιλίας. Ο αριθμός των υποστηριζόμενων γλωσσών έχει αυξηθεί από 60 σε 76, συμπεριλαμβανομένης της υποστήριξης για πρώτη φορά για Λευκορωσικά, Καζακικά, Ουζμπεκικά, Βουλγαρικά, Αρμενικά, Αζερμπαϊτζάν και Μπασκίρ γλώσσες. Το σετ για τη ρωσική γλώσσα καλύπτει 2136 συμμετέχοντες και 173 ώρες υλικού ομιλίας (υπήρχαν 1412 συμμετέχοντες και 111 ώρες), και για την ουκρανική γλώσσα - 615 συμμετέχοντες και 66 ώρες (υπήρχαν 459 συμμετέχοντες και 30 ώρες).

Περισσότερα από 75 χιλιάδες άτομα συμμετείχαν στην προετοιμασία του υλικού στα αγγλικά, υπαγορεύοντας 2637 ώρες επιβεβαιωμένης ομιλίας (υπήρχαν 66 χιλιάδες συμμετέχοντες και 1686 ώρες). Είναι ενδιαφέρον ότι η γλώσσα στη δεύτερη θέση όσον αφορά τον όγκο των συσσωρευμένων δεδομένων είναι η Ρουάντα, για την οποία έχουν συγκεντρωθεί 2260 ώρες. Ακολουθούν τα γερμανικά (1040), τα καταλανικά (920) και τα εσπεράντο (840). Μεταξύ των πιο δυναμικά αυξανόμενων μεγέθους φωνητικών δεδομένων είναι η ταϊλανδική γλώσσα (20πλάσια αύξηση στη βάση, από 12 σε 250 ώρες), η Λουγκάντα ​​(από 8 σε 80 ώρες), η Εσπεράντο (από 100 σε 840 ώρες) και τα Ταμίλ ( από 24 έως 220 ώρες).ώρες).

Στο πλαίσιο της συμμετοχής της στο έργο Common Voice, η NVIDIA ετοίμασε έτοιμα εκπαιδευμένα μοντέλα για συστήματα μηχανικής μάθησης (υποστηριζόμενα από την PyTorch) με βάση τα δεδομένα που συλλέχθηκαν. Τα μοντέλα διανέμονται ως μέρος της δωρεάν και ανοιχτής εργαλειοθήκης NVIDIA NeMo, η οποία, για παράδειγμα, χρησιμοποιείται ήδη στις αυτοματοποιημένες υπηρεσίες φωνής του MTS και της Sberbank. Τα μοντέλα προορίζονται για χρήση σε συστήματα αναγνώρισης ομιλίας, σύνθεσης ομιλίας και επεξεργασίας φυσικής γλώσσας και μπορεί να είναι χρήσιμα για ερευνητές που κατασκευάζουν συστήματα διαλόγου που ενεργοποιούνται με φωνή, πλατφόρμες μεταγραφής και αυτοματοποιημένα τηλεφωνικά κέντρα. Σε αντίθεση με προηγούμενα διαθέσιμα έργα, τα δημοσιευμένα μοντέλα δεν περιορίζονται στην αναγνώριση της αγγλικής γλώσσας και καλύπτουν μια ποικιλία γλωσσών, προφορών και μορφών ομιλίας.

Να σας υπενθυμίσουμε ότι το έργο Common Voice στοχεύει στην οργάνωση κοινής εργασίας για τη συγκέντρωση μιας βάσης δεδομένων φωνητικών προτύπων που λαμβάνει υπόψη την ποικιλομορφία των φωνών και των στυλ ομιλίας. Οι χρήστες καλούνται σε φωνητικές φράσεις που εμφανίζονται στην οθόνη ή αξιολογούν την ποιότητα των δεδομένων που προστίθενται από άλλους χρήστες. Η συσσωρευμένη βάση δεδομένων με αρχεία διαφόρων προφορών τυπικών φράσεων ανθρώπινης ομιλίας μπορεί να χρησιμοποιηθεί χωρίς περιορισμούς σε συστήματα μηχανικής μάθησης και σε ερευνητικά έργα.

Σύμφωνα με τον συγγραφέα της βιβλιοθήκης συνεχούς αναγνώρισης ομιλίας Vosk, τα μειονεκτήματα του σετ Common Voice είναι η μονόπλευρη ύλη του φωνητικού υλικού (η υπεροχή ανδρών 20-30 ετών και η έλλειψη υλικού με τις φωνές των γυναικών , παιδιά και ηλικιωμένους), η έλλειψη μεταβλητότητας στο λεξικό (επανάληψη των ίδιων φράσεων) και η διανομή ηχογραφήσεων σε παραμορφωτική μορφή MP3.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο