Ενημέρωση φωνής Mozilla Common Voice 8.0

Η Mozilla παρουσίασε μια ενημέρωση για τα σύνολα φωνητικών δεδομένων Common Voice, τα οποία περιλαμβάνουν παραδείγματα προφοράς από περίπου 200 άτομα. Δεδομένα που κυκλοφόρησαν ως δημόσιος τομέας (CC0). Τα προτεινόμενα σύνολα μπορούν να χρησιμοποιηθούν σε συστήματα μηχανικής μάθησης για τη δημιουργία μοντέλων αναγνώρισης και σύνθεσης ομιλίας. Σε σύγκριση με την τελευταία ενημέρωση, ο όγκος του υλικού ομιλίας στη συλλογή έχει αυξηθεί κατά 30% - από 13.9 σε 18.2 χιλιάδες ώρες ομιλίας. Ο αριθμός των υποστηριζόμενων γλωσσών έχει αυξηθεί από 67 σε 87.

Το σετ για τη ρωσική γλώσσα περιλαμβάνει 2452 συμμετέχοντες και 193 ώρες υλικού ομιλίας (υπήρχαν 2136 συμμετέχοντες και 173 ώρες), για τη λευκορωσική γλώσσα - 6160 συμμετέχοντες και 987 ώρες (υπήρχαν 3831 συμμετέχοντες και 356 ώρες), για την ουκρανική γλώσσα - 684 συμμετέχοντες και 76 ώρες (υπήρχαν 615 συμμετέχοντες και 66 ώρες). Περισσότερα από 79 χιλιάδες άτομα συμμετείχαν στην προετοιμασία του υλικού στα αγγλικά, υπαγορεύοντας 2886 ώρες επιβεβαιωμένης ομιλίας (υπήρχαν 75 χιλιάδες συμμετέχοντες και 2637 ώρες).

Θυμηθείτε ότι το έργο Common Voice στοχεύει στην οργάνωση κοινής εργασίας για τη συγκέντρωση μιας βάσης δεδομένων φωνητικών προτύπων που λαμβάνει υπόψη όλη την ποικιλομορφία των φωνών και των τρόπων ομιλίας. Οι χρήστες καλούνται να εκφράσουν τις φράσεις που εμφανίζονται στην οθόνη ή να αξιολογήσουν την ποιότητα των δεδομένων που προστέθηκαν από άλλους χρήστες. Η συσσωρευμένη βάση δεδομένων με αρχεία διαφόρων προφορών τυπικών φράσεων ανθρώπινης ομιλίας χωρίς περιορισμούς μπορεί να χρησιμοποιηθεί σε συστήματα μηχανικής μάθησης και σε ερευνητικά έργα. Σύμφωνα με τον συγγραφέα της βιβλιοθήκης συνεχούς αναγνώρισης ομιλίας Vosk, τα μειονεκτήματα του σετ Common Voice είναι η μονόπλευρη ύλη του φωνητικού υλικού (η υπεροχή ανδρών 20-30 ετών και η έλλειψη υλικού με τη φωνή των γυναικών, παιδιά και ηλικιωμένους), η έλλειψη μεταβλητότητας του λεξιλογίου (επανάληψη των ίδιων φράσεων) και η διανομή των ηχογραφήσεων σε παραμορφωτική μορφή MP3.

Επιπλέον, μπορούμε να σημειώσουμε την κυκλοφορία του κιτ εργαλείων NVIDIA NeMo 1.6, το οποίο παρέχει μεθόδους μηχανικής εκμάθησης για τη δημιουργία συστημάτων αναγνώρισης ομιλίας, σύνθεσης ομιλίας και επεξεργασίας πληροφοριών σε φυσική γλώσσα. Το NeMo περιλαμβάνει προκατασκευασμένα, εκπαιδευμένα μοντέλα μηχανικής εκμάθησης PyTorch που προετοιμάζονται από την NVIDIA χρησιμοποιώντας δεδομένα ομιλίας Common Voice και καλύπτουν διάφορες γλώσσες, τόνους και μορφές ομιλίας. Τα μοντέλα μπορούν να είναι χρήσιμα για ερευνητές που κατασκευάζουν συστήματα φωνητικού διαλόγου, πλατφόρμες μεταγραφής και αυτοματοποιημένα τηλεφωνικά κέντρα. Για παράδειγμα, το NVIDIA NeMo χρησιμοποιείται σε αυτοματοποιημένες φωνητικές υπηρεσίες του MTS και της Sberbank. Ο κώδικας NeMo είναι γραμμένος σε Python χρησιμοποιώντας PyTorch και διανέμεται με την άδεια Apache 2.0.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο