Η NVIDIA επενδύει 1.5 εκατομμύρια δολάρια στο έργο Mozilla Common Voice

Η NVIDIA επενδύει 1.5 εκατομμύρια δολάρια στο έργο Mozilla Common Voice. Το ενδιαφέρον για τα συστήματα αναγνώρισης ομιλίας πηγάζει από την πρόβλεψη ότι τα επόμενα δέκα χρόνια, η τεχνολογία φωνής θα γίνει ένας από τους κύριους τρόπους αλληλεπίδρασης των ανθρώπων με συσκευές που κυμαίνονται από υπολογιστές και τηλέφωνα μέχρι ψηφιακούς βοηθούς και περίπτερα.

Η απόδοση των φωνητικών συστημάτων εξαρτάται σε μεγάλο βαθμό από τον όγκο και την ποικιλία των φωνητικών δεδομένων που είναι διαθέσιμα για την εκπαίδευση μοντέλων μηχανικής εκμάθησης. Η σημερινή τεχνολογία φωνής εστιάζει κυρίως στην αναγνώριση της αγγλικής γλώσσας και δεν καλύπτει το τεράστιο φάσμα γλωσσών, προφορών και προτύπων ομιλίας. Η επένδυση θα βοηθήσει στην επιτάχυνση της ανάπτυξης των δημόσιων φωνητικών δεδομένων, στη συμμετοχή περισσότερων κοινοτήτων και εθελοντών και στην επέκταση του αριθμού του προσωπικού του έργου πλήρους απασχόλησης.

Να σας υπενθυμίσουμε ότι το έργο Common Voice στοχεύει στην οργάνωση κοινής εργασίας για τη συγκέντρωση μιας βάσης δεδομένων φωνητικών προτύπων που λαμβάνει υπόψη την ποικιλομορφία των φωνών και των στυλ ομιλίας. Οι χρήστες καλούνται σε φωνητικές φράσεις που εμφανίζονται στην οθόνη ή αξιολογούν την ποιότητα των δεδομένων που προστίθενται από άλλους χρήστες. Η συσσωρευμένη βάση δεδομένων με αρχεία διαφόρων προφορών τυπικών φράσεων ανθρώπινης ομιλίας μπορεί να χρησιμοποιηθεί χωρίς περιορισμούς σε συστήματα μηχανικής μάθησης και σε ερευνητικά έργα.

Το σετ Common Voice περιλαμβάνει επί του παρόντος παραδείγματα προφοράς από περισσότερα από 164 άτομα. Έχουν συγκεντρωθεί περίπου 9 χιλιάδες ώρες φωνητικών δεδομένων σε 60 διαφορετικές γλώσσες. Το σετ για τη ρωσική γλώσσα καλύπτει 1412 συμμετέχοντες και 111 ώρες ομιλίας, και για την ουκρανική γλώσσα - 459 συμμετέχοντες και 30 ώρες. Για σύγκριση, περισσότερα από 66 χιλιάδες άτομα συμμετείχαν στην προετοιμασία του υλικού στα αγγλικά, υπαγορεύοντας 1686 ώρες επαληθευμένης ομιλίας. Τα προτεινόμενα σύνολα μπορούν να χρησιμοποιηθούν σε συστήματα μηχανικής μάθησης για τη δημιουργία μοντέλων αναγνώρισης και σύνθεσης ομιλίας. Τα δεδομένα δημοσιεύονται ως δημόσιο τομέα (CC0).

Σύμφωνα με τον συγγραφέα της βιβλιοθήκης συνεχούς αναγνώρισης ομιλίας Vosk, τα μειονεκτήματα του σετ Common Voice είναι η μονόπλευρη ύλη του φωνητικού υλικού (η υπεροχή ανδρών 20-30 ετών και η έλλειψη υλικού με τις φωνές των γυναικών , παιδιά και ηλικιωμένους), η έλλειψη μεταβλητότητας στο λεξικό (επανάληψη των ίδιων φράσεων) και η διανομή ηχογραφήσεων σε παραμορφωτική μορφή MP3.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο