Η Mozilla αποκαλύπτει τη μηχανή αναγνώρισης ομιλίας DeepSpeech 0.6

Εισήχθη κυκλοφορία της μηχανής αναγνώρισης ομιλίας που αναπτύχθηκε από τη Mozilla DeepSpeech 0.6, το οποίο υλοποιεί την ομώνυμη αρχιτεκτονική αναγνώρισης ομιλίας, προτείνεται ερευνητές από το Baidu. Η υλοποίηση είναι γραμμένη σε Python χρησιμοποιώντας το πλαίσιο μηχανικής μάθησης TensorFlow και διανέμονται από υπό την ελεύθερη άδεια MPL 2.0. Υποστηρίζει Linux, Android, macOS και Windows. Η απόδοση είναι αρκετή για να χρησιμοποιήσετε τον κινητήρα σε πλακέτες LePotato, Raspberry Pi 3 και Raspberry Pi 4.

Το σετ επίσης προσφέρεται εκπαιδευμένα μοντέλα, παραδείγματα αρχεία ήχου και εργαλεία για αναγνώριση από τη γραμμή εντολών. Για να ενσωματώσετε τη λειτουργία αναγνώρισης ομιλίας στα προγράμματά σας, προσφέρονται έτοιμες προς χρήση λειτουργικές μονάδες για Python, NodeJS, C ++ και .NET (οι προγραμματιστές τρίτων έχουν προετοιμάσει ενότητες για Σκωρία и Go). Το έτοιμο μοντέλο παρέχεται μόνο για αγγλικά, αλλά για άλλες γλώσσες κατόπιν αιτήματος. επισυνάπτεται οδηγίες μπορείτε να εκπαιδεύσετε το σύστημα μόνοι σας χρησιμοποιώντας φωνητικά δεδομέναπου συλλέγονται από το έργο Common Voice.

Το DeepSpeech είναι πολύ πιο απλό από τα παραδοσιακά συστήματα και ταυτόχρονα παρέχει υψηλότερη ποιότητα αναγνώρισης παρουσία εξωτερικού θορύβου. Η ανάπτυξη δεν χρησιμοποιεί παραδοσιακά ακουστικά μοντέλα και την έννοια των φωνημάτων, αλλά χρησιμοποιεί ένα καλά βελτιστοποιημένο σύστημα μηχανικής μάθησης που βασίζεται σε ένα νευρωνικό δίκτυο, το οποίο εξαλείφει την ανάγκη ανάπτυξης ξεχωριστών στοιχείων για τη μοντελοποίηση διαφόρων αποκλίσεων, όπως χαρακτηριστικά θορύβου, ηχούς και ομιλίας .

Το μειονέκτημα αυτής της προσέγγισης είναι ότι για να αποκτήσει αναγνώριση και εκπαίδευση υψηλής ποιότητας του νευρωνικού δικτύου, η μηχανή DeepSpeech απαιτεί μεγάλη ποσότητα ετερογενών δεδομένων που υπαγορεύονται σε πραγματικές συνθήκες από διαφορετικές φωνές και παρουσία φυσικού θορύβου.
Η συλλογή τέτοιων δεδομένων πραγματοποιείται από ένα έργο που δημιουργήθηκε στο Mozilla Κοινή φωνή, παρέχοντας ένα επικυρωμένο σύνολο δεδομένων με ενεργές 780 ώρες Αγγλική γλώσσα, 325 στα γερμανικά, 173 στα γαλλικά και 27 ώρες στα ρωσικά.

Ο απώτερος στόχος του έργου Common Voice είναι να συγκεντρώσει 10 ώρες ηχογραφήσεων διαφόρων προφορών τυπικών φράσεων ανθρώπινης ομιλίας, οι οποίες θα επιτύχουν ένα αποδεκτό επίπεδο σφαλμάτων αναγνώρισης. Στη σημερινή του μορφή, οι συμμετέχοντες στο έργο έχουν ήδη υπαγορεύσει συνολικά 4.3 χιλιάδες ώρες, εκ των οποίων οι 3.5 χιλιάδες έχουν δοκιμαστεί. Κατά την εκπαίδευση του τελικού μοντέλου της αγγλικής γλώσσας για το DeepSpeech, χρησιμοποιήθηκαν 3816 ώρες ομιλίας, επιπλέον του Common Voice που κάλυπτε δεδομένα από τα έργα LibriSpeech, Fisher και Switchboard, και επίσης περιλάμβανε περίπου 1700 ώρες ηχογραφήσεων ραδιοφωνικών εκπομπών.

Όταν χρησιμοποιείτε το έτοιμο μοντέλο της αγγλικής γλώσσας που προσφέρεται για λήψη, το επίπεδο σφαλμάτων αναγνώρισης στο DeepSpeech είναι 7.5% όταν αξιολογείται από το σύνολο δοκιμών Βιβλιοθήκη. Για σύγκριση, το ποσοστό σφάλματος στην ανθρώπινη αναγνώριση εκτιμάται στο 5.83%.

Το DeepSpeech αποτελείται από δύο υποσυστήματα - ένα ακουστικό μοντέλο και έναν αποκωδικοποιητή. Το ακουστικό μοντέλο χρησιμοποιεί μεθόδους βαθιάς μηχανικής εκμάθησης για να υπολογίσει την πιθανότητα να υπάρχουν ορισμένα σύμβολα στον ήχο εισόδου. Ο αποκωδικοποιητής χρησιμοποιεί έναν αλγόριθμο αναζήτησης δέσμης για να μετατρέψει τα δεδομένα πιθανότητας συμβόλων σε μια αναπαράσταση κειμένου.

Ο κύριος καινοτομίες DeepSpeech 0.6 (ο κλάδος 0.6 δεν είναι συμβατός προς τα πίσω και απαιτεί ενημέρωση κώδικα και μοντέλων):

  • Ένας νέος αποκωδικοποιητής ροής προτείνεται που παρέχει υψηλότερη απόκριση και δεν εξαρτάται από το μέγεθος των επεξεργασμένων δεδομένων ήχου. Ως αποτέλεσμα, η νέα έκδοση του DeepSpeech μπόρεσε να μειώσει την καθυστέρηση αναγνώρισης στα 260 ms, η οποία είναι 73% ταχύτερη από πριν, και σας επιτρέπει να χρησιμοποιείτε το DeepSpeech σε λύσεις αναγνώρισης ομιλίας on-the-fly.
  • Έχουν γίνει αλλαγές στο API και έχουν γίνει εργασίες για την ενοποίηση των ονομάτων συναρτήσεων. Έχουν προστεθεί λειτουργίες για τη λήψη πρόσθετων μεταδεδομένων σχετικά με το συγχρονισμό, επιτρέποντας όχι μόνο τη λήψη αναπαράστασης κειμένου ως έξοδο, αλλά και την παρακολούθηση της σύνδεσης μεμονωμένων χαρακτήρων και προτάσεων σε μια θέση στη ροή ήχου.
  • Η υποστήριξη για τη χρήση της βιβλιοθήκης έχει προστεθεί στην εργαλειοθήκη για ενότητες εκμάθησης CuDNN για τη βελτιστοποίηση της εργασίας με επαναλαμβανόμενα νευρωνικά δίκτυα (RNN), η οποία κατέστησε δυνατή την επίτευξη σημαντικής (περίπου δύο φορές) αύξησης στην απόδοση εκπαίδευσης του μοντέλου, αλλά απαιτούσε αλλαγές στον κώδικα που παραβίαζαν τη συμβατότητα με προηγουμένως προετοιμασμένα μοντέλα.
  • Οι ελάχιστες απαιτήσεις για την έκδοση TensorFlow έχουν αυξηθεί από 1.13.1 σε 1.14.0. Προστέθηκε υποστήριξη για την ελαφριά έκδοση TensorFlow Lite, η οποία μείωσε το μέγεθος του πακέτου DeepSpeech από 98 MB σε 3.7 MB. Για χρήση σε ενσωματωμένες και κινητές συσκευές, το μέγεθος του συσκευασμένου αρχείου με το μοντέλο μειώθηκε επίσης από 188 MB σε 47 MB ​​(η μέθοδος κβαντοποίησης χρησιμοποιήθηκε για συμπίεση μετά την εκπαίδευση του μοντέλου).
  • Το μοντέλο γλώσσας έχει μεταφραστεί σε διαφορετική μορφή δομών δεδομένων που σας επιτρέπει να αντιστοιχίσετε αρχεία στη μνήμη κατά τη φόρτωση. Η υποστήριξη για την παλιά μορφή έχει διακοπεί.
  • Ο τρόπος φόρτωσης ενός αρχείου με μοντέλο γλώσσας άλλαξε, γεγονός που μείωσε την κατανάλωση μνήμης και μείωσε τις καθυστερήσεις στην επεξεργασία του πρώτου αιτήματος μετά τη δημιουργία του μοντέλου. Το DeepSpeech καταναλώνει τώρα 22 φορές λιγότερη μνήμη κατά τη λειτουργία και ξεκινά 500 φορές πιο γρήγορα.

    Η Mozilla αποκαλύπτει τη μηχανή αναγνώρισης ομιλίας DeepSpeech 0.6

  • Στο μοντέλο γλώσσας φιλτράρονταν σπάνιες λέξεις. Ο συνολικός αριθμός λέξεων έχει μειωθεί σε 500 από τις πιο δημοφιλείς λέξεις που βρέθηκαν στο κείμενο που χρησιμοποιείται για την εκπαίδευση του μοντέλου. Ο καθαρισμός κατέστησε δυνατή τη μείωση του μεγέθους του μοντέλου γλώσσας από 1800MB σε 900MB, χωρίς σχεδόν καμία επίδραση στο επίπεδο των σφαλμάτων αναγνώρισης.
  • Προστέθηκε υποστήριξη για διάφορα τεχνικός δημιουργία πρόσθετων παραλλαγών (αύξηση) των δεδομένων ήχου που χρησιμοποιούνται στην προπόνηση (για παράδειγμα, προσθήκη στο σύνολο επιλογών που περιλαμβάνουν παραμόρφωση ή θόρυβο).
  • Προστέθηκε βιβλιοθήκη με συνδέσμους για ενοποίηση με εφαρμογές που βασίζονται στην πλατφόρμα .NET.
  • Επανασχεδιασμένη τεκμηρίωση, η οποία τώρα συλλέγεται σε ξεχωριστό ιστότοπο deepspeech.readthedocs.io.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο