Νέα μοντέλα για τη ρωσική αναγνώριση ομιλίας στη βιβλιοθήκη Vosk

Οι προγραμματιστές της βιβλιοθήκης Vosk δημοσίευσαν νέα μοντέλα για τη ρωσική αναγνώριση ομιλίας: vosk-model-ru-0.22 από την πλευρά του διακομιστή και Vosk-model-small-ru-0.22 για φορητές συσκευές. Τα μοντέλα χρησιμοποιούν νέα δεδομένα ομιλίας, καθώς και μια νέα αρχιτεκτονική νευρωνικών δικτύων, η οποία κατέστησε δυνατή την αύξηση της ακρίβειας αναγνώρισης κατά 10-20%. Ο κώδικας και τα δεδομένα διανέμονται υπό την άδεια Apache 2.0.

Σημαντικές αλλαγές:

  • Τα νέα δεδομένα που συλλέγονται στις στήλες φωνής βελτιώνουν σημαντικά την αναγνώριση των εντολών ομιλίας που εκφωνούνται από απόσταση.
  • Το νέο σχήμα εξαγωγής ήχου έχει βελτιώσει σημαντικά την ακρίβεια αναγνώρισης για εγγραφές ευρείας ζώνης. Ταυτόχρονα, η ακρίβεια αναγνώρισης τηλεφωνίας έχει επίσης βελτιωθεί.
  • Το πρόσθετο πακέτο λεξικού σάς επιτρέπει να προσαρμόσετε την αναγνώριση σύνθετων τεχνικών καταχωρήσεων.

Για καλύτερη ακρίβεια, συνιστάται να ενημερώσετε την έκδοση Wax σε 0.3.32 επίσης. Μπορεί επίσης να σας ενδιαφέρουν οι νέες δυνατότητες Wax - ενσωμάτωση με Unity, Nativescript, Jigasi. Μοντέλα για την αναγνώριση της καζακικής και της ουκρανικής γλώσσας. Το μοντέλο διακομιστή χρειάζεται σύγχρονο επεξεργαστή και 8 GB μνήμης για να λειτουργήσει. Το μοντέλο κινητού μπορεί να χρησιμοποιηθεί σε τηλέφωνα και RaspberryPi 3+.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο