Ο κωδικός για το σύστημα αναγνώρισης και μετάφρασης ομιλίας Whisper έχει ανοίξει

Το έργο OpenAI, το οποίο αναπτύσσει δημόσια έργα στον τομέα της τεχνητής νοημοσύνης, δημοσίευσε εξελίξεις που σχετίζονται με το σύστημα αναγνώρισης ομιλίας Whisper. Υποστηρίζεται ότι για την ομιλία στα αγγλικά το σύστημα παρέχει επίπεδα αξιοπιστίας και ακρίβειας της αυτόματης αναγνώρισης κοντά στην ανθρώπινη αναγνώριση. Ο κώδικας για την υλοποίηση αναφοράς που βασίζεται στο πλαίσιο PyTorch και ένα σύνολο ήδη εκπαιδευμένων μοντέλων, έτοιμα προς χρήση, έχουν ανοίξει. Ο κωδικός είναι ανοιχτός υπό την άδεια MIT.

Για την εκπαίδευση του μοντέλου, χρησιμοποιήθηκαν 680 χιλιάδες ώρες δεδομένων ομιλίας, που συλλέχθηκαν από διάφορες συλλογές που καλύπτουν διαφορετικές γλώσσες και θεματικά πεδία. Περίπου το 1/3 των δεδομένων ομιλίας που εμπλέκονται στην εκπαίδευση είναι σε άλλες γλώσσες εκτός από τα αγγλικά. Το προτεινόμενο σύστημα χειρίζεται σωστά καταστάσεις όπως τονισμένη προφορά, θόρυβο φόντου και χρήση τεχνικής ορολογίας. Εκτός από τη μεταγραφή της ομιλίας σε κείμενο, το σύστημα μπορεί επίσης να μεταφράσει ομιλία από οποιαδήποτε γλώσσα στα Αγγλικά και να ανιχνεύσει την εμφάνιση της ομιλίας στη ροή ήχου.

Τα μοντέλα σχηματίζονται σε δύο αναπαραστάσεις: ένα μοντέλο για την αγγλική γλώσσα και ένα πολύγλωσσο μοντέλο, το οποίο υποστηρίζει επίσης ρωσικές, ουκρανικές και λευκορωσικές γλώσσες. Με τη σειρά του, κάθε αναπαράσταση χωρίζεται σε 5 επιλογές, που διαφέρουν ως προς το μέγεθος και τον αριθμό των παραμέτρων που καλύπτονται στο μοντέλο. Όσο μεγαλύτερο είναι το μέγεθος, τόσο μεγαλύτερη είναι η ακρίβεια και η ποιότητα της αναγνώρισης, αλλά και τόσο υψηλότερες είναι οι απαιτήσεις για το μέγεθος της μνήμης βίντεο της GPU και τόσο χαμηλότερη είναι η απόδοση. Για παράδειγμα, η ελάχιστη επιλογή περιλαμβάνει 39 εκατομμύρια παραμέτρους και απαιτεί 1 GB μνήμης βίντεο και η μέγιστη περιλαμβάνει 1550 εκατομμύρια παραμέτρους και απαιτεί 10 GB μνήμης βίντεο. Η ελάχιστη επιλογή είναι 32 φορές ταχύτερη από τη μέγιστη.

Ο κωδικός για το σύστημα αναγνώρισης και μετάφρασης ομιλίας Whisper έχει ανοίξει

Το σύστημα χρησιμοποιεί την αρχιτεκτονική νευρωνικού δικτύου Transformer, η οποία περιλαμβάνει έναν κωδικοποιητή και έναν αποκωδικοποιητή που αλληλεπιδρούν μεταξύ τους. Ο ήχος αναλύεται σε κομμάτια των 30 δευτερολέπτων, τα οποία μετατρέπονται σε φασματόγραμμα log-Mel και αποστέλλονται στον κωδικοποιητή. Η έξοδος του κωδικοποιητή αποστέλλεται στον αποκωδικοποιητή, ο οποίος προβλέπει μια αναπαράσταση κειμένου αναμεμειγμένη με ειδικά διακριτικά που επιτρέπουν, σε ένα γενικό μοντέλο, την επίλυση προβλημάτων όπως η ανίχνευση γλώσσας, η καταγραφή της χρονολογίας της προφοράς των φράσεων, η μεταγραφή της ομιλίας σε διαφορετικές γλώσσες και μετάφραση στα αγγλικά.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο