Ο κωδικός για το σύστημα αναγνώρισης και μετάφρασης ομιλίας Whisper έχει ανοίξει

Το έργο OpenAI, το οποίο αναπτύσσει δημόσια διαθέσιμα έργα στον τομέα της τεχνητής νοημοσύνης, έχει δημοσιεύσει εξελίξεις σχετικά με το σύστημα αναγνώρισης ομιλίας Whisper. Υποστηρίζεται ότι για την ομιλία στα αγγλικά, το σύστημα παρέχει επίπεδα αξιοπιστίας και ακρίβειας αυτόματης αναγνώρισης κοντά στην ανθρώπινη αναγνώριση. Ο κώδικας της υλοποίησης αναφοράς που βασίζεται στο πλαίσιο PyTorch και ένα σύνολο ήδη εκπαιδευμένων μοντέλων έτοιμων προς χρήση είναι ανοιχτοί. Ο κώδικας είναι ανοιχτός με άδεια MIT.

Το μοντέλο εκπαιδεύτηκε χρησιμοποιώντας 680 ώρες δεδομένων ομιλίας που συλλέχθηκαν από πολλαπλές συλλογές που καλύπτουν διαφορετικές γλώσσες και θεματικές περιοχές. Περίπου το 1/3 των δεδομένων ομιλίας που χρησιμοποιούνται στην εκπαίδευση προέρχονται από άλλες γλώσσες εκτός από τα αγγλικά. Το προτεινόμενο σύστημα χειρίζεται σωστά καταστάσεις όπως η τονισμένη προφορά, η παρουσία θορύβου περιβάλλοντος και η χρήση τεχνικής ορολογίας. Εκτός από τη μεταγραφή της ομιλίας σε κείμενο, το σύστημα μπορεί επίσης να μεταφράσει ομιλία από οποιαδήποτε γλώσσα στα Αγγλικά και να ανιχνεύσει την εμφάνιση της ομιλίας στη ροή ήχου.

Τα μοντέλα σχηματίζονται σε δύο αναπαραστάσεις: ένα μοντέλο για την αγγλική γλώσσα και ένα πολύγλωσσο μοντέλο που υποστηρίζει, μεταξύ άλλων, ρωσικές, ουκρανικές και λευκορωσικές γλώσσες. Με τη σειρά του, κάθε αναπαράσταση χωρίζεται σε 5 παραλλαγές, που διαφέρουν ως προς το μέγεθος και τον αριθμό των παραμέτρων που καλύπτονται στο μοντέλο. Όσο μεγαλύτερο είναι το μέγεθος, τόσο μεγαλύτερη είναι η ακρίβεια και η ποιότητα της αναγνώρισης, αλλά και τόσο υψηλότερες είναι οι απαιτήσεις για το μέγεθος της μνήμης βίντεο της GPU και τόσο χαμηλότερη είναι η απόδοση. Για παράδειγμα, η ελάχιστη επιλογή περιλαμβάνει 39 εκατομμύρια παραμέτρους και απαιτεί 1 GB μνήμης βίντεο και η μέγιστη επιλογή περιλαμβάνει 1550 εκατομμύρια παραμέτρους και απαιτεί 10 GB μνήμης βίντεο. Η ελάχιστη επιλογή είναι 32 φορές ταχύτερη από τη μέγιστη.

Ο κωδικός για το σύστημα αναγνώρισης και μετάφρασης ομιλίας Whisper έχει ανοίξει

Το σύστημα χρησιμοποιεί την αρχιτεκτονική νευρωνικού δικτύου Transformer, η οποία περιλαμβάνει έναν αλληλεπιδρώντα κωδικοποιητή και έναν αποκωδικοποιητή. Ο ήχος αναλύεται σε τμήματα 30 δευτερολέπτων, τα οποία μετατρέπονται σε ένα φασματογράφημα log-Mel και διαβιβάζονται στον κωδικοποιητή. Η έξοδος του κωδικοποιητή αποστέλλεται στον αποκωδικοποιητή, ο οποίος προβλέπει μια αναπαράσταση κειμένου αναμεμειγμένη με ειδικά διακριτικά που επιτρέπουν σε ένα κοινό μοντέλο να λύσει προβλήματα όπως η ανίχνευση γλώσσας, η χρονολόγηση της προφοράς φράσεων, η μεταγραφή ομιλίας σε διαφορετικές γλώσσες και η μετάφραση στα Αγγλικά.

Πηγή: opennet.ru

Αγοράστε αξιόπιστη φιλοξενία για ιστότοπους με προστασία DDoS, διακομιστές VPS VDS 🔥 Αγοράστε αξιόπιστη φιλοξενία ιστοσελίδων με προστασία DDoS, διακομιστές VPS VDS | ProHoster