Il codice per il sistema di riconoscimento vocale e traduzione Whisper è stato aperto

Il progetto OpenAI, che sviluppa progetti pubblici nel campo dell'intelligenza artificiale, ha pubblicato gli sviluppi relativi al sistema di riconoscimento vocale Whisper. Si sostiene che per il parlato in inglese il sistema fornisce livelli di affidabilità e accuratezza del riconoscimento automatico vicini al riconoscimento umano. Sono stati aperti il ​​codice per l'implementazione di riferimento basata sul framework PyTorch e un set di modelli già addestrati e pronti per l'uso. Il codice è aperto sotto la licenza MIT.

Per addestrare il modello sono state utilizzate 680mila ore di dati vocali, raccolti da diverse raccolte che coprono diverse lingue e aree tematiche. Circa 1/3 dei dati vocali coinvolti nella formazione sono in lingue diverse dall'inglese. Il sistema proposto gestisce correttamente situazioni come la pronuncia accentata, il rumore di fondo e l'uso del gergo tecnico. Oltre a trascrivere il parlato in testo, il sistema può anche tradurre il parlato da qualsiasi lingua in inglese e rilevare la comparsa del parlato nel flusso audio.

I modelli sono formati in due rappresentazioni: un modello per la lingua inglese e un modello multilingue, che supporta anche le lingue russa, ucraina e bielorussa. A sua volta, ciascuna rappresentazione è divisa in 5 opzioni, diverse per dimensione e numero di parametri coperti dal modello. Maggiore è la dimensione, maggiore sarà la precisione e la qualità del riconoscimento, ma anche maggiori saranno i requisiti per la dimensione della memoria video della GPU e minori saranno le prestazioni. Ad esempio, l'opzione minima include 39 milioni di parametri e richiede 1 GB di memoria video, mentre quella massima include 1550 milioni di parametri e richiede 10 GB di memoria video. L'opzione minima è 32 volte più veloce della massima.

Il codice per il sistema di riconoscimento vocale e traduzione Whisper è stato aperto

Il sistema utilizza l'architettura della rete neurale Transformer, che include un codificatore e un decodificatore che interagiscono tra loro. L'audio viene suddiviso in blocchi di 30 secondi, che vengono convertiti in uno spettrogramma log-Mel e inviati al codificatore. L'output del codificatore viene inviato al decodificatore, che prevede una rappresentazione testuale mista a token speciali che consentono, in un modello generale, di risolvere problemi come il rilevamento della lingua, la contabilità della cronologia della pronuncia delle frasi, la trascrizione del parlato in diverse lingue e traduzione in inglese.

Fonte: opennet.ru

Aggiungi un commento