Whisper Speech Recognition and Translation System Code Apertu

U prughjettu OpenAI, chì sviluppa prughjetti publichi in u campu di l'intelligenza artificiale, hà publicatu sviluppi ligati à u sistema di ricunniscenza di parlà Whisper. Hè dichjaratu chì per a parolla in inglese u sistema furnisce livelli di affidabilità è precisione di ricunniscenza automatica vicinu à u ricunniscenza umanu. U codice per l'implementazione di riferimentu basatu annantu à u framework PyTorch è un inseme di mudelli digià furmatu, pronti per l'usu, sò stati aperti. U codice hè apertu sottu a licenza MIT.

Per furmà u mudellu, sò stati utilizati 680 mila ore di dati di parlà, raccolti da parechje cullezzione chì coprenu diverse lingue è temi. Circa 1/3 di i dati di parlà implicati in a furmazione sò in lingue diverse da l'inglese. U sistema prupostu gestisce currettamente situazioni cum'è a pronuncia accentuata, u rumore di fondo è l'usu di l'argu tecnicu. In più di trascrive u discorsu in testu, u sistema pò ancu traduce u discorsu da qualsiasi lingua in inglese è detectà l'apparenza di a parolla in u flussu audio.

I mudelli sò furmati in dui rapprisintazioni: un mudellu per a lingua inglese è un mudellu multilingue, chì sustene ancu e lingue russe, ucraine è bielorusse. À u turnu, ogni rapprisintazioni hè divisu in 5 opzioni, diffirenti in grandezza è quantità di paràmetri coperti in u mudellu. A più grande hè a dimensione, più grande hè a precisione è a qualità di ricunniscenza, ma ancu u più altu i requisiti per a dimensione di a memoria video GPU è u più bassu u rendiment. Per esempiu, l'opzione minima include 39 milioni di paràmetri è richiede 1 GB di memoria video, è u massimu include 1550 milioni di parametri è esige 10 GB di memoria video. L'opzione minima hè 32 volte più veloce di u massimu.

Whisper Speech Recognition and Translation System Code Apertu

U sistema usa l'architettura di a rete neurale Transformer, chì include un codificatore è un decodificatore chì interagiscenu cù l'altri. L'audio hè spartutu in pezzi di 30 seconde, chì sò cunvertiti in un spettrogramma log-Mel è mandati à l'encoder. L'output di l'encoder hè mandatu à u decoder, chì predice una rapprisintazioni di testu mischiata cù tokens speciale chì permettenu, in un mudellu generale, di risolve prublemi cum'è a deteczione di a lingua, cuntandu a cronologia di a pronuncia di e frasi, a trascrizzione di u discorsu in diverse lingue, è traduzzione in inglese.

Source: opennet.ru

Add a comment