S'ha obert el codi del sistema de reconeixement i traducció de veu Whisper

El projecte OpenAI, que desenvolupa projectes públics en l'àmbit de la intel·ligència artificial, ha publicat novetats relacionades amb el sistema de reconeixement de veu Whisper. S'afirma que per a la parla en anglès el sistema proporciona nivells de fiabilitat i precisió de reconeixement automàtic propers al reconeixement humà. S'ha obert el codi per a la implementació de referència basada en el framework PyTorch i un conjunt de models ja entrenats, preparats per al seu ús. El codi està obert sota la llicència MIT.

Per entrenar el model, es van utilitzar 680 mil hores de dades de parla, recollides de diverses col·leccions que cobreixen diferents idiomes i àrees temàtiques. Aproximadament 1/3 de les dades de parla implicades en la formació es troben en idiomes diferents de l'anglès. El sistema proposat gestiona correctament situacions com ara la pronunciació accentuada, el soroll de fons i l'ús de l'argot tècnic. A més de transcriure la parla a text, el sistema també pot traduir la parla de qualsevol idioma a l'anglès i detectar l'aparició de la parla al flux d'àudio.

Els models es formen en dues representacions: un model per a la llengua anglesa i un model multilingüe, que també admet els idiomes rus, ucraïnès i bielorús. Al seu torn, cada representació es divideix en 5 opcions, que es diferencien en mida i nombre de paràmetres coberts en el model. Com més gran sigui la mida, major serà la precisió i la qualitat del reconeixement, però també majors són els requisits de mida de la memòria de vídeo de la GPU i menor és el rendiment. Per exemple, l'opció mínima inclou 39 milions de paràmetres i requereix 1 GB de memòria de vídeo, i la màxima inclou 1550 milions de paràmetres i requereix 10 GB de memòria de vídeo. L'opció mínima és 32 vegades més ràpida que la màxima.

S'ha obert el codi del sistema de reconeixement i traducció de veu Whisper

El sistema utilitza l'arquitectura de xarxa neuronal Transformer, que inclou un codificador i un descodificador que interactuen entre ells. L'àudio es divideix en fragments de 30 segons, que es converteixen en un espectrograma log-Mel i s'envien al codificador. La sortida del codificador s'envia al descodificador, que prediu una representació de text barrejada amb fitxes especials que permeten, en un model general, resoldre problemes com ara la detecció del llenguatge, la comptabilitat de la cronologia de la pronunciació de frases, la transcripció de la parla en diferents idiomes i traducció a l'anglès.

Font: opennet.ru

Afegeix comentari