🥇Mozilla va presentar el motor de reconeixement de veu DeepSpeech 0.6

Presentat llançament del motor de reconeixement de veu desenvolupat per Mozilla DeepSpeech 0.6, que implementa l'arquitectura de reconeixement de veu del mateix nom, proposat per investigadors de Baidu. La implementació està escrita en Python mitjançant la plataforma d'aprenentatge automàtic TensorFlow i Distribuït per sota la llicència gratuïta MPL 2.0. Admet el treball a Linux, Android, macOS i Windows. El rendiment és suficient per utilitzar el motor a les plaques LePotato, Raspberry Pi 3 i Raspberry Pi 4.

També inclòs al conjunt ofert models entrenats, exemples fitxers de so i eines de reconeixement des de la línia d'ordres. Per integrar la funció de reconeixement de veu als vostres programes, s'ofereixen mòduls preparats per a Python, NodeJS, C++ i .NET (els desenvolupadors de tercers han preparat per separat mòduls per a Rovell и Go). El model acabat es subministra només per a anglès, però per a altres idiomes per adjunt instruccions podeu entrenar el sistema vosaltres mateixos dades de veu, recollit pel projecte Common Voice.

DeepSpeech és molt més senzill que els sistemes tradicionals i, al mateix temps, proporciona un reconeixement de major qualitat en presència de sorolls estranys. Passa per alt els models acústics tradicionals i el concepte de fonemes, en lloc d'utilitzar un sistema d'aprenentatge automàtic basat en xarxes neuronals altament optimitzat que elimina la necessitat de desenvolupar components separats per modelar diverses anomalies com ara el soroll, l'eco i les característiques de la parla.

L'inconvenient d'aquest enfocament és que per obtenir un reconeixement i un entrenament d'alta qualitat d'una xarxa neuronal, el motor DeepSpeech requereix una gran quantitat de dades heterogènies, dictades en condicions reals per diferents veus i en presència de soroll natural.
Un projecte creat a Mozilla recull aquestes dades. Veu comuna, proporcionant un conjunt de dades verificat amb 780 hores de Idioma anglès, 325 en alemany, 173 en francès i 27 hores en rus.

L'objectiu final del projecte Common Voice és acumular 10 mil hores d'enregistraments de diverses pronunciacions de frases típiques de la parla humana, que permetran assolir un nivell acceptable d'errors en el reconeixement. En la seva forma actual, els participants del projecte ja han dictat un total de 4.3 mil hores, de les quals 3.5 mil han estat provades. Quan es va entrenar el model final d'anglès per a DeepSpeech, es van utilitzar 3816 hores de parla, a més de les dades de cobertura de Common Voice dels projectes LibriSpeech, Fisher i Switchboard, i també van incloure unes 1700 hores d'enregistraments de programes de ràdio transcrits.

Quan s'utilitza el model d'anglès preparat per a la seva descàrrega, la taxa d'error de reconeixement a DeepSpeech és del 7.5% quan s'avalua amb un conjunt de proves. LibriSpeech. Per comparació, la taxa d'error per al reconeixement humà estimat 5.83%.

DeepSpeech consta de dos subsistemes: un model acústic i un descodificador. El model acústic utilitza mètodes d'aprenentatge automàtic profund per calcular la probabilitat que determinats caràcters estiguin presents al so d'entrada. El descodificador utilitza un algorisme de cerca de raigs per convertir les dades de probabilitat de caràcters en una representació de text.

El principal innovacions DeepSpeech 0.6 (la branca 0.6 no és compatible amb versions anteriors i requereix actualitzacions de codi i models):

Es proposa un nou descodificador de streaming que ofereix una major capacitat de resposta i és independent de la mida de les dades d'àudio processades. Com a resultat, la nova versió de DeepSpeech va aconseguir reduir la latència de reconeixement a 260 ms, que és un 73% més ràpid que abans, i permet utilitzar DeepSpeech en solucions de reconeixement de veu sobre la marxa.
S'han fet canvis a l'API i s'ha treballat per unificar els noms de les funcions. S'han afegit funcions per obtenir metadades addicionals sobre la sincronització, que us permeten no només rebre una representació de text com a sortida, sinó també fer un seguiment de l'enllaç de caràcters i frases individuals a una posició del flux d'àudio.
S'ha afegit suport per utilitzar la biblioteca al conjunt d'eines per als mòduls de formació CuDNN per optimitzar el treball amb xarxes neuronals recurrents (RNN), que va permetre aconseguir un augment significatiu (aproximadament el doble) del rendiment de l'entrenament del model, però va requerir canvis al codi que infringien la compatibilitat amb models preparats prèviament.
Els requisits mínims de la versió de TensorFlow s'han augmentat de 1.13.1 a 1.14.0. S'ha afegit suport per a l'edició lleugera de TensorFlow Lite, que redueix la mida del paquet DeepSpeech de 98 MB a 3.7 MB. Per utilitzar-lo en dispositius incrustats i mòbils, la mida del fitxer empaquetat amb el model també s'ha reduït de 188 MB a 47 MB (el mètode de quantificació s'utilitza per a la compressió després d'entrenar el model).
El model d'idioma s'ha traduït a un format d'estructura de dades diferent que permet assignar fitxers a la memòria quan es carreguen. S'ha deixat de suportar el format antic.
S'ha canviat la manera de carregar un fitxer amb un model d'idioma, fet que ha reduït el consum de memòria i ha reduït els retards a l'hora de processar la primera sol·licitud després de crear el model. Durant el funcionament, DeepSpeech consumeix ara 22 vegades menys memòria i s'inicia 500 vegades més ràpid.
Les paraules rares es van filtrar en el model lingüístic. El nombre total de paraules es va reduir a 500 mil de les paraules més populars que es troben en el text utilitzat per entrenar el model. La neteja va permetre reduir la mida del model d'idioma de 1800 MB a 900 MB, sense pràcticament cap efecte sobre la taxa d'error de reconeixement.
S'ha afegit suport per a diversos tècnic crear variacions addicionals (augment) de les dades d'àudio utilitzades a l'entrenament (per exemple, afegir distorsió o soroll a un conjunt d'opcions).
S'ha afegit una biblioteca amb enllaços per a la integració amb aplicacions basades en la plataforma .NET.
La documentació ha estat reelaborada i ara es recull en un lloc web separat. deepspeech.readthedocs.io.

Font: opennet.ru

Mozilla presenta el motor de reconeixement de veu DeepSpeech 0.6

Afegeix comentari Cancel resposta