Inilabas ng Mozilla ang DeepSpeech 0.6 speech recognition engine

Ipinasa ni release ng speech recognition engine na binuo ng Mozilla DeepSpeech 0.6, na nagpapatupad ng arkitektura ng speech recognition ng parehong pangalan, iminungkahi mga mananaliksik mula sa Baidu. Ang pagpapatupad ay nakasulat sa Python gamit ang TensorFlow machine learning framework at ipinamahagi ni sa ilalim ng libreng lisensya MPL 2.0. Sinusuportahan ang Linux, Android, macOS at Windows. Ang pagganap ay sapat na upang magamit ang makina sa LePotato, Raspberry Pi 3 at Raspberry Pi 4 na mga board.

Ang set din inaalok sinanay na mga modelo, mga halimbawa sound file at mga tool para sa pagkilala mula sa command line. Para i-embed ang speech recognition function sa iyong mga program, ang mga handa-gamiting module para sa Python, NodeJS, C ++ at .NET ay inaalok (third-party developers ay naghanda ng mga module para sa Kalawang ΠΈ Go). Ang tapos na modelo ay ibinibigay lamang para sa Ingles, ngunit para sa iba pang mga wika kapag hiniling. kalakip tagubilin maaari mong sanayin ang system gamit ang iyong sarili data ng boseskinolekta ng proyekto ng Common Voice.

Ang DeepSpeech ay mas simple kaysa sa mga tradisyunal na sistema at sa parehong oras ay nagbibigay ng mas mataas na kalidad ng pagkilala sa pagkakaroon ng labis na ingay. Ang pagbuo ay hindi gumagamit ng mga tradisyonal na acoustic na modelo at ang konsepto ng mga ponema, sa halip ay gumagamit ng isang mahusay na na-optimize na sistema ng pag-aaral ng makina batay sa isang neural network, na nag-aalis ng pangangailangan na bumuo ng mga hiwalay na bahagi para sa pagmomodelo ng iba't ibang mga deviation, tulad ng ingay, echo at speech feature .

Ang downside ng diskarteng ito ay upang makakuha ng mataas na kalidad na pagkilala at pagsasanay ng neural network, ang DeepSpeech engine ay nangangailangan ng isang malaking halaga ng heterogenous na data na idinidikta sa totoong mga kondisyon ng iba't ibang mga boses at sa pagkakaroon ng natural na ingay.
Ang koleksyon ng naturang data ay isinasagawa ng isang proyekto na nilikha sa Mozilla Karaniwang Boses, na nagbibigay ng validated data set na may 780 oras na naka-on Wikang Ingles, 325 sa German, 173 sa French at 27 oras sa Russian.

Ang pinakalayunin ng proyekto ng Common Voice ay makaipon ng 10 oras ng mga pag-record ng iba't ibang pagbigkas ng mga tipikal na parirala sa pagsasalita ng tao, na makakamit ang isang katanggap-tanggap na antas ng mga error sa pagkilala. Sa kasalukuyang anyo nito, ang mga kalahok sa proyekto ay nagdidikta na ng kabuuang 4.3 libong oras, kung saan 3.5 libo ang nasubok. Noong sinasanay ang panghuling modelo ng wikang Ingles para sa DeepSpeech, ginamit ang 3816 na oras ng pagsasalita, bilang karagdagan sa Common Voice na sumasaklaw sa data mula sa mga proyektong LibriSpeech, Fisher at Switchboard, at kabilang din ang humigit-kumulang 1700 oras ng mga na-transcribe na pag-record ng palabas sa radyo.

Kapag ginagamit ang handa na modelo ng wikang Ingles na inaalok para sa pag-download, ang antas ng mga error sa pagkilala sa DeepSpeech ay 7.5% kapag tinasa ng set ng pagsubok LibriSpeech. Para sa paghahambing, ang rate ng error sa pagkilala ng tao tinantya sa 5.83%.

Ang DeepSpeech ay binubuo ng dalawang subsystem - isang acoustic model at isang decoder. Gumagamit ang modelo ng acoustic ng malalim na mga pamamaraan sa pag-aaral ng makina upang kalkulahin ang posibilidad ng pagkakaroon ng ilang partikular na simbolo sa input sound. Gumagamit ang decoder ng beam search algorithm upang i-convert ang data ng probability ng simbolo sa isang textual na representasyon.

Ang pangunahing mga inobasyon DeepSpeech 0.6 (0.6 branch ay hindi tugma sa likod at nangangailangan ng code at mga modelo na i-update):

  • Ang isang bagong streaming decoder ay iminungkahi na nagbibigay ng mas mataas na pagtugon at hindi nakadepende sa laki ng naprosesong audio data. Bilang resulta, nagawang bawasan ng bagong bersyon ng DeepSpeech ang pagkaantala sa pagkilala sa 260 ms, na 73% na mas mabilis kaysa dati, at pinapayagan kang gumamit ng DeepSpeech sa mga on-the-fly na solusyon sa pagkilala sa pagsasalita.
  • Ang mga pagbabago ay ginawa sa API at ang trabaho ay ginawa upang pag-isahin ang mga pangalan ng function. Naidagdag ang mga pag-andar upang makakuha ng karagdagang metadata tungkol sa pag-synchronize, na nagbibigay-daan hindi lamang makatanggap ng representasyon ng teksto bilang isang output, kundi pati na rin upang subaybayan ang pagbubuklod ng mga indibidwal na character at mga pangungusap sa isang posisyon sa audio stream.
  • Ang suporta para sa paggamit ng library ay idinagdag sa toolkit para sa mga module ng pag-aaral CuDNN upang i-optimize ang trabaho sa mga paulit-ulit na neural network (RNN), na naging posible upang makamit ang isang makabuluhang (mga dalawang beses) na pagtaas sa pagganap ng pagsasanay ng modelo, ngunit nangangailangan ng mga pagbabago sa code na lumabag sa pagiging tugma sa mga naunang inihandang modelo.
  • Ang mga minimum na kinakailangan para sa bersyon ng TensorFlow ay itinaas mula 1.13.1 hanggang 1.14.0. Nagdagdag ng suporta para sa magaan na TensorFlow Lite na edisyon, na nagpabawas sa laki ng DeepSpeech package mula 98 MB hanggang 3.7 MB. Para sa paggamit sa mga naka-embed at mobile device, ang laki ng naka-pack na file kasama ang modelo ay nabawasan din mula 188 MB hanggang 47 MB ​​​​(ang paraan ng quantization ay ginamit para sa compression pagkatapos na sanayin ang modelo).
  • Ang modelo ng wika ay isinalin sa ibang format ng mga istruktura ng data na nagbibigay-daan sa iyong mag-map ng mga file sa memorya kapag naglo-load. Ang suporta para sa lumang format ay hindi na ipinagpatuloy.
  • Ang mode ng paglo-load ng file gamit ang isang modelo ng wika ay binago, na nagpabawas sa pagkonsumo ng memorya at nagbawas ng mga pagkaantala sa pagproseso ng unang kahilingan pagkatapos magawa ang modelo. Kumokonsumo na ngayon ang DeepSpeech ng 22x na mas kaunting memory habang tumatakbo at nagsisimula nang 500x nang mas mabilis.

    Inilabas ng Mozilla ang DeepSpeech 0.6 speech recognition engine

  • Ang mga bihirang salita ay na-filter sa modelo ng wika. Ang kabuuang bilang ng mga salita ay nabawasan sa 500 sa mga pinakasikat na salita na matatagpuan sa tekstong ginamit upang sanayin ang modelo. Ang paglilinis ay naging posible na bawasan ang laki ng modelo ng wika mula 1800MB hanggang 900MB, na halos walang epekto sa antas ng mga error sa pagkilala.
  • Nagdagdag ng suporta para sa iba't ibang technician paglikha ng mga karagdagang variation (pagpapalaki) ng sound data na ginamit sa pagsasanay (halimbawa, pagdaragdag sa hanay ng mga opsyon na may kasamang distortion o ingay).
  • Nagdagdag ng library na may mga binding para sa pagsasama sa mga application batay sa .NET platform.
  • Muling idinisenyong dokumentasyon, na ngayon ay kinokolekta sa isang hiwalay na site deepspeech.readthedocs.io.

Pinagmulan: opennet.ru

Magdagdag ng komento