Gipadayag sa Mozilla ang DeepSpeech 0.6 speech recognition engine

Gipasa ni pagpagawas sa speech recognition engine nga gihimo ni Mozilla DeepSpeech 0.6, nga nagpatuman sa arkitektura sa pag-ila sa sinultihan sa parehas nga ngalan, gisugyot sa mga tigdukiduki gikan sa Baidu. Ang pagpatuman gisulat sa Python gamit ang TensorFlow machine learning platform ug giapod-apod sa ubos sa libre nga lisensya sa MPL 2.0. Nagsuporta sa trabaho sa Linux, Android, macOS ug Windows. Ang pasundayag igo na aron magamit ang makina sa LePotato, Raspberry Pi 3 ug Raspberry Pi 4 nga mga tabla.

Lakip usab sa set gitanyag gibansay nga mga modelo, mga pananglitan sound files ug recognition tools gikan sa command line. Aron i-integrate ang function sa speech recognition sa imong mga programa, ang andam-gamiton nga mga modulo para sa Python, NodeJS, C++ ug .NET gitanyag (ang mga third-party developers adunay gilain nga pag-andam og mga modules para sa taya ΠΈ Go). Ang nahuman nga modelo gihatag lamang alang sa English, apan alang sa ubang mga pinulongan pinaagi sa gilakip mga instruksyon mahimo nimong bansayon ​​ang sistema nga imong gigamit data sa tingog, nga gikolekta sa proyekto sa Common Voice.

Ang DeepSpeech mas simple kay sa tradisyonal nga mga sistema ug sa samang higayon naghatag og mas taas nga kalidad nga pag-ila sa presensya sa extraneous nga kasaba. Gilaktawan niini ang tradisyonal nga mga modelo sa acoustic ug ang konsepto sa mga ponema, sa baylo nga gigamit ang usa ka labi ka na-optimize nga sistema sa pagkat-on sa makina nga nakabase sa neural network nga nagtangtang sa panginahanglan sa paghimo og mga lahi nga sangkap aron mamodelo ang lainlaing mga anomaliya sama sa kasaba, echo, ug mga bahin sa pagsulti.

Ang downside niini nga pamaagi mao nga aron makakuha og taas nga kalidad nga pag-ila ug pagbansay sa usa ka neural network, ang DeepSpeech nga makina nagkinahanglan sa usa ka dako nga kantidad sa heterogeneous data, nga gidiktar sa tinuod nga mga kahimtang sa lain-laing mga tingog ug sa presensya sa natural nga kasaba.
Ang usa ka proyekto nga gihimo sa Mozilla nagkolekta sa ingon nga datos. Komon nga Tingog, naghatag ug napamatud-an nga dataset nga adunay 780 ka oras nga Iningles nga pinulongan, 325 sa German, 173 sa French ug 27 ka oras sa Russian.

Ang katapusang tumong sa proyekto sa Common Voice mao ang pagtigom ug 10 ka libo ka oras nga mga rekording sa nagkalain-laing paglitok sa tipikal nga hugpong sa pulong sa tawo, nga magtugot sa pagkab-ot sa madawat nga lebel sa mga sayop sa pag-ila. Sa kasamtangan nga porma niini, ang mga partisipante sa proyekto nakadikta na sa kinatibuk-an nga 4.3 ka libo ka oras, diin 3.5 ka libo ang nasulayan. Kung gibansay ang katapusan nga modelo sa pinulongang Ingles para sa DeepSpeech, gigamit ang 3816 ka oras nga sinultihan, dugang sa Common Voice nga naglangkob sa datos gikan sa mga proyekto sa LibriSpeech, Fisher ug Switchboard, ug lakip usab ang mga 1700 ka oras sa gi-transcribe nga mga pagrekord sa radio show.

Kung gigamit ang andam nga modelo sa sinultian nga Ingles nga gitanyag alang sa pag-download, ang rate sa sayup sa pag-ila sa DeepSpeech mao ang 7.5% kung gisusi gamit ang usa ka set sa pagsulay. LibriSpeech. Alang sa pagtandi, ang rate sa sayup alang sa pag-ila sa tawo gisusi sa 5.83%.

Ang DeepSpeech naglangkob sa duha ka subsystem - usa ka acoustic nga modelo ug usa ka decoder. Ang acoustic nga modelo naggamit sa lawom nga mga pamaagi sa pagkat-on sa makina aron makalkulo ang posibilidad nga adunay pipila nga mga karakter nga naa sa tunog sa pag-input. Ang decoder naggamit ug ray search algorithm aron mabag-o ang datos sa kalagmitan sa karakter ngadto sa representasyon sa teksto.

nag-unang mga inobasyon DeepSpeech 0.6 (0.6 nga sanga dili compatible sa nangaging mga pagpagawas ug nagkinahanglan sa code ug modelo updates):

  • Gisugyot ang usa ka bag-ong streaming decoder nga naghatag mas taas nga pagtubag ug independente sa gidak-on sa giproseso nga data sa audio. Ingon usa ka sangputanan, ang bag-ong bersyon sa DeepSpeech nakahimo sa pagpakunhod sa latency alang sa pag-ila sa 260 ms, nga 73% nga mas paspas kaysa kaniadto, ug gitugotan ang DeepSpeech nga magamit sa mga solusyon sa pag-ila sa sinultihan sa langaw.
  • Nahimo ang mga pagbag-o sa API ug nahimo ang trabaho aron mahiusa ang mga ngalan sa function. Gidugang ang mga gimbuhaton aron makakuha og dugang nga metadata bahin sa pag-synchronize, nga gitugotan ka dili lamang makadawat usa ka representasyon sa teksto ingon usa ka output, apan aron masubay usab ang pagbugkos sa mga indibidwal nga karakter ug mga tudling-pulong sa usa ka posisyon sa audio stream.
  • Ang suporta sa paggamit sa librarya gidugang sa toolkit para sa mga module sa pagbansay CuDNN aron ma-optimize ang trabaho sa nagbalik-balik nga mga neural network (RNN), nga nagpaposible nga makab-ot ang usa ka hinungdanon (gibana-bana nga doble) nga pagtaas sa pasundayag sa pagbansay sa modelo, apan nanginahanglan mga pagbag-o sa code nga nakalapas sa pagkaangay sa giandam na nga mga modelo.
  • Ang minimum nga TensorFlow nga mga kinahanglanon nga bersyon gipataas gikan sa 1.13.1 ngadto sa 1.14.0. Gidugang nga suporta alang sa gaan nga edisyon sa TensorFlow Lite, nga nagpamenos sa gidak-on sa DeepSpeech nga pakete gikan sa 98 MB hangtod sa 3.7 MB. Alang sa paggamit sa mga naka-embed ug mobile device, ang gidak-on sa naka-pack nga file nga adunay modelo gikunhuran usab gikan sa 188 MB hangtod 47 MB ​​(ang pamaagi sa quantization gigamit alang sa compression pagkahuman nabansay ang modelo).
  • Ang modelo sa lengguwahe gihubad ngadto sa lain nga format sa istruktura sa datos nga nagtugot sa mga file nga ma-mapa ngadto sa memorya kung gikarga. Ang suporta alang sa daan nga format gihunong na.
  • Ang paagi sa pagkarga sa usa ka file sa usa ka modelo sa pinulongan nausab, nga nakapamenos sa konsumo sa panumduman ug nagpakunhod sa mga paglangan sa pagproseso sa unang hangyo human sa paghimo sa modelo. Atol sa operasyon, ang DeepSpeech karon naggamit sa 22 ka beses nga mas gamay nga memorya ug nagsugod sa 500 ka beses nga mas paspas.

    Gipadayag sa Mozilla ang DeepSpeech 0.6 speech recognition engine

  • Ang talagsaon nga mga pulong gisala sa modelo sa pinulongan. Ang kinatibuk-ang gidaghanon sa mga pulong gipakunhod ngadto sa 500 ka libo sa labing popular nga mga pulong nga makita sa teksto nga gigamit sa pagbansay sa modelo. Ang pagpanglimpyo nagpaposible sa pagpakunhod sa gidak-on sa modelo sa pinulongan gikan sa 1800MB ngadto sa 900MB, nga halos walay epekto sa rate sa sayop sa pag-ila.
  • Gidugang nga suporta alang sa lainlaing teknisyan paghimo og dugang nga mga variation (augmentation) sa audio data nga gigamit sa pagbansay (pananglitan, pagdugang sa pagtuis o kasaba sa usa ka set sa mga kapilian).
  • Gidugang ang usa ka librarya nga adunay mga binding alang sa paghiusa sa mga aplikasyon nga gibase sa .NET nga plataporma.
  • Ang dokumentasyon gi-rework ug karon gikolekta sa usa ka bulag nga website. deepspeech.readthedocs.io.

Source: opennet.ru

Idugang sa usa ka comment