Mozilla ayaa soo bandhigtay DeepSpeech 0.6 mashiinka aqoonsiga hadalka

Soo gudbiyey sii daynta mishiinka aqoonsiga hadalka ee ay samaysay Mozilla Hadalka Deep 0.6, kaas oo hirgeliya qaab-dhismeedka aqoonsiga hadalka ee isku magaca ah, soo jeediyay by cilmi-baarayaasha Baidu. Hirgelintu waxay ku qoran tahay Python iyadoo la adeegsanayo mashiinka TensorFlow ee barashada iyo qaybiyey hoos yimaada shatiga bilaashka ah ee MPL 2.0. Taageerayaashu waxay ku shaqeeyaan Linux, Android, macOS iyo Windows. Waxqabadku waa ku filan yahay in mishiinka loo isticmaalo looxyada LePotato, Raspberry Pi 3 iyo Raspberry Pi 4.

Sidoo kale waxaa lagu daray set la bixiyo moodooyinka tababaran, tusaalayaal faylalka dhawaaqa iyo aaladaha aqoonsiga ee khadka taliska. Si loo dhexgeliyo shaqada aqoonsiga hadalka ee barnaamijyadaada, qaybo diyaar u ah in la isticmaalo ee Python, NodeJS, C++ iyo .NET waa la bixiyaa miridhku ΠΈ Go). Qaabka la dhammeeyay waxaa lagu bixiyaa Ingiriisiga oo keliya, laakiin luqadaha kale ee ku lifaaqan tilmaamaha Adiga ayaa ku tababari kara nidaamka adiga oo isticmaalaya xogta codka, oo uu soo ururiyay mashruuca Codka Guud.

DeepSpeech aad ayuu uga fudud yahay hababka dhaqanka isla markaana waxay bixisaa aqoonsi tayo sare leh iyadoo ay jirto buuq ka baxsan. Waxay dhaaftaa moodooyinka dhawaaqa dhaqameedka iyo fikradda foonnada, taa beddelkeeda iyadoo la adeegsanayo nidaamka barashada mashiinka ku salaysan shabakada neerfaha ee aadka loo hagaajiyay taasoo meesha ka saaraysa baahida loo qabo in la sameeyo qaybo gaar ah si loo qaabeeyo cilladaha kala duwan sida dhawaaqa, dhawaaqa, iyo sifooyinka hadalka.

Hoos-u-dhaca habkani waa in si loo helo aqoonsi tayo sare leh iyo tababbarka shabakada neerfaha, mashiinka DeepSpeech wuxuu u baahan yahay xog badan oo kala duwan, oo lagu qeexay xaaladaha dhabta ah ee codadka kala duwan iyo joogitaanka qaylada dabiiciga ah.
Mashruuc laga sameeyay Mozilla wuxuu ururiyaa xogtan oo kale. codka guud, bixinta xog la xaqiijiyay oo leh 780 saacadood Luqadda Ingiriisiga, 325 Jarmal ah, 173 Faransiis ah iyo 27 saacadood oo Ruush ah.

Hadafka kama dambaysta ah ee mashruuca Codka Guud waa in la ururiyo 10 kun oo saacadood oo duubis ah oo ku dhawaaqida kala duwan ee weedhaha caadiga ah ee hadalka aadanaha, taas oo u oggolaan doonta in la gaaro heer la aqbali karo oo khaladaadka aqoonsiga. Qaabka uu hadda yahay, ka qaybqaatayaasha mashruuca ayaa hore u sheegay in ay dhan yihiin 4.3 kun oo saacadood, kuwaas oo 3.5 kun oo ka mid ah la tijaabiyey. Markii la tababaray qaabka ugu dambeeya ee luqadda Ingiriisiga ee DeepSpeech, 3816 saacadood oo hadal ah ayaa la isticmaalay, marka lagu daro Codka Guud ee daboolaya xogta mashaariicda LibriSpeech, Fisher iyo Switchboard, iyo sidoo kale ay ku jiraan ilaa 1700 saacadood oo duubis raadiyaha ah.

Markaad isticmaalayso qaabka luqadda Ingiriisiga ee diyaarka ah ee la soo dejiyo, heerka qaladka aqoonsiga ee DeepSpeech waa 7.5% marka lagu qiimeeyo hab tijaabo ah Hadal-qoraal. Marka la barbardhigo, heerka qaladka aqoonsiga aadanaha waa la qiimeeyaa 5.83%.

DeepSpeech wuxuu ka kooban yahay laba hab-hoosaadyo - moodel cod-yaqaan ah iyo cod-dejiye. Moodeelka acoustic wuxuu adeegsadaa hababka barashada mashiinka qoto dheer si loo xisaabiyo suurtagalnimada in jilayaasha qaarkood ay ku jiraan dhawaaqa gelinta. Codbixiyehu waxa uu isticmaalaa algorithm raadinta raajo si uu xogta itimaalka jilaha ugu beddelo matalaad qoraal ah.

Main wax cusub DeepSpeech 0.6 (laanta 0.6 kuma habboona siideyntii hore waxayna u baahan tahay kood iyo moodal cusub):

  • Codeeyaha cusub ee socodka ayaa la soo jeediyay kaas oo bixiya jawaab celin sare oo ka madax banaan cabbirka xogta maqalka ee la farsameeyay. Natiijo ahaan, nooca cusub ee DeepSpeech wuxuu ku guuleystey inuu hoos u dhigo daahitaanka aqoonsiga 260 ms, taas oo 73% ka dhaqso badan sidii hore, waxayna u oggolaaneysaa DeepSpeech in loo isticmaalo xallinta aqoonsiga hadalka ee duulista.
  • Isbeddel ayaa lagu sameeyay API waxaana la sameeyay shaqada si loo mideeyo magacyada shaqada. Hawlaha ayaa lagu daray si loo helo xog badan oo dheeraad ah oo ku saabsan isku-dubarid, taas oo u oggolaanaysa in aan la helin oo kaliya matalaadda qoraalka sida soo saarista, laakiin sidoo kale in la raad raaco xidhitaanka jilayaasha shakhsi ahaaneed iyo jumladaha meel ka mid ah qulqulka maqalka.
  • Taageerada isticmaalka maktabadda ayaa lagu daray qalabka tababarka ee cutubyada tababarka CuDNN si kor loogu qaado shaqada shabakadaha neerfayaasha ee soo noqnoqda (RNN), taas oo suurtogal ka dhigtay in la gaaro koror la taaban karo (qiyaastii laba laab) ee waxqabadka tababbarka moodeelka, laakiin loo baahan yahay isbeddelka koodka ku xadgudbay waafaqsanaanta moodooyinka hore loo diyaariyey.
  • Shuruudaha nooca ugu yar ee TensorFlow ayaa laga soo kiciyay 1.13.1 ilaa 1.14.0. Taageero lagu daray daabacaadda khafiifka ah ee TensorFlow Lite, taas oo yaraynaysa cabbirka xirmada DeepSpeech min 98 MB ilaa 3.7 MB. Si loogu isticmaalo aaladaha ku-xidhan iyo moobilka, cabbirka feylka buuxa ee moodeelka ayaa sidoo kale laga dhimay 188 MB ilaa 47 MB ​​(habka qiyaasidda waxaa loo isticmaalaa isku-buufin ka dib marka qaabka la tababaro).
  • Qaabka luqadda waxaa loo turjumay qaab dhismeed xogeed ka duwan kaas oo u oggolaanaya in faylasha lagu dhejiyo xusuusta marka la raro. Taageerada qaabkii hore waa la joojiyay.
  • Habka rarka faylka leh qaabka luqadda waa la bedelay, taas oo hoos u dhigtay isticmaalka xusuusta iyo hoos u dhigista dib u dhigista marka codsiga ugu horreeya ka dib abuurista qaabka. Inta lagu jiro hawlgalka, DeepSpeech hadda waxay isticmaashaa 22 jeer ka yar xusuusta waxayna ku bilaabataa 500 oo degdeg ah.

    Mozilla ayaa soo bandhigtay DeepSpeech 0.6 mashiinka aqoonsiga hadalka

  • Erayada dhifka ah ayaa lagu sifeeyay qaabka luqadda. Wadarta tirada ereyada waxaa lagu soo koobay 500 kun oo ka mid ah ereyada ugu caansan ee laga helay qoraalka loo isticmaalo in lagu tababaro qaabka. Nadiifintu waxay suurtagelisay in la dhimo cabbirka qaabka luqadda laga bilaabo 1800MB ilaa 900MB, iyada oo aan wax saameyn ah ku yeelan heerka qaladka aqoonsiga.
  • Lagu daray taageero kala duwan farsamo yaqaan abuurista kala duwanaansho dheeraad ah (kordhinta) xogta maqalka ee loo isticmaalo tababarka (tusaale, ku darista qallooca ama buuqa xulashada ikhtiyaarka ah).
  • Waxaa lagu daray maktabad leh xiritaanno is dhexgalka codsiyada ku salaysan .NET platformka.
  • Dukumeentiga dib ayaa loo shaqeeyay waxaana hadda lagu ururiyay shabakad gaar ah. hadal qoto dheer.akhrithedocs.io.

Source: opennet.ru

Add a comment