Bidh Mozilla a’ nochdadh einnsean aithne cainnte DeepSpeech 0.6

Air a chuir a-steach le leigeil ma sgaoil an einnsean aithneachadh cainnt a chaidh a leasachadh le Mozilla Òraid dhomhainn 0.6, a bhios a’ buileachadh ailtireachd aithne cainnte den aon ainm, air a mholadh luchd-rannsachaidh à Baidu. Tha am buileachadh air a sgrìobhadh ann am Python a’ cleachdadh frèam ionnsachaidh inneal TensorFlow agus air a sgaoileadh le fon chead an-asgaidh MPL 2.0. A’ toirt taic do Linux, Android, macOS agus Windows. Tha an coileanadh gu leòr airson an einnsean a chleachdadh air bùird LePotato, Raspberry Pi 3 agus Raspberry Pi 4.

An seata cuideachd air a thairgsinn modailean air an trèanadh, eisimpleirean faidhlichean fuaim agus innealan airson aithneachadh bhon loidhne-àithne. Gus an gnìomh aithneachadh cainnt fhighe a-steach do na prògraman agad, tha modalan deiseil airson an cleachdadh airson Python, NodeJS, C ++ agus .NET air an tabhann (tha luchd-leasachaidh treas-phàrtaidh air modalan ullachadh airson meirgeadh и Go). Tha am modail deiseil air a thoirt seachad a-mhàin airson Beurla, ach airson cànanan eile ma thèid iarraidh. ceangailte stiùireadh faodaidh tu an siostam a thrèanadh thu fhèin a’ cleachdadh dàta guthair a chruinneachadh le pròiseact Common Voice.

Tha DeepSpeech tòrr nas sìmplidh na siostaman traidiseanta agus aig an aon àm a’ toirt seachad càileachd aithne nas àirde an làthair fuaim neo-àbhaisteach. Chan eil an leasachadh a’ cleachdadh mhodalan fuaimneach traidiseanta agus bun-bheachd phonemes, an àite sin a’ cleachdadh siostam ionnsachaidh inneal làn-leasaichte stèidhichte air lìonra neural, a chuireas às don fheum air co-phàirtean fa leth a leasachadh airson diofar chlaonaidhean a mhodaladh, leithid fuaim, mac-talla agus feartan cainnt. .

Is e an eas-bhuannachd den dòigh-obrach seo, gus aithne agus trèanadh àrd-inbhe fhaighinn air an lìonra neural, gu bheil feum aig an einnsean DeepSpeech air mòran de dhàta ioma-ghnèitheach air a dhearbhadh ann an suidheachaidhean fìor le diofar ghuthan agus an làthair fuaim nàdarra.
Tha cruinneachadh an dàta sin air a dhèanamh le pròiseact a chaidh a chruthachadh ann am Mozilla Guth cumanta, a’ toirt seachad seata dàta dearbhte le 780 uair air adhart Beurla, 325 ann an Gearmailtis, 173 ann am Fraingis agus 27 uairean ann an Ruisis.

Is e an t-amas mu dheireadh aig pròiseact Common Voice 10 uair a thìde de chlàraidhean de dhiofar fhuaimneachadh de dh’ abairtean cainnte àbhaisteach a chruinneachadh, a choileanas ìre iomchaidh de mhearachdan aithneachaidh. Anns an riochd a th’ ann an-dràsta, tha com-pàirtichean a’ phròiseict air 4.3 mìle uair gu h-iomlan òrdachadh, agus chaidh 3.5 mìle dhiubh sin a dhearbhadh. Nuair a bha iad a’ trèanadh a’ mhodail mu dheireadh den Bheurla airson DeepSpeech, chaidh 3816 uairean de dh’ òraid a chleachdadh, a bharrachd air Common Voice a’ còmhdach dàta bho na pròiseactan LibriSpeech, Fisher agus Switchboard, agus cuideachd a’ toirt a-steach timcheall air 1700 uair de chlàran taisbeanaidh rèidio ath-sgrìobhaidh.

Nuair a bhios tu a’ cleachdadh a’ mhodail Beurla deiseil a thathar a’ tabhann airson luchdachadh sìos, tha an ìre de mhearachdan aithneachaidh ann an DeepSpeech aig 7.5% nuair a thèid a mheasadh leis an t-seata deuchainn. Leabhar-labhairt. Airson coimeas a dhèanamh, tha an ìre mearachd ann an aithneachadh daonna air a mheasadh ann an 5.83%.

Tha dà fho-shiostam ann an DeepSpeech - modail fuaimneach agus decoder. Bidh am modal fuaimneach a’ cleachdadh dhòighean ionnsachaidh inneal domhainn gus obrachadh a-mach an coltachd gum bi cuid de shamhlaidhean an làthair anns an fhuaim cuir a-steach. Bidh an decoder a’ cleachdadh algairim sgrùdaidh beam gus an dàta coltachd samhla a thionndadh gu riochdachadh teacsa.

prìomh innleachdan DeepSpeech 0.6 (chan eil meur 0.6 co-chòrdail air ais agus feumar còd agus modalan ùrachadh):

  • Thathas a’ moladh decoder sruthadh ùr a bheir seachad freagairteachd nas àirde agus nach eil an urra ri meud an dàta claisneachd giullachd. Mar thoradh air an sin, bha an dreach ùr de DeepSpeech comasach air an dàil aithneachaidh a lughdachadh gu 260 ms, a tha 73% nas luaithe na bha e roimhe, agus a leigeas leat DeepSpeech a chleachdadh ann am fuasglaidhean aithne cainnte air-the-fly.
  • Chaidh atharraichean a dhèanamh air an API agus chaidh obair a dhèanamh gus ainmean gnìomh aonachadh. Chaidh gnìomhan a chuir ris gus meata-dàta a bharrachd fhaighinn mu shioncronachadh, a’ ceadachadh chan e a-mhàin riochdachadh teacsa fhaighinn mar thoradh, ach cuideachd sùil a chumail air ceangal charactaran agus seantansan fa leth gu suidheachadh san t-sruth claisneachd.
  • Tha taic airson cleachdadh an leabharlainn air a chur ris an inneal airson modalan ionnsachaidh CuDNN gus an obair as fheàrr a dhèanamh le lìonraidhean neural ath-chuairteach (RNN), a rinn e comasach àrdachadh mòr (timcheall air dà uair) a choileanadh ann an coileanadh trèanaidh modail, ach a dh’ fheumadh atharrachaidhean air a ’chòd a bhris co-chòrdalachd le modalan a chaidh ullachadh roimhe.
  • Chaidh na riatanasan as ìsle airson dreach TensorFlow àrdachadh bho 1.13.1 gu 1.14.0. Taic a bharrachd airson an deasachadh aotrom TensorFlow Lite, a lughdaich meud pasgan DeepSpeech bho 98 MB gu 3.7 MB. Airson a chleachdadh air innealan freumhaichte agus gluasadach, chaidh meud an fhaidhle pacaichte leis a’ mhodail a lughdachadh cuideachd bho 188 MB gu 47 MB ​​(chaidh an dòigh àireamhachaidh a chleachdadh airson teannachadh às deidh don mhodail a bhith air a thrèanadh).
  • Chaidh am modail cànain eadar-theangachadh gu cruth eadar-dhealaichte de structaran dàta a leigeas leat faidhlichean a mhapadh gu cuimhne nuair a bhios tu gan luchdachadh. Tha taic airson an t-seann chruth air a stad.
  • Chaidh am modh luchdachadh faidhle le modail cànain atharrachadh, a lughdaich caitheamh cuimhne agus a lughdaich dàil ann a bhith a’ giullachd a’ chiad iarrtas às deidh a’ mhodail a chruthachadh. Bidh DeepSpeech a-nis ag ithe 22x nas lugha de chuimhne fhad ‘s a tha e a’ ruith agus a ’tòiseachadh 500x nas luaithe.

    Bidh Mozilla a’ nochdadh einnsean aithne cainnte DeepSpeech 0.6

  • Chaidh faclan tearc a shìoladh sa mhodail cànain. Chaidh an àireamh iomlan de dh’fhaclan a lughdachadh gu 500 de na faclan as mòr-chòrdte a lorgar san teacsa a chaidh a chleachdadh gus am modail a thrèanadh. Rinn an glanadh seo e comasach meud a’ mhodail cànain a lughdachadh bho 1800MB gu 900MB, gun cha mhòr buaidh sam bith air an ìre de mhearachdan aithneachaidh.
  • Taic a bharrachd airson diofar teicneolaiche cruthachadh atharrachaidhean a bharrachd (àrdachadh) den dàta fuaim a thathar a’ cleachdadh ann an trèanadh (mar eisimpleir, a’ cur ris an t-seata de roghainnean a tha a’ toirt a-steach saobhadh no fuaim).
  • Chuir sinn leabharlann ris le ceanglachan airson amalachadh le tagraidhean stèidhichte air an àrd-ùrlar .NET.
  • Sgrìobhainnean ath-dhealbhaichte, a tha a-nis air an cruinneachadh air làrach air leth deepspeech.readthedocs.io.

Source: fosgailtenet.ru

Cuir beachd ann