Mozilla ekpughere DeepSpeech 0.6 injin njirimara okwu

Ewebata ntọhapụ nke igwe njirimara okwu nke Mozilla mepụtara Okwu miri emi 0.6, nke na-arụ ọrụ njiri mara okwu nke otu aha, tụrụ aro site n'aka ndị nchọpụta si Baidu. Edere mmejuputa a na Python site na iji igwe mmụta igwe TensorFlow na kesara site n'okpuru ikike MPL 2.0 efu. Na-akwado ọrụ na Linux, Android, macOS na Windows. Arụmọrụ a zuru ezu iji injin na bọọdụ LePotato, Raspberry Pi 3 na Raspberry Pi 4.

Tinyekwara na setịpụ nyere ụdị zụrụ azụ, ihe atụ faịlụ ụda na ngwaọrụ njirimara sitere na ahịrị iwu. Iji tinye ọrụ njirimara okwu n'ime mmemme gị, a na-enye modul dị njikere iji maka Python, NodeJS, C++ na .NET (ndị mmepe nke ndị ọzọ akwadola modulu iche maka ya. nchara na- и Go). Emechara ihe nlereanya a na-enye naanị maka Bekee, mana maka asụsụ ndị ọzọ site na ejikọrọ ntụziaka ị nwere ike ịzụ usoro ahụ n'onwe gị site na iji data olu, nke anakọtara site na oru olu nkịtị.

DeepSpeech dị mfe karịa usoro ọdịnala ma n'otu oge ahụ na-enye njirimara dị elu n'ihu mkpọtụ mkpọtụ. Ọ na-agafe ụdị ụda olu ọdịnala na echiche nke fọnịm, kama iji usoro mmụta igwe dabere na netwọkụ akwara kachasị mma nke na-ewepụ mkpa ọ dị imepụta ihe dị iche iche iji ṅomie ihe adịghị mma dị iche iche dị ka mkpọtụ, nkwughachi na njirimara okwu.

Ihe dị n'ime ụzọ a bụ na iji nweta nkwado dị elu na ọzụzụ nke netwọk akwara, DeepSpeech engine chọrọ nnukwu data dị iche iche, nke a na-edepụta n'ọnọdụ dị adị site na ụda olu dị iche iche na n'ihu ụda eke.
Ọrụ emepụtara na Mozilla na-anakọta data dị otú ahụ. olu nkịtị, na-enye setịpụ data ekwenyesiri ike na awa 780 nke asụsụ bekee, 325 na German, 173 na French na awa 27 na Russian.

Ebumnobi kacha nke ọrụ olu nkịtị bụ ịkwakọba puku awa 10 nke ndekọ dị iche iche nke ụdị nkebiokwu nke okwu mmadụ, nke ga-enye ohere ịnweta ọkwa njehie na nnabata. N'ụdị ya ugbu a, ndị sonyere na ọrụ ahụ ekwupụtala ngụkọta nke awa 4.3 puku, nke a nwalere 3.5 puku. Mgbe a na-azụ ụdị asụsụ Bekee ikpeazụ maka DeepSpeech, a na-eji awa 3816 kwuo okwu, na mgbakwunye na nkwupụta ụda olu nkịtị sitere na ọrụ LibriSpeech, Fisher na Switchboard, yana gụnyere ihe dị ka awa 1700 nke ihe ngosi redio edegharịrị.

Mgbe ị na-eji ụdị asụsụ bekee emebere emebere nke enyere maka nbudata, ọnụego mperi njirimara na DeepSpeech bụ 7.5% ma e jiri usoro nnwale nyocha Okwu Libri. Maka ntụnyere, ọnụ ọgụgụ njehie maka njirimara mmadụ eme atụmatụ na 5.83%.

DeepSpeech nwere sistemu subsystem abụọ - ihe ngosi ụda na ihe nrụpụta. Ụdị ụda olu na-eji ụzọ mmụta igwe miri emi iji gbakọọ ohere nke ụfọdụ mkpụrụedemede nọ na ụda ntinye. Ihe ngbanwe na-eji algọridim ọchụchọ ray iji tọghata data puru omume agwa ka ọ bụrụ nnọchite ederede.

Main ihe ọhụrụ DeepSpeech 0.6 (alaka 0.6 adabaghị na mwepụta ndị gara aga ma chọọ mmelite koodu na ụdị):

  • A na-atụpụta ihe ndozi mgbasa ozi ọhụrụ nke na-enye nzaghachi dị elu yana enweghị onwe ya na nha data ọdịyo ahaziri. N'ihi ya, ụdị ọhụrụ nke DeepSpeech jisiri ike belata nkwụsị maka nnabata na 260 ms, nke bụ 73% ngwa ngwa karịa ka ọ dị na mbụ, ma na-enye ohere iji DeepSpeech mee ihe na ngwọta njirimara okwu na ofufe.
  • Emeela mgbanwe na API ma rụọ ọrụ iji jikọta aha ọrụ ọnụ. Agbakwunyela ọrụ iji nweta metadata agbakwunyere gbasara mmekọrịta, na-enye gị ohere ọ bụghị naanị ịnata nnochite anya ederede dị ka mmepụta, kamakwa iji soro njide nke mkpụrụedemede na ahịrịokwu n'otu n'otu na ọnọdụ na iyi ọdịyo.
  • Agbakwunyela nkwado maka iji ọbá akwụkwọ ahụ na ngwa ngwa maka modul ọzụzụ CuDNN ịkwalite ọrụ na netwọkụ neural na-emegharị ugboro ugboro (RNN), nke mere ka o kwe omume iji nweta mmụba dị ịrịba ama (ihe dị ka okpukpu abụọ) na arụmọrụ ọzụzụ nlereanya, mana achọrọ mgbanwe na koodu nke mebiri ndakọrịta na ụdị ndị a kwadebere na mbụ.
  • Ewelitela ụdịdị TensorFlow kacha nta site na 1.13.1 ruo 1.14.0. Nkwado agbakwunyere maka mbipụta dị fechaa nke TensorFlow Lite, nke na-ebelata nha nke ngwugwu DeepSpeech site na 98 MB ruo 3.7 MB. Maka iji ya na ngwaọrụ agbakwunyere na ekwentị mkpanaaka, a na-ebelata nha faịlụ ahụ nwere ụdị ahụ site na 188 MB gaa na 47 MB ​​(a na-eji usoro quantization maka mkpakọ mgbe a zụrụ ihe nlereanya ahụ).
  • Atụgharịla ụdị asụsụ ahụ ka ọ bụrụ usoro nhazi data dị iche nke na-enye ohere ka edepụta faịlụ na ebe nchekwa mgbe ebugoro ya. Akwụsịla nkwado maka usoro ochie.
  • Agbanwewo ụdị nke na-ebufe faịlụ nwere ụdị asụsụ, nke belatara oriri ebe nchekwa ma belata igbu oge mgbe ị na-edozi arịrịọ mbụ mgbe ịmepụtara ihe nlereanya ahụ. N'oge a na-arụ ọrụ, DeepSpeech ugbu a na-eri 22 ugboro obere ebe nchekwa ma malite ugboro 500 ngwa ngwa.

    Mozilla ekpughere DeepSpeech 0.6 injin njirimara okwu

  • A na-enyocha okwu ndị na-adịghị ahụkebe n'ụdị asụsụ. A na-ebelata ọnụ ọgụgụ okwu ọnụ ruo puku 500 nke okwu ndị kachasị ewu ewu dị na ederede eji zụọ ihe nlereanya. Nhicha ahụ mere ka o kwe omume ibelata nha ụdị asụsụ site na 1800MB gaa na 900MB, na-enweghị mmetụta ọ bụla na ọnụego nnabata.
  • agbakwunyere nkwado maka iche iche teknụzụ imepụta mgbanwe ndị ọzọ (mmụba) nke data ọdịyo ejiri na ọzụzụ (dịka ọmụmaatụ, ịgbakwunye mgbagha ma ọ bụ mkpọtụ na usoro nhọrọ).
  • Agbakwunyere ọbá akwụkwọ nwere njikọ maka njikọta na ngwa dabere na ikpo okwu NET.
  • Emegharịrị akwụkwọ ahụ ma nakọta ya ugbu a na webụsaịtị dị iche. miri emi.agụthedocs.io.

isi: opennet.ru

Tinye a comment