Ua wehe ʻo Mozilla i ka ʻenekini ʻike ʻōlelo ʻōlelo DeepSpeech 0.6

Waiho ʻia e ka hoʻokuʻu ʻana i ka mīkini ʻike ʻōlelo i hoʻomohala ʻia e Mozilla DeepSpeech 0.6, ka mea e hoʻokō i ka hoʻolālā ʻōlelo hoʻomaopopo o ka inoa hoʻokahi, noiʻi ʻia nā mea noiʻi mai Baidu. Ua kākau ʻia ka hoʻokō ʻana ma Python me ka hoʻohana ʻana i ka ʻōnaehana aʻo mīkini TensorFlow a mahele ʻia e ma lalo o ka laikini manuahi MPL 2.0. Kākoʻo iā Linux, Android, macOS a me Windows. Ua lawa ka hana e hoʻohana i ka ʻenekini ma nā papa LePotato, Raspberry Pi 3 a me Raspberry Pi 4.

ʻO ka hoʻonohonoho pū kekahi hāʻawi ʻia nā kumu hoʻohālike i aʻo ʻia, nā hiʻohiʻona nā faila kani a me nā mea hana no ka ʻike ʻana mai ka laina kauoha. No ka hoʻokomo ʻana i ka hana ʻike ʻōlelo i kāu mau papahana, ua hāʻawi ʻia nā modula mākaukau no ka Python, NodeJS, C ++ a me .NET (ua hoʻomākaukau nā mea hoʻomohala ʻekolu i nā modula no lepo и Go). Hāʻawi ʻia ke kumu hoʻohālike no ka ʻōlelo Pelekane wale nō, akā no nā ʻōlelo ʻē aʻe ma ke noi. pili nā kuhikuhi hiki iā ʻoe ke aʻo i ka ʻōnaehana iā ʻoe iho me ka hoʻohana ʻana ʻikepili leoʻohi ʻia e ka papahana Common Voice.

ʻOi aku ka maʻalahi o DeepSpeech ma mua o nā ʻōnaehana kuʻuna a ma ka manawa like e hāʻawi i kahi kiʻekiʻe kiʻekiʻe o ka hoʻomaopopo ʻana i ke alo o ka leo extraneous. ʻAʻole hoʻohana ka hoʻomohala ʻana i nā hiʻohiʻona acoustic kuʻuna a me ka manaʻo o nā phonemes, ma kahi o ka hoʻohana ʻana i kahi ʻōnaehana aʻo mīkini maikaʻi ʻia e pili ana i kahi neural network, kahi e hoʻopau ai i ka pono e hoʻomohala i nā ʻāpana ʻokoʻa no ka hoʻohālikelike ʻana i nā ʻano like ʻole, e like me ka walaʻau, echo a me nā hiʻohiʻona haʻi. .

ʻO ka haʻahaʻa o kēia ala, no ka loaʻa ʻana o ka ʻike kiʻekiʻe a me ka hoʻomaʻamaʻa ʻana i ka neural network, pono ka DeepSpeech engine i ka nui o nā ʻikepili heterogeneous i kuhikuhi ʻia i nā kūlana maoli e nā leo like ʻole a ma ke alo o ka leo kūlohelohe.
Lawe ʻia ka hōʻiliʻili ʻana o ia ʻikepili e kahi papahana i hana ʻia ma Mozilla leo maʻamau, e hāʻawi ana i kahi ʻikepili i hoʻopaʻa ʻia me 780 mau hola ʻ languagelelo Pelekania, 325 ma Kelemānia, 173 ma Palani a me 27 hola ma Lūkini.

ʻO ka pahuhopu nui o ka papahana Common Voice ʻo ia ka hōʻiliʻili ʻana i 10 mau hola o ka hoʻopaʻa ʻana o nā ʻano ʻōlelo like ʻole o nā huaʻōlelo kamaʻilio kanaka maʻamau, e loaʻa ai kahi pae kūpono o nā hewa ʻike. I kona ʻano i kēia manawa, ua ʻōlelo mua nā mea komo i ka papahana i ka huina o 4.3 tausani mau hola, kahi o 3.5 tausani i hoʻāʻo ʻia. I ka hoʻomaʻamaʻa ʻana i ke kumu hoʻohālike hope loa o ka ʻōlelo Pelekania no DeepSpeech, ua hoʻohana ʻia nā hola 3816 o ka haʻiʻōlelo, me ka Common Voice e uhi ana i ka ʻikepili mai nā papahana LibriSpeech, Fisher a me Switchboard, a me nā hola he 1700 o nā hoʻopaʻa lekiō i unuhi ʻia.

I ka hoʻohana ʻana i ke kumu hoʻohālike ʻōlelo Pelekania mākaukau i hāʻawi ʻia no ka hoʻoiho ʻana, ʻo ke kiʻekiʻe o ka ʻike hewa ma DeepSpeech ʻo 7.5% ke loiloi ʻia e ka hoʻonohonoho hoʻāʻo. LibriSpeech. No ka hoʻohālikelike ʻana, ka helu kuhi hewa i ka ʻike kanaka kuhi ʻia ma 5.83%.

Loaʻa ʻo DeepSpeech i ʻelua subsystem - kahi hoʻohālike acoustic a me kahi decoder. Hoʻohana ke kumu hoʻohālike acoustic i nā ʻano aʻo mīkini hohonu e helu ai i ka hiki ke loaʻa kekahi mau hōʻailona i ke kani hoʻokomo. Hoʻohana ka decoder i kahi algorithm hulina kukuna no ka hoʻololi ʻana i ka ʻikepili hikiwawe hōʻailona i hōʻike kikokikona.

ka papa kuhikuhiE nā mea hou DeepSpeech 0.6 (ʻAʻole kūpono ka lālā 0.6 i hope a koi i nā code a me nā hiʻohiʻona e hoʻonui ʻia):

  • Manaʻo ʻia kahi decoder streaming hou e hāʻawi i ka pane kiʻekiʻe a ʻaʻole hilinaʻi i ka nui o ka ʻikepili leo i hana ʻia. ʻO ka hopena, ua hiki i ka mana hou o DeepSpeech ke hoʻemi i ka lohi ʻike i 260 ms, ʻo ia ka 73% ʻoi aku ka wikiwiki ma mua o ka wā ma mua, a hiki iā ʻoe ke hoʻohana i DeepSpeech i nā hoʻonā ʻike ʻōlelo ma luna o ka lele.
  • Ua hoʻololi ʻia ka API a ua hana ʻia nā hana e hoʻohui i nā inoa hana. Ua hoʻohui ʻia nā hana no ka loaʻa ʻana o nā metadata hou e pili ana i ka hoʻonohonoho ʻana, ʻaʻole e ʻae wale i ka loaʻa ʻana o kahi kikokikona ma ke ʻano he mea hoʻopuka, akā no ka hahai ʻana i ka paʻa ʻana o nā huaʻōlelo a me nā huaʻōlelo i kahi kūlana i ke kahawai leo.
  • Ua hoʻohui ʻia ke kākoʻo no ka hoʻohana ʻana i ka waihona i ka pahu hana no ke aʻo ʻana i nā modules CuDNN e hoʻonui i ka hana me nā neural network recurrent (RNN), i hiki ai ke hoʻokō i kahi hoʻonui nui (ma kahi o ʻelua mau manawa) i ka hoʻomaʻamaʻa ʻana i ka hana hoʻohālike, akā koi ʻia nā hoʻololi i ke code i uhaki i ka hoʻohālikelike me nā kumu hoʻohālike i hoʻomākaukau mua ʻia.
  • Ua hoʻokiʻekiʻe ʻia nā koi liʻiliʻi no ka mana TensorFlow mai 1.13.1 a i 1.14.0. Hoʻohui i ke kākoʻo no ka māmā TensorFlow Lite paʻi, i hōʻemi i ka nui o ka pūʻolo DeepSpeech mai 98 MB a i 3.7 MB. No ka hoʻohana ʻana i nā polokalamu i hoʻopili ʻia a me nā polokalamu kelepona, ua hoʻemi ʻia ka nui o ka faila i hoʻopaʻa ʻia me ke kumu hoʻohālike mai 188 MB a i 47 MB ​​​​(ua hoʻohana ʻia ke ʻano quantization no ka hoʻopili ʻana ma hope o ke aʻo ʻana i ke kumu hoʻohālike).
  • Ua unuhi ʻia ke kumu hoʻohālike ʻōlelo i kahi ʻano ʻokoʻa o nā hale ʻikepili e hiki ai iā ʻoe ke palapala ʻāina i nā faila i ka hoʻomanaʻo i ka wā e hoʻouka ai. Ua hoʻopau ʻia ke kākoʻo no ke ʻano kahiko.
  • Ua hoʻololi ʻia ke ʻano o ka hoʻouka ʻana i kahi faila me kahi ʻano ʻōlelo, i hōʻemi i ka hoʻohana ʻana i ka hoʻomanaʻo a hoʻemi i ka lohi i ka hana ʻana i ka noi mua ma hope o ka hana ʻana i ke kumu hoʻohālike. Hoʻopau ʻo DeepSpeech i kēia manawa he 22x ka liʻiliʻi o ka hoʻomanaʻo i ka wā e holo ana a hoʻomaka i 500x wikiwiki.

    Ua wehe ʻo Mozilla i ka ʻenekini ʻike ʻōlelo ʻōlelo DeepSpeech 0.6

  • Ua kānana ʻia nā huaʻōlelo kakaʻikahi ma ke ʻano ʻōlelo. Ua hōʻemi ʻia ka huina o nā huaʻōlelo i 500 o nā huaʻōlelo kaulana loa i loaʻa i ka kikokikona i hoʻohana ʻia no ke aʻo ʻana i ke kumu hoʻohālike. ʻO ka hoʻomaʻemaʻe ʻana i hiki ke hoʻemi i ka nui o ke kumu hoʻohālike ʻōlelo mai 1800MB a i 900MB, me ka ʻaneʻane ʻaʻohe hopena i ka pae o nā hewa ʻike.
  • Hoʻohui kākoʻo no nā ʻano like ʻole ʻenehana hana i nā ʻano like ʻole (hoʻonui) o ka ʻikepili kani i hoʻohana ʻia i ka hoʻomaʻamaʻa ʻana (no ka laʻana, hoʻohui i ka hoʻonohonoho o nā koho e pili ana i ka distortion a i ʻole ka walaʻau).
  • Hoʻohui i kahi waihona me nā mea paʻa no ka hoʻohui ʻana me nā noi e pili ana i ka paepae .NET.
  • Nā palapala i hoʻolālā hou ʻia, i hōʻiliʻili ʻia i kēia manawa ma kahi pūnaewele ʻokoʻa deepspeech.readthedocs.io.

Source: opennet.ru

Pākuʻi i ka manaʻo hoʻopuka