Mozilla unveils DeepSpeech 0.6 hais lus paub lub cav

Xa los ntawm tso tawm cov lus paub lub cav tsim los ntawm Mozilla DeepSpeech 0.6, uas siv cov kev paub txog kev hais lus ntawm tib lub npe, npaj los ntawm cov kws tshawb fawb los ntawm Baidu. Qhov kev siv yog sau rau hauv Python siv TensorFlow tshuab kev kawm platform thiab faib los ntawm raws li MPL 2.0 daim ntawv tso cai pub dawb. Txhawb kev ua haujlwm ntawm Linux, Android, macOS thiab Windows. Qhov kev ua tau zoo txaus los siv lub cav ntawm LePotato, Raspberry Pi 3 thiab Raspberry Pi 4 boards.

Kuj muaj nyob rau hauv lub teeb muaj cov qauv kev cob qhia, piv txwv suab ntaub ntawv thiab cov cuab yeej paub los ntawm kab hais kom ua. Txhawm rau ua ke cov kev paub txog kev hais lus rau hauv koj cov kev pab cuam, npaj-rau-siv modules rau Python, NodeJS, C ++ thiab .NET muaj (cov neeg tsim tawm thib peb tau npaj cov qauv sib cais rau xeb ΠΈ Go). Cov qauv tiav yog muab rau lus Askiv nkaus xwb, tab sis rau lwm yam lus los ntawm txuas cov lus qhia koj tuaj yeem cob qhia qhov system koj tus kheej siv cov ntaub ntawv suab, sau los ntawm Common Voice project.

DeepSpeech yog qhov yooj yim dua li cov kab ke ib txwm muaj thiab tib lub sijhawm muab kev lees paub zoo dua nyob rau hauv muaj lub suab nrov nrov. Nws hla cov qauv acoustic ib txwm muaj thiab lub tswv yim ntawm phonemes, es tsis txhob siv lub tshuab ua kom zoo tshaj plaws neural network-based machine learning system uas tshem tawm qhov xav tau los tsim cov khoom sib cais los ua qauv ntau yam tsis xws luag xws li suab nrov, ncha, thiab hais lus.

Lub downside ntawm no mus kom ze yog hais tias thiaj li yuav tau txais high-zoo kev lees paub thiab kev cob qhia ntawm ib tug neural network, lub DeepSpeech engine yuav tsum tau ib tug loj npaum li cas ntawm cov ntaub ntawv heterogeneous, dictated nyob rau hauv tiag tiag tej yam kev mob los ntawm txawv suab thiab nyob rau hauv lub xub ntiag ntawm ntuj nrov.
Ib qhov project tsim hauv Mozilla sau cov ntaub ntawv no. lub suab, muab cov ntaub ntawv pov thawj tseeb nrog 780 teev ntawm Lus Askiv, 325 hauv German, 173 hauv Fab Kis thiab 27 teev hauv Lavxias.

Lub hom phiaj kawg ntawm Txoj Haujlwm Lub Suab Sib Tham yog txhawm rau sau 10 txhiab teev ntawm kev kaw lus ntawm ntau lub suab ntawm cov kab lus ntawm tib neeg hais lus, uas yuav ua rau kom ua tiav qib kev lees paub ntawm qhov tsis raug. Hauv nws daim ntawv tam sim no, cov neeg koom tes ua haujlwm tau hais tag nrho 4.3 txhiab teev, ntawm 3.5 txhiab tus tau sim. Thaum cob qhia cov qauv lus Askiv zaum kawg rau DeepSpeech, 3816 teev ntawm kev hais lus tau raug siv, ntxiv rau Cov Lus Tshaj Lij npog cov ntaub ntawv los ntawm LibriSpeech, Fisher thiab Switchboard cov haujlwm, thiab tseem suav nrog txog 1700 teev ntawm kev tshaj tawm xov tooj cua tshaj tawm.

Thaum siv cov qauv lus Askiv npaj tau muab rau rub tawm, qhov kev lees paub qhov ua yuam kev hauv DeepSpeech yog 7.5% thaum ntsuas nrog qhov ntsuas ntsuas. LibriSpeech. Rau kev sib piv, tus nqi yuam kev rau tib neeg kev lees paub kwv yees ntawm 5.83%.

DeepSpeech muaj ob lub subsystems - tus qauv acoustic thiab tus decoder. Tus qauv acoustic siv cov txheej txheem kev kawm sib sib zog nqus los ntsuas qhov muaj feem ntawm qee cov cim muaj nyob hauv lub suab nkag. Tus decoder siv cov duab hluav taws xob tshawb nrhiav algorithm los hloov cov ntaub ntawv muaj peev xwm ua cim rau hauv cov ntawv sawv cev.

ntsiab kev tsim kho tshiab DeepSpeech 0.6 (0.6 ceg tsis sib haum nrog kev tshaj tawm yav dhau los thiab xav tau cov cai thiab cov qauv hloov tshiab):

  • Ib qho tshiab streaming decoder yog npaj siab uas muab kev teb ntau dua thiab yog ywj siab ntawm qhov loj ntawm cov ntaub ntawv ua tiav. Raws li qhov tshwm sim, qhov tshiab ntawm DeepSpeech tswj kom txo qis latency rau kev lees paub rau 260 ms, uas yog 73% sai dua ua ntej, thiab tso cai rau DeepSpeech siv rau hauv kev paub txog kev hais lus ntawm ya.
  • Kev hloov pauv tau ua rau API thiab ua haujlwm tau ua kom sib koom ua ke cov npe ua haujlwm. Cov haujlwm tau muab ntxiv kom tau txais cov ntaub ntawv metadata ntxiv txog synchronization, tso cai rau koj tsis tsuas yog tau txais cov ntawv sawv cev raws li cov khoom tso tawm, tab sis kuj tseem txhawm rau taug qab kev khi ntawm tus kheej cov cim thiab kab lus rau txoj haujlwm hauv lub suab.
  • Kev them nyiaj yug rau kev siv lub tsev qiv ntawv tau ntxiv rau cov cuab yeej rau kev cob qhia modules CuDNN txhawm rau txhim kho kev ua haujlwm nrog cov kev sib txuas tsis tu ncua (RNN), uas ua rau nws muaj peev xwm ua tiav qhov tseem ceeb (kwv yees li ob npaug) nce hauv cov qauv kev cob qhia, tab sis yuav tsum tau hloov pauv rau cov cai uas ua txhaum kev sib raug zoo nrog cov qauv npaj yav dhau los.
  • Qhov tsawg kawg nkaus TensorFlow version yuav tsum tau tsa los ntawm 1.13.1 txog 1.14.0. Ntxiv kev txhawb nqa rau lub teeb hnyav ntawm TensorFlow Lite, uas txo qhov loj ntawm DeepSpeech pob los ntawm 98 MB rau 3.7 MB. Rau kev siv ntawm embedded thiab mobile pab kiag li lawm, qhov luaj li cas ntawm cov ntaub ntawv packed nrog cov qauv kuj raug txo los ntawm 188 MB mus rau 47 MB ​​​​(txoj kev quantization yog siv rau compression tom qab tus qauv raug cob qhia).
  • Cov qauv lus tau raug muab txhais ua ib hom ntaub ntawv sib txawv uas tso cai rau cov ntaub ntawv yuav tsum tau kos npe rau hauv lub cim xeeb thaum thauj khoom. Kev them nyiaj yug rau hom qub tau raug txiav lawm.
  • Hom kev thauj khoom nrog cov qauv lus tau hloov pauv, uas tau txo qis kev siv lub cim xeeb thiab txo qis qeeb thaum ua thawj qhov kev thov tom qab tsim cov qauv. Thaum lub sijhawm ua haujlwm, DeepSpeech tam sim no siv 22 zaug tsawg lub cim xeeb thiab pib 500 zaug sai dua.

    Mozilla unveils DeepSpeech 0.6 hais lus paub lub cav

  • Cov lus tsis tshua muaj raug lim hauv cov qauv lus. Tag nrho cov lus raug txo mus rau 500 txhiab ntawm cov lus nrov tshaj plaws pom nyob rau hauv cov ntawv nyeem siv los qhia tus qauv. Kev ntxuav ua kom nws tuaj yeem txo qhov loj ntawm cov qauv lus los ntawm 1800MB rau 900MB, uas tsis muaj txiaj ntsig zoo rau kev lees paub qhov yuam kev.
  • Ntxiv kev txhawb nqa rau ntau yam tus kws tshaj lij tsim cov kev hloov pauv ntxiv (kev nce ntxiv) ntawm cov ntaub ntawv suab siv hauv kev cob qhia (piv txwv li, ntxiv distortion lossis suab nrov rau cov kev xaiv).
  • Ntxiv ib lub tsev qiv ntawv nrog kev khi rau kev koom ua ke nrog cov ntawv thov raws li .NET platform.
  • Cov ntaub ntawv tau rov ua haujlwm dua thiab tam sim no tau sau rau ntawm lub vev xaib sib cais. deepspeech.readthedocs.io.

Tau qhov twg los: opennet.ru

Ntxiv ib saib