„Mozilla“ pristato „DeepSpeech 0.6“ kalbos atpažinimo variklį

Įvesta „Mozilla“ sukurto kalbos atpažinimo variklio išleidimas DeepSpeech 0.6, kuri įgyvendina to paties pavadinimo kalbos atpažinimo architektūrą, pasiūlė tyrėjai iš Baidu. Diegimas parašytas Python naudojant TensorFlow mašininio mokymosi sistemą ir išplatino pagal nemokamą licenciją MPL 2.0. Palaiko Linux, Android, MacOS ir Windows. Našumo pakanka, kad variklis būtų naudojamas ant LePotato, Raspberry Pi 3 ir Raspberry Pi 4 plokščių.

Rinkinys taip pat pasiūlytas apmokyti modeliai, pavyzdžiai garso failus ir atpažinimo iš komandinės eilutės įrankius. Norėdami įterpti kalbos atpažinimo funkciją į savo programas, siūlomi naudoti paruošti Python, NodeJS, C ++ ir .NET moduliai (trečiųjų šalių kūrėjai parengė modulius, skirtus Rūdys и Go). Pagamintas modelis tiekiamas tik anglų kalba, bet pagal užsakymą ir kitomis kalbomis. pridedamas instrukcijos Jūs galite išmokyti sistemą patys balso duomenissurinko projektas „Bendras balsas“.

DeepSpeech yra daug paprastesnė nei tradicinės sistemos ir tuo pačiu užtikrina aukštesnę atpažinimo kokybę esant pašaliniams triukšmams. Kuriant nenaudojami tradiciniai akustiniai modeliai ir fonemų samprata, o naudojama gerai optimizuota mašininio mokymosi sistema, pagrįsta neuroniniu tinklu, todėl nebereikia kurti atskirų komponentų įvairiems nukrypimams modeliuoti, pavyzdžiui, triukšmo, aido ir kalbos ypatybėms. .

Šio metodo trūkumas yra tas, kad norint gauti kokybišką neuroninio tinklo atpažinimą ir mokymą, „DeepSpeech“ varikliui reikia daug nevienalyčių duomenų, kuriuos realiomis sąlygomis diktuoja skirtingi balsai ir esant natūraliam triukšmui.
Tokių duomenų rinkimą atlieka „Mozilla“ sukurtas projektas bendras balsas, pateikiant patvirtintą duomenų rinkinį su 780 valandų anglų kalba, 325 vokiečių kalba, 173 prancūzų kalba ir 27 valandos rusų kalba.

Galutinis projekto „Bendras balsas“ tikslas – sukaupti 10 4.3 valandų įvairaus tarimo tipiškų žmogaus kalbos frazių įrašų, kurie leis pasiekti priimtiną atpažinimo klaidų lygį. Dabartine forma projekto dalyviai iš viso jau padiktavo 3.5 tūkstančio valandų, iš kurių 3816 tūkst. Mokant galutinį anglų kalbos modelį DeepSpeech, buvo panaudota 1700 kalbos valandų, be bendro balso, apimančio LibriSpeech, Fisher ir Switchboard projektų duomenis, taip pat apie XNUMX valandų transkribuotų radijo laidų įrašų.

Naudojant paruoštą anglų kalbos modelį, siūlomą atsisiųsti, DeepSpeech atpažinimo klaidų lygis yra 7.5%, įvertinus testo rinkiniu LibriSpeech. Palyginimui – žmogaus atpažinimo klaidų lygis apskaičiuota esant 5.83 proc.

DeepSpeech susideda iš dviejų posistemių – akustinio modelio ir dekoderio. Akustinis modelis naudoja gilaus mašininio mokymosi metodus, kad apskaičiuotų tikimybę, kad įvesties garse bus tam tikri simboliai. Dekoderis naudoja pluošto paieškos algoritmą, kad simbolių tikimybės duomenis konvertuotų į tekstinį vaizdą.

pagrindinis naujoves DeepSpeech 0.6 (0.6 filialas nesuderinamas atgal, todėl reikia atnaujinti kodą ir modelius):

  • Siūlomas naujas srautinio perdavimo dekoderis, kuris užtikrina didesnį reagavimą ir nepriklauso nuo apdorojamų garso duomenų dydžio. Dėl to naujoji „DeepSpeech“ versija sugebėjo sumažinti atpažinimo delsą iki 260 ms, o tai yra 73% greičiau nei anksčiau, ir leidžia naudoti „DeepSpeech“ kalbos atpažinimo sprendimuose skrydžio metu.
  • Buvo atlikti API pakeitimai ir suvienodinti funkcijų pavadinimus. Pridėtos funkcijos, leidžiančios gauti papildomus metaduomenis apie sinchronizavimą, leidžiančius ne tik gauti teksto atvaizdą kaip išvestį, bet ir sekti atskirų simbolių ir sakinių susiejimą su garso srauto vieta.
  • Naudojimosi biblioteka palaikymas buvo įtrauktas į mokymosi modulių įrankių rinkinį CuDNN optimizuoti darbą su pasikartojančiais neuroniniais tinklais (RNN), kas leido pasiekti reikšmingą (apie du kartus) modelio mokymo efektyvumo padidėjimą, tačiau reikėjo pakeisti kodą, kuris pažeidė suderinamumą su anksčiau parengtais modeliais.
  • Minimalūs TensorFlow versijos reikalavimai buvo padidinti nuo 1.13.1 iki 1.14.0. Pridėtas „TensorFlow Lite“ lengvojo leidimo palaikymas, kuris sumažino „DeepSpeech“ paketo dydį nuo 98 MB iki 3.7 MB. Norint naudoti įterptiniuose ir mobiliuosiuose įrenginiuose, supakuoto failo su modeliu dydis taip pat buvo sumažintas nuo 188 MB iki 47 MB ​​(apmokius modelį buvo naudojamas suspaudimui kvantavimo metodas).
  • Kalbos modelis buvo išverstas į kitokį duomenų struktūrų formatą, kuris leidžia susieti failus į atmintį įkeliant. Senojo formato palaikymas buvo nutrauktas.
  • Pakeistas failo įkėlimo su kalbos modeliu režimas, dėl kurio sumažėjo atminties sąnaudos ir sumažėjo pirmosios užklausos apdorojimo vėlavimai po modelio sukūrimo. Dabar „DeepSpeech“ veikia 22 kartus mažiau atminties ir paleidžiama 500 kartų greičiau.

    „Mozilla“ pristato „DeepSpeech 0.6“ kalbos atpažinimo variklį

  • Reti žodžiai buvo filtruojami kalbos modelyje. Bendras žodžių skaičius sumažintas iki 500 1800 populiariausių žodžių, rastų tekste, naudojamame modeliui išmokyti. Valymas leido sumažinti kalbos modelio dydį nuo 900 MB iki XNUMX MB, beveik nedarant įtakos atpažinimo klaidų lygiui.
  • Pridėtas palaikymas įvairiems technikas papildomų treniruočių metu naudojamų garso duomenų variacijų (papildymo) kūrimas (pavyzdžiui, parinkčių, apimančių iškraipymą ar triukšmą, rinkinio papildymas).
  • Pridėta biblioteka su įrišimais, skirta integracijai su programomis, pagrįstomis .NET platforma.
  • Pertvarkyta dokumentacija, kuri dabar renkama atskiroje svetainėje deepspeech.readthedocs.io.

Šaltinis: opennet.ru

Добавить комментарий