Mozilla tutvustas DeepSpeech 0.6 kõnetuvastusmootorit

Tutvustatakse Mozilla välja töötatud kõnetuvastusmootori väljalase DeepSpeech 0.6, mis rakendab samanimelist kõnetuvastusarhitektuuri, pakutud Baidu teadlaste poolt. Rakendus on kirjutatud Pythonis, kasutades TensorFlow masinõppeplatvormi ja jaotatud tasuta MPL 2.0 litsentsi alusel. Toetab tööd Linuxis, Androidis, macOS-is ja Windowsis. Jõudlus on piisav mootori kasutamiseks LePotato, Raspberry Pi 3 ja Raspberry Pi 4 plaatidel.

Komplektis ka pakutud koolitatud modellid, näiteid helifaile ja tuvastustööriistu käsurealt. Kõnetuvastusfunktsiooni integreerimiseks oma programmidesse pakutakse Pythoni, NodeJS-i, C++ ja .NET-i jaoks kasutusvalmis mooduleid (kolmandate osapoolte arendajatel on selleks eraldi ette valmistatud moodulid Rust и Go). Valmis mudel tarnitakse ainult inglise keeles, kuid muudes keeltes on saadaval lisatud juhiseid saate süsteemi ise treenida kõneandmed, mille on kogunud Common Voice projekt.

DeepSpeech on palju lihtsam kui traditsioonilised süsteemid ja pakub samal ajal kvaliteetsemat äratundmist kõrvalise müra korral. See läheb mööda traditsioonilistest akustilistest mudelitest ja foneemide kontseptsioonist, kasutades selle asemel kõrgelt optimeeritud närvivõrgupõhist masinõppesüsteemi, mis välistab vajaduse töötada välja eraldi komponente erinevate anomaaliate, nagu müra, kaja ja kõne funktsioonide modelleerimiseks.

Selle lähenemisviisi negatiivne külg on see, et närvivõrgu kvaliteetse tuvastamise ja väljaõppe saamiseks vajab DeepSpeech mootor suurt hulka heterogeenseid andmeid, mida dikteerivad reaalsetes tingimustes erinevad hääled ja loomuliku müra olemasolu.
Mozillas loodud projekt kogub selliseid andmeid. Ühine hääl, pakkudes kontrollitud andmekogu 780 tunniga Inglise keel, 325 saksa keeles, 173 prantsuse keeles ja 27 tundi vene keeles.

Projekti Common Voice lõppeesmärk on koguda 10 tuhat tundi inimkõne tüüpiliste fraaside erinevate häälduste salvestusi, mis võimaldab saavutada äratundmisel vastuvõetava veataseme. Praegusel kujul on projektis osalejad dikteerinud kokku juba 4.3 tuhat tundi, millest 3.5 tuhat on testitud. DeepSpeechi lõpliku ingliskeelse mudeli väljaõppel kasutati 3816 tundi kõnet, lisaks Common Voice, mis hõlmas LibriSpeechi, Fisheri ja Switchboardi projektide andmeid ning sisaldas ka umbes 1700 tundi transkribeeritud raadiosaadete salvestusi.

Allalaadimiseks pakutava valmis ingliskeelse mudeli kasutamisel on DeepSpeechi tuvastamise veamäär testkomplektiga hinnates 7.5%. LibriSpeech. Võrdluseks inimese äratundmise veamäär hinnatakse 5.83%.

DeepSpeech koosneb kahest alamsüsteemist – akustilisest mudelist ja dekoodrist. Akustiline mudel kasutab sügavaid masinõppe meetodeid, et arvutada teatud märkide esinemise tõenäosus sisendhelis. Dekooder kasutab kiirotsingu algoritmi, et teisendada tähemärgi tõenäosuse andmed tekstiesitluseks.

Kõik uuendused DeepSpeech 0.6 (0.6 haru ei ühildu eelmiste väljalasetega ja nõuab koodi ja mudeli värskendusi):

  • Pakutakse välja uus voogesituse dekooder, mis tagab suurema reageerimisvõime ja ei sõltu töödeldud heliandmete suurusest. Tänu sellele õnnestus DeepSpeechi uuel versioonil vähendada tuvastamise latentsusaega 260 ms-ni, mis on 73% kiirem kui varem ning võimaldab DeepSpeechi kõnetuvastuslahendustes käigu pealt kasutada.
  • API-s on tehtud muudatusi ja tööd on tehtud funktsioonide nimede ühtlustamiseks. Lisatud on funktsioone sünkroonimise kohta täiendavate metaandmete hankimiseks, mis võimaldab teil mitte ainult saada väljundina teksti esitust, vaid ka jälgida üksikute märkide ja lausete sidumist helivoo positsiooniga.
  • Koolitusmoodulite tööriistakomplekti on lisatud raamatukogu kasutamise tugi CuDNN optimeerida tööd korduvate närvivõrkudega (RNN), mis võimaldas saavutada mudeli koolituse jõudluse märkimisväärse (ligikaudu kahekordse) tõusu, kuid nõudis koodi muutmist, mis rikkus ühilduvust varem koostatud mudelitega.
  • TensorFlow versiooni miinimumnõuded on tõstetud 1.13.1-lt 1.14.0-le. Lisatud on TensorFlow Lite'i kerge väljaande tugi, mis vähendab DeepSpeechi paketi suurust 98 MB-lt 3.7 MB-le. Manustatud ja mobiilseadmetes kasutamiseks on mudeliga pakitud faili suurust vähendatud 188 MB-lt 47 MB-le (kvantimismeetodit kasutatakse tihendamiseks pärast mudeli väljaõpetamist).
  • Keelemudel on tõlgitud erinevasse andmestruktuurivormingusse, mis võimaldab laadimisel faile mällu vastendada. Vana vormingu tugi on lõpetatud.
  • Muudetud on keelemudeliga faili laadimise režiimi, mis on vähendanud mälukulu ja viivitusi esimese päringu töötlemisel pärast mudeli loomist. Töötamise ajal tarbib DeepSpeech nüüd 22 korda vähem mälu ja käivitub 500 korda kiiremini.

    Mozilla tutvustas DeepSpeech 0.6 kõnetuvastusmootorit

  • Keelemudelis filtreeriti haruldased sõnad. Sõnade koguarvu vähendati 500 tuhandeni kõige populaarsematest sõnadest, mida mudeli koolitamiseks kasutatud tekstis leidus. Puhastamine võimaldas vähendada keelemudeli suurust 1800 MB-lt 900 MB-le, ilma et see mõjutaks praktiliselt tuvastamise veamäära.
  • Lisatud tugi erinevatele tehnik treeningul kasutatavate heliandmete täiendavate variatsioonide (täiendamiste) loomine (näiteks moonutuste või müra lisamine valikute komplekti).
  • Lisatud sidumistega teek .NET-platvormil põhinevate rakendustega integreerimiseks.
  • Dokumentatsioon on ümber töötatud ja on nüüd kogutud eraldi veebisaidile. deepspeech.readthedocs.io.

Allikas: opennet.ru

Lisa kommentaar