Mozilla devwale motè rekonesans lapawòl DeepSpeech 0.6

Entwodwi lage motè rekonesans lapawòl devlope pa Mozilla DeepSpeech 0.6, ki aplike achitekti rekonesans lapawòl nan menm non yo, pwopoze chèchè soti nan Baidu. Aplikasyon an ekri nan Python lè l sèvi avèk kad aprantisaj machin TensorFlow ak distribiye pa anba lisans gratis MPL 2.0. Sipòte Linux, Android, macOS ak Windows. Pèfòmans la se ase yo sèvi ak motè a sou LePotato, Franbwaz Pi 3 ak Franbwaz Pi 4 ankadreman.

Seri a tou ofri modèl ki antrene, egzanp fichye son ak zouti pou rekonesans soti nan liy lòd la. Pou entegre fonksyon rekonesans lapawòl nan pwogram ou yo, yo ofri modil ki pare pou itilize pou Python, NodeJS, C ++ ak .NET (devlopè twazyèm pati yo te prepare modil pou Rouye и Go). Modèl la fini apwovizyone sèlman pou angle, men pou lòt lang sou demann. atache enstriksyon ou ka fòme sistèm nan tèt ou lè l sèvi avèk done vwapwojè Common Voice kolekte.

DeepSpeech se pi senp pase sistèm tradisyonèl yo epi an menm tan an bay yon pi wo kalite rekonesans nan prezans bri etranje. Devlopman an pa sèvi ak modèl tradisyonèl acoustic ak konsèp nan fonèm, olye pou yo itilize yon sistèm aprantisaj machin ki byen optimize ki baze sou yon rezo neral, ki elimine nesesite pou devlope konpozan separe pou modèl devyasyon divès kalite, tankou bri, eko ak karakteristik lapawòl. .

Dezavantaj apwòch sa a se ke yo nan lòd yo jwenn bon jan kalite rekonesans ak fòmasyon nan rezo neral la, motè a DeepSpeech mande pou yon gwo kantite done etewojèn dikte nan kondisyon reyèl pa vwa diferan ak nan prezans bri natirèl.
Koleksyon done sa yo fèt pa yon pwojè ki te kreye nan Mozilla vwa komen, bay yon seri done valide ak 780 èdtan sou Angle, 325 an Alman, 173 an franse ak 27 èdtan an Ris.

Objektif final pwojè Common Voice la se akimile 10 èdtan anrejistreman divès pwononsyasyon fraz lapawòl moun tipik, ki pral reyalize yon nivo akseptab erè rekonesans. Nan fòm li ye kounye a, patisipan yo pwojè yo te deja dikte yon total de 4.3 mil èdtan, nan ki 3.5 mil yo te teste. Lè yo fòme modèl final lang angle a pou DeepSpeech, yo te itilize 3816 èdtan lapawòl, anplis de done ki kouvri Voix komen ki soti nan pwojè LibriSpeech, Fisher ak Switchboard, epi tou ki gen ladan apeprè 1700 èdtan nan anrejistreman emisyon radyo transkri.

Lè w ap itilize modèl lang angle ki pare yo ofri pou telechaje, nivo erè rekonesans nan DeepSpeech se 7.5% lè tès la evalye. LibriSpeech. Pou konparezon, pousantaj erè nan rekonesans imen estime nan 5.83%.

DeepSpeech konsiste de de sistèm - yon modèl acoustic ak yon dekodeur. Modèl acoustic la sèvi ak metòd aprantisaj machin gwo twou san fon pou kalkile pwobabilite pou sèten senbòl yo prezan nan son an antre. Dekodè a sèvi ak yon algorithm rechèch gwo bout bwa pou konvèti done pwobabilite senbòl yo nan yon reprezantasyon tèks.

Prensipal la inovasyon DeepSpeech 0.6 (branch 0.6 pa konpatib bak epi li mande pou mete ajou kòd ak modèl):

  • Yo pwopoze yon nouvo dekodeur difizyon ki bay pi gwo repons epi ki pa depann de gwosè done odyo yo trete. Kòm yon rezilta, nouvo vèsyon DeepSpeech te kapab redwi reta rekonesans a 260 ms, ki se 73% pi vit pase anvan, epi li pèmèt ou sèvi ak DeepSpeech nan solisyon rekonesans lapawòl sou vole.
  • Chanjman yo te fè nan API a ak travay yo te fè pou inifye non fonksyon yo. Fonksyon yo te ajoute pou jwenn metadata adisyonèl sou senkronizasyon, ki pèmèt non sèlman resevwa yon reprezantasyon tèks kòm yon pwodiksyon, men tou, swiv obligatwa nan karaktè endividyèl ak fraz nan yon pozisyon nan kouran odyo a.
  • Yo ajoute sipò pou itilize bibliyotèk la nan bwat zouti pou modil aprantisaj la CuDNN pou optimize travay ak rezo neral frekan (RNN), ki te fè li posib reyalize yon ogmantasyon siyifikatif (apeprè de fwa) nan pèfòmans fòmasyon modèl, men yo mande chanjman nan kòd la ki vyole konpatibilite ak modèl deja prepare.
  • Kondisyon minimòm pou vèsyon TensorFlow yo te ogmante soti nan 1.13.1 a 1.14.0. Te ajoute sipò pou edisyon ki lejè TensorFlow Lite, ki te redwi gwosè pake DeepSpeech soti nan 98 MB a 3.7 MB. Pou itilize sou aparèy entegre ak mobil, gwosè a nan dosye a chaje ak modèl la te redwi tou soti nan 188 MB a 47 MB ​​(metòd la quantization te itilize pou konpresyon apre modèl la te fòme).
  • Modèl lang yo te tradui nan yon fòma diferan nan estrikti done ki pèmèt ou kat fichye nan memwa lè w ap chaje. Sipò pou ansyen fòma a te sispann.
  • Mòd pou chaje yon fichye ak yon modèl lang te chanje, sa ki te redwi konsomasyon memwa ak reta redwi nan pwosesis premye demann apre modèl la te kreye. DeepSpeech kounye a konsome 22 fwa mwens memwa pandan y ap kouri epi li kòmanse 500 fwa pi vit.

    Mozilla devwale motè rekonesans lapawòl DeepSpeech 0.6

  • Mo ra yo te filtre nan modèl lang lan. Kantite total mo yo te redwi a 500 mo ki pi popilè yo te jwenn nan tèks yo te itilize pou fòme modèl la. Netwayaj la te fè li posib diminye gwosè a nan modèl lang soti nan 1800MB a 900MB, ak prèske pa gen okenn efè sou nivo nan erè rekonesans.
  • Te ajoute sipò pou divès kalite teknisyen kreye varyasyon adisyonèl (ogmantasyon) nan done son yo itilize nan fòmasyon (pa egzanp, ajoute nan seri opsyon ki gen ladan distòsyon oswa bri).
  • Te ajoute yon bibliyotèk ki gen koneksyon pou entegrasyon ak aplikasyon ki baze sou platfòm .NET.
  • Dokimantasyon reamenaje, ki kounye a kolekte sou yon sit separe deepspeech.readthedocs.io.

Sous: opennet.ru

Add nouvo kòmantè