Mae Mozilla yn dadorchuddio peiriant adnabod llais DeepSpeech 0.6

A gyflwynwyd gan rhyddhau peiriant adnabod llais a ddatblygwyd gan Mozilla Araith Ddwfn 0.6, sy'n gweithredu'r bensaernïaeth adnabod lleferydd o'r un enw, arfaethedig gan ymchwilwyr o Baidu. Mae'r gweithrediad wedi'i ysgrifennu yn Python gan ddefnyddio platfform dysgu peiriant TensorFlow a dosbarthu gan o dan y drwydded MPL 2.0 am ddim. Yn cefnogi gwaith ar Linux, Android, macOS a Windows. Mae'r perfformiad yn ddigon i ddefnyddio'r injan ar fyrddau LePotato, Raspberry Pi 3 a Raspberry Pi 4.

Wedi'i gynnwys yn y set hefyd a gynigir modelau hyfforddedig, enghreifftiau ffeiliau sain ac offer adnabod o'r llinell orchymyn. I integreiddio'r swyddogaeth adnabod lleferydd i'ch rhaglenni, cynigir modiwlau parod i'w defnyddio ar gyfer Python, NodeJS, C++ a .NET (mae datblygwyr trydydd parti wedi paratoi modiwlau ar wahân ar gyfer Rust и Go). Mae'r model gorffenedig yn cael ei gyflenwi ar gyfer Saesneg yn unig, ond ar gyfer ieithoedd eraill gan ynghlwm cyfarwyddiadau gallwch chi hyfforddi'r system eich hun gan ddefnyddio data llais, a gasglwyd gan brosiect Common Voice.

Mae DeepSpeech yn llawer symlach na systemau traddodiadol ac ar yr un pryd yn darparu cydnabyddiaeth o ansawdd uwch ym mhresenoldeb sŵn allanol. Mae'n osgoi modelau acwstig traddodiadol a'r cysyniad o ffonemau, yn lle hynny gan ddefnyddio system dysgu peirianyddol rhwydwaith niwral wedi'i optimeiddio'n fawr sy'n dileu'r angen i ddatblygu cydrannau ar wahân i fodelu anghysondebau amrywiol megis sŵn, adlais a nodweddion lleferydd.

Anfantais y dull hwn yw, er mwyn cael cydnabyddiaeth a hyfforddiant o ansawdd uchel i rwydwaith niwral, mae angen llawer iawn o ddata heterogenaidd ar injan DeepSpeech, a bennir mewn amodau real gan wahanol leisiau ac ym mhresenoldeb sŵn naturiol.
Mae prosiect a grëwyd yn Mozilla yn casglu data o'r fath. Llais Cyffredin, gan ddarparu set ddata wedi'i dilysu gyda 780 awr o Saesneg, 325 yn Almaeneg, 173 yn Ffrangeg a 27 awr yn Rwsieg.

Nod y prosiect Common Voice yn y pen draw yw cronni 10 mil o oriau o recordiadau o wahanol ynganiadau o ymadroddion nodweddiadol o lefaru dynol, a fydd yn caniatáu cyflawni lefel dderbyniol o wallau mewn cydnabyddiaeth. Yn ei ffurf bresennol, mae cyfranogwyr y prosiect eisoes wedi pennu cyfanswm o 4.3 mil o oriau, y mae 3.5 mil ohonynt wedi'u profi. Wrth hyfforddi’r model iaith Saesneg terfynol ar gyfer DeepSpeech, defnyddiwyd 3816 awr o lefaru, yn ogystal â Common Voice yn cwmpasu data o brosiectau LibriSpeech, Fisher a Switchboard, a hefyd yn cynnwys tua 1700 awr o drawsgrifiadau o recordiadau o sioeau radio.

Wrth ddefnyddio'r model iaith Saesneg parod a gynigir i'w lawrlwytho, y gyfradd gwallau cydnabod yn DeepSpeech yw 7.5% pan asesir gyda set prawf LibriAraith. Er mwyn cymharu, y gyfradd gwallau ar gyfer cydnabyddiaeth ddynol amcangyfrifedig ar 5.83%.

Mae DeepSpeech yn cynnwys dwy is-system - model acwstig a datgodiwr. Mae'r model acwstig yn defnyddio dulliau dysgu peirianyddol dwfn i gyfrifo'r tebygolrwydd y bydd rhai cymeriadau yn bresennol yn y sain mewnbwn. Mae'r datgodiwr yn defnyddio algorithm chwilio pelydr i drosi data tebygolrwydd nod yn gynrychioliad testun.

Y prif arloesiadau DeepSpeech 0.6 (Nid yw cangen 0.6 yn gydnaws â datganiadau blaenorol ac mae angen diweddariadau cod a model):

  • Cynigir datgodiwr ffrydio newydd sy'n darparu ymatebolrwydd uwch ac sy'n annibynnol ar faint y data sain wedi'i brosesu. O ganlyniad, llwyddodd y fersiwn newydd o DeepSpeech i leihau'r hwyrni ar gyfer cydnabyddiaeth i 260 ms, sydd 73% yn gyflymach nag o'r blaen, ac mae'n caniatáu i DeepSpeech gael ei ddefnyddio mewn datrysiadau adnabod lleferydd ar y hedfan.
  • Mae newidiadau wedi'u gwneud i'r API ac mae gwaith wedi'i wneud i uno enwau swyddogaethau. Mae swyddogaethau wedi'u hychwanegu i gael metadata ychwanegol am gydamseru, sy'n eich galluogi nid yn unig i dderbyn cynrychiolaeth testun fel allbwn, ond hefyd i olrhain rhwymiad cymeriadau a brawddegau unigol i safle yn y ffrwd sain.
  • Mae cymorth ar gyfer defnyddio'r llyfrgell wedi'i ychwanegu at y pecyn cymorth ar gyfer modiwlau hyfforddi CuDNN i wneud y gorau o waith gyda rhwydweithiau niwral cylchol (RNN), a oedd yn ei gwneud hi'n bosibl cyflawni cynnydd sylweddol (tua deublyg) ym mherfformiad hyfforddiant model, ond a oedd yn gofyn am newidiadau i'r cod a oedd yn groes i gydnawsedd â modelau a baratowyd yn flaenorol.
  • Mae isafswm gofynion fersiwn TensorFlow wedi'u codi o 1.13.1 i 1.14.0. Cefnogaeth ychwanegol i rifyn ysgafn TensorFlow Lite, sy'n lleihau maint y pecyn DeepSpeech o 98 MB i 3.7 MB. I'w ddefnyddio ar ddyfeisiau mewnosodedig a symudol, mae maint y ffeil sydd wedi'i phacio gyda'r model hefyd wedi'i leihau o 188 MB i 47 MB ​​(defnyddir y dull meintioli ar gyfer cywasgu ar ôl i'r model gael ei hyfforddi).
  • Mae'r model iaith wedi'i gyfieithu i fformat strwythur data gwahanol sy'n caniatáu i ffeiliau gael eu mapio i'r cof wrth eu llwytho. Mae cefnogaeth i'r hen fformat wedi dod i ben.
  • Mae'r dull o lwytho ffeil gyda model iaith wedi'i newid, sydd wedi lleihau'r defnydd o gof a lleihau oedi wrth brosesu'r cais cyntaf ar ôl creu'r model. Yn ystod y llawdriniaeth, mae DeepSpeech bellach yn defnyddio 22 gwaith yn llai o gof ac yn cychwyn 500 gwaith yn gyflymach.

    Mae Mozilla yn dadorchuddio peiriant adnabod llais DeepSpeech 0.6

  • Hidlwyd geiriau prin yn y model iaith. Gostyngwyd cyfanswm y geiriau i 500 mil o'r geiriau mwyaf poblogaidd a geir yn y testun a ddefnyddiwyd i hyfforddi'r model. Roedd y glanhau yn ei gwneud hi'n bosibl lleihau maint y model iaith o 1800MB i 900MB, heb fawr ddim effaith ar y gyfradd gwallau adnabyddiaeth.
  • Cefnogaeth ychwanegol ar gyfer amrywiol technegydd creu amrywiadau ychwanegol (ychwanegiad) o'r data sain a ddefnyddir mewn hyfforddiant (er enghraifft, ychwanegu ystumiad neu sŵn at set o opsiynau).
  • Ychwanegwyd llyfrgell gyda rhwymiadau i'w hintegreiddio â chymwysiadau yn seiliedig ar y platfform .NET.
  • Mae'r ddogfennaeth wedi'i hailweithio a bellach yn cael ei chasglu ar wefan ar wahân. deepspeech.readthedocs.io.

Ffynhonnell: opennet.ru

Ychwanegu sylw