Mozilla ûntbleatet DeepSpeech 0.6 spraakherkenningsmotor

Yntrodusearre frijlitting fan 'e spraakherkenningsmotor ûntwikkele troch Mozilla DeepSpeech 0.6, dy't de spraakherkenningsarsjitektuer mei deselde namme ymplemintearret, foarsteld ûndersikers út Baidu. De ymplemintaasje is skreaun yn Python mei it TensorFlow-masine-learenkader en ferspraat troch ûnder de frije lisinsje MPL 2.0. Unterstützt Linux, Android, macOS en Windows. De prestaasje is genôch om de motor te brûken op LePotato, Raspberry Pi 3 en Raspberry Pi 4 boards.

De set ek oanbean trained modellen, foarbylden lûdbestannen en ark foar erkenning fan 'e kommandorigel. Om de spraakherkenningsfunksje yn jo programma's yn te nimmen, wurde klear te brûken modules foar Python, NodeJS, C ++ en .NET oanbean (ûntwikkelders fan tredden hawwe modules taret foar Rust и Go). It ôfmakke model wurdt allinich foar Ingelsk levere, mar foar oare talen op oanfraach. taheakke ynstruksjes kinne jo traine it systeem sels mei help stim gegevenssammele troch it Common Voice-projekt.

DeepSpeech is folle ienfâldiger as tradisjonele systemen en soarget tagelyk in hegere kwaliteit fan erkenning yn 'e oanwêzigens fan bûtenlânske lûden. De ûntwikkeling brûkt gjin tradisjonele akoestyske modellen en it konsept fan fonemen, ynstee fan in goed optimalisearre masine-learsysteem basearre op in neuraal netwurk, wat de needsaak elimineert om aparte komponinten te ûntwikkeljen foar it modellearjen fan ferskate ôfwikingen, lykas lûd, echo en spraakfunksjes .

It neidiel fan dizze oanpak is dat om heechweardige erkenning en training fan it neuronale netwurk te krijen, fereasket de DeepSpeech-motor in grutte hoemannichte heterogene gegevens diktearre yn echte omstannichheden troch ferskate stimmen en yn 'e oanwêzigens fan natuerlik lûd.
It sammeljen fan sokke gegevens wurdt útfierd troch in projekt makke yn Mozilla mienskiplike stim, it bieden fan in falidearre dataset mei 780 oeren oan Ingelsk, 325 yn it Dútsk, 173 yn it Frânsk en 27 oeren yn it Russysk.

It úteinlike doel fan it Common Voice-projekt is om 10 oeren opnames te sammeljen fan ferskate útspraken fan typyske minsklike spraakfrases, dy't in akseptabel nivo fan herkenningsfouten sille berikke. Yn syn hjoeddeistige foarm hawwe de projektdielnimmers al yn totaal 4.3 tûzen oeren diktearre, wêrfan 3.5 tûzen testen binne. By it oplieden fan it definitive model fan 'e Ingelske taal foar DeepSpeech, waarden 3816 oeren spraak brûkt, neist Common Voice dy't gegevens fan 'e LibriSpeech-, Fisher- en Switchboard-projekten besloech, en ek sa'n 1700 oeren oan transkribearre radioshow-opnames.

By it brûken fan it klearmakke Ingelske taalmodel oanbean foar download, is it nivo fan herkenningsfouten yn DeepSpeech 7.5% as beoardiele troch de testset LibriSpeech. Foar ferliking, de flater rate yn minsklike erkenning anslatt op 5.83%.

DeepSpeech bestiet út twa subsystemen - in akoestyske model en in dekoder. It akoestyske model brûkt metoaden foar djippe masine-learen om de kâns te berekkenjen dat bepaalde symboalen oanwêzich binne yn it ynfierlûd. De dekoder brûkt in beam-sykalgoritme om de gegevens fan 'e symboalyske kâns te konvertearjen yn in tekstfoarstelling.

haad ynnovaasjes DeepSpeech 0.6 (0.6 branch is net efterút kompatibel en fereasket dat koade en modellen wurde bywurke):

  • In nije streaming-dekoder wurdt foarsteld dy't hegere responsiviteit leveret en net ôfhinklik is fan 'e grutte fan' e ferwurke audiogegevens. Dêrtroch koe de nije ferzje fan DeepSpeech de fertraging foar erkenning ferminderje nei 260 ms, wat 73% flugger is as earder, en kinne jo DeepSpeech brûke yn oplossingen foar spraakherkenning ûnderweis.
  • Feroarings binne makke oan 'e API en wurk is dien om funksjenammen te ferienigjen. Funksjes binne tafoege om ekstra metadata oer syngronisaasje te krijen, wêrtroch net allinich in tekstfertsjintwurdiging as útfier kin wurde ûntfongen, mar ek de bining fan yndividuele karakters en sinnen nei in posysje yn 'e audiostream kinne folgje.
  • Stipe foar it brûken fan de bibleteek is tafoege oan de toolkit foar learmodules CuDNN om wurk te optimalisearjen mei weromkommende neuronale netwurken (RNN), dy't it mooglik makken om in signifikante (sawat twa kear) ferheging fan modelopliedingsprestaasjes te berikken, mar fereaske feroaringen oan 'e koade dy't de kompatibiliteit mei earder taret modellen skeind.
  • De minimale easken foar de TensorFlow-ferzje binne ferhege fan 1.13.1 nei 1.14.0. Stipe tafoege foar de TensorFlow Lite lichtgewicht edysje, dy't de DeepSpeech-pakketgrutte fermindere fan 98 MB nei 3.7 MB. Foar gebrûk op ynbêde en mobile apparaten waard de grutte fan it ynpakte bestân mei it model ek fermindere fan 188 MB nei 47 MB ​​(de kwantisaasjemetoade waard brûkt foar kompresje neidat it model waard oplaat).
  • It taalmodel is oerset nei in oar formaat fan gegevensstruktueren wêrmei jo bestannen yn it ûnthâld kinne mapje by it laden. Stipe foar it âlde formaat is stopset.
  • De modus foar it laden fan in bestân mei in taalmodel is feroare, wat it ûnthâldferbrûk fermindere en fertragingen fermindere by it ferwurkjen fan it earste fersyk neidat it model makke is. DeepSpeech verbruikt no 22x minder ûnthâld by it rinnen en start 500x rapper op.

    Mozilla ûntbleatet DeepSpeech 0.6 spraakherkenningsmotor

  • Seldsume wurden waarden yn it taalmodel filtere. It totale oantal wurden is fermindere nei 500 fan 'e populêrste wurden fûn yn' e tekst dy't brûkt wurdt om it model op te trenen. De skjinmeitsjen makke it mooglik om de grutte fan it taalmodel te ferminderjen fan 1800MB nei 900MB, mei hast gjin effekt op it nivo fan herkenningsflaters.
  • Stipe tafoege foar ferskate technikus oanmeitsjen fan ekstra fariaasjes (fergrutting) fan 'e lûdgegevens brûkt yn training (bygelyks tafoegje oan' e set fan opsjes dy't ferfoarming of lûd omfetsje).
  • In bibleteek tafoege mei bindingen foar yntegraasje mei applikaasjes basearre op it .NET-platfoarm.
  • Redesigned dokumintaasje, dy't no wurdt sammele op in aparte side deepspeech.readthedocs.io.

Boarne: opennet.ru

Add a comment