Mozilla kynnti talgreiningarvélina DeepSpeech 0.6

Kynnt útgáfu á talgreiningarvél sem Mozilla þróaði DeepSpeech 0.6, sem útfærir talgreiningararkitektúr með sama nafni, lagt til af vísindamönnum frá Baidu. Útfærslan er skrifuð í Python með því að nota TensorFlow vélanámsvettvanginn og dreift af undir ókeypis MPL 2.0 leyfinu. Styður vinnu á Linux, Android, macOS og Windows. Frammistaðan nægir til að nota vélina á LePotato, Raspberry Pi 3 og Raspberry Pi 4 borðum.

Einnig fylgir settinu boðið upp á þjálfaðar fyrirsætur, dæmi hljóðskrár og auðkenningartæki frá skipanalínunni. Til að samþætta talgreiningaraðgerðina í forritin þín eru tilbúnar einingar fyrir Python, NodeJS, C++ og .NET í boði (þriðju aðilar hafa útbúið einingar sérstaklega fyrir Ryð и Go). Fullbúið líkan er aðeins afhent fyrir ensku, en fyrir önnur tungumál af fylgir leiðbeiningar þú getur þjálfað kerfið sjálfur með því að nota raddgögn, safnað af Common Voice verkefninu.

DeepSpeech er mun einfaldara en hefðbundin kerfi og veitir um leið meiri gæðagreiningu í návist utanaðkomandi hávaða. Það framhjá hefðbundnum hljóðeinangruðum líkönum og hugmyndinni um hljóðmerki, í staðinn notar það mjög fínstillt taugakerfi sem byggir á vélanámskerfi sem útilokar þörfina á að þróa aðskilda íhluti til að móta ýmis frávik eins og hávaða, bergmál og taleiginleika.

Gallinn við þessa nálgun er sá að til þess að fá hágæða viðurkenningu og þjálfun á tauganeti þarf DeepSpeech vélin mikið magn af ólíkum gögnum, sem stjórnað er við raunverulegar aðstæður af mismunandi röddum og í viðurvist náttúrulegs hávaða.
Verkefni sem búið er til í Mozilla safnar slíkum gögnum. Common Voice, sem veitir staðfest gagnasafn með 780 klst ensku, 325 á þýsku, 173 á frönsku og 27 klukkustundir á rússnesku.

Lokamarkmið Common Voice verkefnisins er að safna 10 þúsund klukkustundum af upptökum af ýmsum framburði dæmigerðra orðasambanda manna, sem gerir kleift að ná ásættanlegum villum við auðkenningu. Í núverandi mynd hafa þátttakendur verkefnisins þegar ráðið samtals 4.3 þúsund klukkustundum, þar af 3.5 þúsund prófaðir. Við þjálfun endanlegrar ensku líkansins fyrir DeepSpeech voru notaðar 3816 klukkustundir af ræðu, auk Common Voice sem náði yfir gögn frá LibriSpeech, Fisher og Switchboard verkefnunum, og innihélt einnig um 1700 klukkustundir af upptökum útvarpsþátta.

Þegar notað er tilbúna enska líkanið sem boðið er upp á til niðurhals er villugreiningarhlutfall í DeepSpeech 7.5% þegar það er metið með prófunarsetti LibriSpeech. Til samanburðar, villuhlutfall fyrir mannlega viðurkenningu áætlaður í 5.83%.

DeepSpeech samanstendur af tveimur undirkerfum - hljóðeinangruðu líkani og afkóðara. Hljóðeinkennislíkanið notar djúpar vélanámsaðferðir til að reikna út líkurnar á að ákveðnir stafir séu til staðar í inntakshljóðinu. Afkóðarinn notar geislaleitaralgrím til að umbreyta líkindagögnum stafa í textaframsetningu.

Helstu nýjungar DeepSpeech 0.6 (0.6 útibú er ekki samhæft við fyrri útgáfur og krefst uppfærslu kóða og gerða):

  • Lagður er til nýr streymisafkóðari sem veitir meiri svörun og er óháður stærð unnu hljóðgagnanna. Fyrir vikið tókst nýju útgáfunni af DeepSpeech að minnka leynd fyrir auðkenningu í 260 ms, sem er 73% hraðari en áður, og gerir kleift að nota DeepSpeech í talgreiningarlausnum á flugi.
  • Breytingar hafa verið gerðar á API og unnið hefur verið að því að sameina aðgerðaheiti. Aðgerðum hefur verið bætt við til að fá frekari lýsigögn um samstillingu, sem gerir þér kleift að fá ekki aðeins textaframsetningu sem úttak, heldur einnig til að fylgjast með bindingu einstakra stafa og setninga við staðsetningu í hljóðstraumnum.
  • Stuðningi við notkun bókasafnsins hefur verið bætt við verkfærakistuna fyrir þjálfunareiningar CuDNN til að hámarka vinnu með endurteknum tauganetum (RNN), sem gerði það mögulegt að ná umtalsverðri (um það bil tvöföldun) frammistöðu líkanaþjálfunar, en krafðist breytinga á kóðanum sem braut í bága við samhæfni við áður tilbúin líkön.
  • Lágmarkskröfur um TensorFlow útgáfu hafa verið hækkaðar úr 1.13.1 í 1.14.0. Bætti við stuðningi við léttu útgáfuna af TensorFlow Lite, sem minnkar stærð DeepSpeech pakkans úr 98 MB í 3.7 MB. Til notkunar á innbyggðum og farsímum hefur stærð pakkaðrar skráar með líkaninu einnig verið minnkað úr 188 MB í 47 MB ​​(magngreiningaraðferðin er notuð til þjöppunar eftir að líkanið hefur verið þjálfað).
  • Tungumálalíkanið hefur verið þýtt á annað gagnaskipulagssnið sem gerir kleift að kortleggja skrár í minni þegar þær eru hlaðnar. Stuðningur við gamla sniðið hefur verið hætt.
  • Háttinum til að hlaða skrá með tungumálalíkani hefur verið breytt, sem hefur dregið úr minnisnotkun og dregið úr töfum við vinnslu fyrstu beiðninnar eftir að líkanið er búið til. Í notkun eyðir DeepSpeech nú 22 sinnum minna minni og byrjar 500 sinnum hraðar.

    Mozilla kynnti talgreiningarvélina DeepSpeech 0.6

  • Sjaldgæf orð voru síuð í mállíkaninu. Heildarfjöldi orða var minnkaður í 500 þúsund af vinsælustu orðunum sem finnast í textanum sem notaður var til að þjálfa líkanið. Hreinsunin gerði það að verkum að hægt var að minnka stærð tungumálalíkans úr 1800MB í 900MB, með nánast engin áhrif á auðkenningarvilluhlutfallið.
  • Bætt við stuðningi við ýmislegt tæknimaður búa til viðbótarafbrigði (aukning) á hljóðgögnum sem notuð eru við þjálfun (til dæmis, bæta röskun eða hávaða við valmöguleika).
  • Bætt við bókasafni með bindingum fyrir samþættingu við forrit sem byggjast á .NET pallinum.
  • Skjölin hafa verið endurunnin og er nú safnað saman á sérstakri vefsíðu. deepspeech.readthedocs.io.

Heimild: opennet.ru

Bæta við athugasemd