🥇Mozilla iepazīstināja ar runas atpazīšanas dzinēju DeepSpeech 0.6

Iesniedzis Mozilla izstrādātā runas atpazīšanas dzinēja izlaišana DeepSpeech 0.6, kas ievieš tāda paša nosaukuma runas atpazīšanas arhitektūru, ierosināts pētnieki no Baidu. Ieviešana ir rakstīta Python, izmantojot TensorFlow mašīnmācīšanās platformu un izplata saskaņā ar bezmaksas MPL 2.0 licenci. Atbalsta darbu operētājsistēmās Linux, Android, macOS un Windows. Veiktspēja ir pietiekama, lai izmantotu dzinēju uz LePotato, Raspberry Pi 3 un Raspberry Pi 4 dēļiem.

Iekļauts arī komplektā piedāvāja apmācīti modeļi, piemēri skaņas failus un atpazīšanas rīkus no komandrindas. Lai integrētu runas atpazīšanas funkciju savās programmās, tiek piedāvāti lietošanai gatavi Python, NodeJS, C++ un .NET moduļi (trešo pušu izstrādātājiem ir atsevišķi sagatavoti moduļi Rūsa и Go). Gatavais modelis tiek piegādāts tikai angļu valodā, bet citām valodām līdz pievienots instrukcijas Jūs varat apmācīt sistēmu pats, izmantojot balss dati, ko apkopojis projekts Common Voice.

DeepSpeech ir daudz vienkāršāka nekā tradicionālās sistēmas un tajā pašā laikā nodrošina augstākas kvalitātes atpazīšanu svešu trokšņu klātbūtnē. Tas apiet tradicionālos akustiskos modeļus un fonēmu jēdzienu, tā vietā izmantojot augsti optimizētu neironu tīklu balstītu mašīnmācīšanās sistēmu, kas novērš nepieciešamību izstrādāt atsevišķus komponentus, lai modelētu dažādas anomālijas, piemēram, troksni, atbalsi un runas funkcijas.

Šīs pieejas mīnuss ir tāds, ka, lai iegūtu kvalitatīvu neironu tīkla atpazīšanu un apmācību, DeepSpeech dzinējam ir nepieciešams liels daudzums neviendabīgu datu, ko reālos apstākļos diktē dažādas balsis un dabiska trokšņa klātbūtnē.
Programmā Mozilla izveidots projekts apkopo šādus datus. kopīga balss, nodrošinot pārbaudītu datu kopu ar 780 stundām angļu valoda, 325 vācu valodā, 173 franču valodā un 27 stundas krievu valodā.

Projekta Common Voice galvenais mērķis ir uzkrāt 10 tūkstošu stundu dažādu cilvēka runai raksturīgu frāžu dažādu izrunu ierakstus, kas ļaus sasniegt pieņemamu atpazīšanas kļūdu līmeni. Pašreizējā veidolā projekta dalībnieki kopumā nodiktējuši jau 4.3 tūkstošus stundu, no kurām pārbaudītas 3.5 tūkstoši. Apmācot DeepSpeech galīgo angļu valodas modeli, tika izmantotas 3816 runas stundas, papildus Common Voice, kas aptver datus no LibriSpeech, Fisher un Switchboard projektiem, kā arī aptuveni 1700 stundu transkribētu radio šovu ierakstu.

Izmantojot lejupielādei piedāvāto gatavo angļu valodas modeli, atpazīšanas kļūdu līmenis programmā DeepSpeech ir 7.5%, vērtējot ar testa komplektu LibriSpeech. Salīdzinājumam – kļūdu īpatsvars cilvēka atpazīšanai tiek novērtēts pie 5.83%.

DeepSpeech sastāv no divām apakšsistēmām – akustiskā modeļa un dekodētāja. Akustiskajā modelī tiek izmantotas dziļās mašīnmācīšanās metodes, lai aprēķinātu iespējamību, ka ievades skaņā būs noteiktas rakstzīmes. Dekodētājs izmanto staru meklēšanas algoritmu, lai pārveidotu rakstzīmju varbūtības datus teksta attēlojumā.

Galvenais jauninājumiem DeepSpeech 0.6 (0.6 filiāle nav saderīga ar iepriekšējiem laidieniem, un ir nepieciešami koda un modeļa atjauninājumi):

Tiek piedāvāts jauns straumēšanas dekoderis, kas nodrošina lielāku atsaucību un nav atkarīgs no apstrādāto audio datu lieluma. Rezultātā jaunajai DeepSpeech versijai izdevās samazināt atpazīšanas latentumu līdz 260 ms, kas ir par 73% ātrāk nekā iepriekš, un ļauj DeepSpeech izmantot runas atpazīšanas risinājumos lidojumā.
Ir veiktas izmaiņas API, un ir veikts darbs, lai apvienotu funkciju nosaukumus. Ir pievienotas funkcijas, lai iegūtu papildu metadatus par sinhronizāciju, ļaujot ne tikai saņemt teksta attēlojumu kā izvadi, bet arī izsekot atsevišķu rakstzīmju un teikumu saistīšanai ar vietu audio straumē.
Apmācību moduļu rīku komplektam ir pievienots atbalsts bibliotēkas lietošanai CuDNN optimizēt darbu ar atkārtotiem neironu tīkliem (RNN), kas ļāva panākt ievērojamu (aptuveni divas reizes) modeļa apmācības veiktspējas pieaugumu, taču bija nepieciešamas izmaiņas kodā, kas pārkāpa savietojamību ar iepriekš sagatavotajiem modeļiem.
Minimālās TensorFlow versijas prasības ir paaugstinātas no 1.13.1 uz 1.14.0. Pievienots atbalsts TensorFlow Lite vieglajam izdevumam, kas samazina DeepSpeech pakotnes izmēru no 98 MB līdz 3.7 MB. Lietošanai iegultajās un mobilajās ierīcēs arī modeļa iepakotā faila lielums ir samazināts no 188 MB uz 47 MB (kvantēšanas metode tiek izmantota saspiešanai pēc modeļa apmācības).
Valodas modelis ir tulkots citā datu struktūras formātā, kas ļauj ielādes laikā kartēt failus atmiņā. Vecā formāta atbalsts ir pārtraukts.
Ir mainīts faila ielādes režīms ar valodas modeli, kas ir samazinājis atmiņas patēriņu un samazinājies aizkaves, apstrādājot pirmo pieprasījumu pēc modeļa izveidošanas. Darbības laikā DeepSpeech tagad patērē 22 reizes mazāk atmiņas un sākas 500 reizes ātrāk.
Reti vārdi tika filtrēti valodas modelī. Kopējais vārdu skaits tika samazināts līdz 500 tūkstošiem populārāko vārdu, kas atrasti modeles apmācībai izmantotajā tekstā. Tīrīšana ļāva samazināt valodas modeļa izmēru no 1800 MB uz 900 MB, praktiski neietekmējot atpazīšanas kļūdu līmeni.
Pievienots atbalsts dažādiem tehniķis apmācībā izmantoto audio datu papildu variāciju (pastiprinājuma) izveide (piemēram, iespēju kopai pievienojot kropļojumus vai troksni).
Pievienota bibliotēka ar saitēm integrācijai ar lietojumprogrammām, kuru pamatā ir .NET platforma.
Dokumentācija ir pārstrādāta un tagad apkopota atsevišķā tīmekļa vietnē. deepspeech.readthedocs.io.

Avots: opennet.ru

Mozilla iepazīstina ar DeepSpeech 0.6 runas atpazīšanas dzinēju

Pievieno komentāru Atcelt atbildi