Mozilla tiżvela l-magna ta’ rikonoxximent tad-diskors DeepSpeech 0.6

Introdott rilaxx ta 'magna ta' rikonoxximent tad-diskors żviluppata minn Mozilla DeepSpeech 0.6, li timplimenta l-arkitettura ta' rikonoxximent tad-diskors tal-istess isem, propost minn riċerkaturi minn Baidu. L-implimentazzjoni hija miktuba f'Python bl-użu tal-pjattaforma tat-tagħlim tal-magni TensorFlow u imqassma minn taħt il-liċenzja MPL 2.0 b'xejn. Jappoġġja xogħol fuq Linux, Android, macOS u Windows. Il-prestazzjoni hija biżżejjed biex tuża l-magna fuq bordijiet LePotato, Raspberry Pi 3 u Raspberry Pi 4.

Inkluż ukoll fis-sett offruti mudelli mħarrġa, eżempji fajls tal-ħoss u għodod ta' rikonoxximent mil-linja tal-kmand. Biex tintegra l-funzjoni tar-rikonoxximent tad-diskors fil-programmi tiegħek, huma offruti moduli lesti għall-użu għal Python, NodeJS, C++ u .NET (żviluppaturi ta’ partijiet terzi ħejjew moduli separatament għal Rust и Go). Il-mudell lest huwa fornut biss għall-Ingliż, iżda għal lingwi oħra minn mehmuża istruzzjonijiet tista 'tħarreġ is-sistema lilek innifsek bl-użu data tal-vuċi, miġbura mill-proġett Common Voice.

DeepSpeech huwa ħafna aktar sempliċi minn sistemi tradizzjonali u fl-istess ħin jipprovdi rikonoxximent ta 'kwalità ogħla fil-preżenza ta' storbju estranju. Jinjora mudelli akustiċi tradizzjonali u l-kunċett ta 'fonemi, minflok juża sistema ta' tagħlim tal-magni bbażata fuq netwerk newrali ottimizzata ħafna li telimina l-ħtieġa li jiġu żviluppati komponenti separati biex jimmudellaw diversi anomaliji bħal storbju, eku u karatteristiċi tad-diskors.

L-iżvantaġġ ta 'dan l-approċċ huwa li sabiex jinkiseb rikonoxximent u taħriġ ta' kwalità għolja ta 'netwerk newrali, il-magna DeepSpeech teħtieġ ammont kbir ta' data eteroġenja, iddettata f'kundizzjonijiet reali minn vuċijiet differenti u fil-preżenza ta 'ħoss naturali.
Proġett maħluq f'Mozilla jiġbor data bħal din. vuċi komuni, billi tipprovdi sett ta' dejta vverifikat b'780 siegħa ta' Lingwa Ingliża, 325 bil-Ġermaniż, 173 bil-Franċiż u 27 siegħa bir-Russu.

L-għan aħħari tal-proġett Common Voice huwa li jakkumula 10 elf siegħa ta 'reġistrazzjonijiet ta' diversi pronunzji ta 'frażijiet tipiċi ta' diskors uman, li jippermettu li jinkiseb livell aċċettabbli ta 'żbalji fir-rikonoxximent. Fil-forma attwali tagħha, il-parteċipanti tal-proġett diġà ddettaw total ta '4.3 elf siegħa, li minnhom 3.5 elf ġew ittestjati. Meta tħarreġ il-mudell finali tal-lingwa Ingliża għal DeepSpeech, intużaw 3816-il siegħa ta’ diskors, minbarra l-Common Voice li tkopri dejta mill-proġetti LibriSpeech, Fisher u Switchboard, u inklużi wkoll madwar 1700 siegħa ta’ reġistrazzjonijiet ta’ spettakli tar-radju traskritti.

Meta tuża l-mudell tal-lingwa Ingliża lest offrut għat-tniżżil, ir-rata ta' żball ta' rikonoxximent f'DeepSpeech hija ta' 7.5% meta tiġi vvalutata b'sett tat-test. LibriSpeech. Għal paragun, ir-rata ta 'żball għar-rikonoxximent tal-bniedem stmat bi 5.83%.

DeepSpeech jikkonsisti f'żewġ sottosistemi - mudell akustiku u decoder. Il-mudell akustiku juża metodi ta 'tagħlim tal-magni fil-fond biex jikkalkula l-probabbiltà li ċerti karattri jkunu preżenti fil-ħoss tad-dħul. Id-decoder juża algoritmu ta' tfittxija tar-raġġi biex jikkonverti d-dejta tal-probabbiltà tal-karattri f'rappreżentazzjoni tat-test.

Il-prinċipali innovazzjonijiet DeepSpeech 0.6 (il-fergħa 0.6 mhix kompatibbli ma' rilaxxi preċedenti u teħtieġ aġġornamenti tal-kodiċi u tal-mudell):

  • Huwa propost decoder tal-istrimjar ġdid li jipprovdi rispons ogħla u huwa indipendenti mid-daqs tad-dejta tal-awdjo pproċessata. Bħala riżultat, il-verżjoni l-ġdida ta 'DeepSpeech irnexxielha tnaqqas il-latency għar-rikonoxximent għal 260 ms, li hija 73% aktar mgħaġġla minn qabel, u tippermetti li DeepSpeech jintuża f'soluzzjonijiet ta' rikonoxximent tad-diskors fuq il-fly.
  • Saru bidliet fl-API u saret ħidma biex l-ismijiet tal-funzjonijiet jiġu unifikati. Ġew miżjuda funzjonijiet biex tikseb metadejta addizzjonali dwar is-sinkronizzazzjoni, li jippermettulek mhux biss li tirċievi rappreżentazzjoni tat-test bħala output, iżda wkoll li ssegwi l-irbit ta 'karattri u sentenzi individwali għal pożizzjoni fil-fluss tal-awdjo.
  • L-appoġġ għall-użu tal-librerija ġie miżjud mal-għodda għall-moduli ta’ taħriġ CuDNN biex jiġi ottimizzat ix-xogħol ma 'netwerks newrali rikorrenti (RNN), li għamilha possibbli li tinkiseb żieda sinifikanti (bejn wieħed u ieħor doppju) fil-prestazzjoni tat-taħriġ tal-mudell, iżda meħtieġa bidliet fil-kodiċi li kisru l-kompatibilità ma' mudelli ppreparati qabel.
  • Ir-rekwiżiti minimi tal-verżjoni TensorFlow tqajmu minn 1.13.1 għal 1.14.0. Appoġġ miżjud għall-edizzjoni ħafifa ta 'TensorFlow Lite, li tnaqqas id-daqs tal-pakkett DeepSpeech minn 98 MB għal 3.7 MB. Għall-użu fuq tagħmir inkorporat u mobbli, id-daqs tal-fajl ippakkjat bil-mudell tnaqqas ukoll minn 188 MB għal 47 MB ​​(il-metodu ta 'kwantizzazzjoni jintuża għall-kompressjoni wara li l-mudell ikun imħarreġ).
  • Il-mudell tal-lingwa ġie tradott f'format ta' struttura tad-dejta differenti li jippermetti li l-fajls jiġu mmappjati fil-memorja meta jitgħabbew. L-appoġġ għall-format l-antik twaqqaf.
  • Inbidel il-mod ta 'tagħbija ta' fajl b'mudell tal-lingwa, li naqqas il-konsum tal-memorja u naqqas id-dewmien meta pproċessa l-ewwel talba wara li ħoloq il-mudell. Waqt it-tħaddim, DeepSpeech issa jikkonsma 22 darba inqas memorja u jibda 500 darba aktar malajr.

    Mozilla tiżvela l-magna ta’ rikonoxximent tad-diskors DeepSpeech 0.6

  • Kliem rari ġie ffiltrat fil-mudell tal-lingwa. In-numru totali ta 'kliem tnaqqas għal 500 elf mill-aktar kliem popolari misjuba fit-test użat biex jitħarreġ il-mudell. It-tindif għamilha possibbli li jitnaqqas id-daqs tal-mudell tal-lingwa minn 1800MB għal 900MB, prattikament mingħajr effett fuq ir-rata ta 'żball ta' rikonoxximent.
  • Appoġġ miżjud għal diversi tekniku il-ħolqien ta' varjazzjonijiet addizzjonali (awmentazzjoni) tad-dejta tal-awdjo użata fit-taħriġ (pereżempju, iż-żieda ta' distorsjoni jew storbju ma' sett ta' għażliet).
  • Miżjud librerija b'irbit għall-integrazzjoni ma' applikazzjonijiet ibbażati fuq il-pjattaforma .NET.
  • Id-dokumentazzjoni ġiet maħduma mill-ġdid u issa hija miġbura fuq websajt separata. deepspeech.readthedocs.io.

Sors: opennet.ru

Żid kumment