Mozilla fa'alauiloa DeepSpeech 0.6 afi fa'ailoa tautala
Fa'ailoa fa'amalologa ole afi fa'ailoa tautala na fa'atupuina e Mozilla DeepSpeech 0.6, lea e fa'atinoina le fa'ailoga fa'ailoga tautala o le igoa lava e tasi, tuuina atu e tagata suʻesuʻe mai Baidu. O le faʻatinoga o loʻo tusia i le Python e faʻaaoga ai le TensorFlow machine learning platform ma tufatufaina e i lalo ole laisene MPL 2.0 fua. Lagolago galuega i Linux, Android, macOS ma Windows. Ua lava le faatinoga e faaaoga ai le afi i luga o laupapa LePotato, Raspberry Pi 3 ma Raspberry Pi 4.
E aofia ai foi i le seti ofoina fa'ata'ita'iga a'oa'oina, faataitaiga faila leo ma meafaigaluega faʻaalia mai le laina faʻatonu. Ina ia tuʻufaʻatasia le faʻaogaina o le tautala i totonu o au polokalame, o loʻo tuʻufaʻatasia mo le Python, NodeJS, C++ ma le .NET (o loʻo tuʻufaʻatasia e le au atinaʻe lona tolu ni faʻaoga mo ele и Go). O le faʻataʻitaʻiga maeʻa e tuʻuina atu mo naʻo le Igilisi, ae mo isi gagana e fa'apipi'ifaatonuga e mafai ona e aʻoaʻoina le faiga e te faʻaaogaina fa'amatalaga leo, aoina mai e le Poloketi Common Voice.
DeepSpeech e sili atu le faigofie nai lo faiga faʻaleaganuʻu ma i le taimi lava e tasi e maua ai le maualuga maualuga o le faʻalauiloaina i le i ai o le pisapisao ese. E fa'aaloa'aloa fa'ata'ita'iga fa'ale-aganu'u ma le manatu o phonemes, nai lo le fa'aaogaina o se masini a'oa'oga fa'aogaina neural network-based e fa'ate'aina ai le mana'oga e atia'e vaega eseese e fa'ata'ita'i ai fa'aletonu eseese e pei o le pisa, si'uleo, ma le tautala.
O le itu i lalo o lenei auala ina ia maua ai le tulaga maualuga o le faʻalauiloaina ma le aʻoaʻoina o se neural network, o le DeepSpeech engine e manaʻomia le tele o faʻamatalaga eseese, faʻatonuina i tulaga moni e leo eseese ma i le i ai o le pisa masani.
O se poloketi na faia i Mozilla e aoina ia faʻamatalaga. Leo masani, saunia se fa'amaumauga fa'amaonia ma 780 itula o Gagana Peretania, 325 i Siamani, 173 i Farani ma 27 itula i Rusia.
O le sini autu o le Poloketi Common Voice o le faʻaputuina lea o le 10 afe itula o faʻamaumauga o faʻauiga eseese o fuaitau masani o le tautala a le tagata, lea e mafai ai ona ausia se tulaga talia o mea sese i le amanaiaina. I lona tulaga o loʻo iai nei, ua uma ona faʻatonuina e le au auai le poloketi le aofaʻi o le 4.3 afe itula, lea na faʻataʻitaʻiina ai le 3.5 afe. A'o a'oa'oina le fa'ata'ita'iga mulimuli o le gagana fa'aPeretania mo DeepSpeech, e 3816 itula o tautalaga sa fa'aogaina, fa'aopoopo i le Common Voice o lo'o ufiufi fa'amaumauga mai galuega a le LibriSpeech, Fisher ma le Switchboard, ma e aofia ai fo'i ma le tusa ma le 1700 itula o fa'amaumauga o fa'aaliga leitio fa'asalalau.
A faʻaaogaina le faʻataʻitaʻiga faʻaPeretania ua saunia mo le siiina mai, o le faʻaogaina o mea sese i DeepSpeech e 7.5% pe a suʻesuʻeina ma se seti suʻega TusitalaLauga. Mo le faʻatusatusaga, o le fua o mea sese mo le iloa e tagata ua fuafua i le 5.83%.
DeepSpeech e aofia ai vaega laiti e lua - o se faʻataʻitaʻiga faʻalogo ma se decoder. O le fa'ata'ita'iga fa'alogo e fa'aogaina auala loloto a'oa'oga masini e fa'atatau ai le ono iai o nisi mataitusi o lo'o iai i le leo fa'aulu. E fa'aaoga e le decoder se su'esu'ega fa'algogo e fa'aliliu ai fa'amatalaga fa'atatau i uiga i se fa'atusa o tusitusiga.
tele mea fou DeepSpeech 0.6 (0.6 lala e le fetaui ma faʻasalalauga muamua ma e manaʻomia ai faʻamatalaga ma faʻafouga faʻataʻitaʻiga):
O lo'o fa'atūina se fa'asalalauga fou e maua ai le tali maualuga atu ma e tuto'atasi mai le tele o fa'amaumauga fa'alogo fa'atonu. O se taunuuga, o le lomiga fou o DeepSpeech na mafai ona faʻaititia le latency mo le faʻaalia i le 260 ms, lea e 73% vave atu nai lo le taimi muamua, ma faʻatagaina DeepSpeech e faʻaaogaina i tali faʻaalia tautala i luga o le lele.
Ua faia suiga i le API ma ua faia galuega e tuufaatasia ai igoa o galuega. Ua faaopoopo galuega e maua ai metadata faaopoopo e uiga i le synchronization, e mafai ai e le gata ina maua se faʻamatalaga tusitusia o se gaioiga, ae faʻapea foi ona siaki le fusia o tagata taʻitoʻatasi ma fuaiupu i se tulaga i le faʻalogo leo.
Lagolago mo le fa'aogaina o le faletusi ua fa'aopoopoina ile pusa meafaigaluega mo fa'aa'oa'oga modules CuDNN e optimize galuega ma fesoʻotaʻiga neural faifaipea (RNN), lea na mafai ai ona ausia se tulaga taua (pe tusa ma le lua) faʻaopoopoga i le faʻatinoga o aʻoaʻoga faʻataʻitaʻiga, ae manaʻomia suiga i le code lea na solia ai le fetaui ma faʻataʻitaʻiga na saunia muamua.
Ole pito maualalo ole mana'oga TensorFlow ua siitia mai le 1.13.1 ile 1.14.0. Faʻaopoopo le lagolago mo le lomiga mama o TensorFlow Lite, lea e faʻaititia ai le tele o le DeepSpeech afifi mai le 98 MB i le 3.7 MB. Mo le faʻaogaina i luga o masini faʻapipiʻi ma feaveaʻi, o le tele o le faila o loʻo faʻapipiʻiina ma le faʻataʻitaʻiga ua faʻaititia foi mai le 188 MB i le 47 MB (o le quantization method e faʻaaogaina mo le faʻamalosi pe a uma ona aʻoaʻoina le faʻataʻitaʻiga).
O le fa'ata'ita'iga o le gagana ua fa'aliliuina i se fa'asologa o fa'asologa o fa'amaumauga e mafai ai ona fa'afanua faila i le manatua pe a utaina. Le lagolago mo le faatulagaga tuai ua taofia.
O le faiga o le utaina o se faila i se gagana faʻataʻitaʻiga ua suia, lea na faʻaitiitia ai le mafaufau ma faʻaitiitia le tuai pe a faʻagasolo le talosaga muamua pe a uma ona faia le faʻataʻitaʻiga. I le taimi o le taotoga, DeepSpeech ua faʻaaogaina nei le 22 taimi itiiti le manatua ma amata 500 taimi vave.
Na fa'amama upu seāseā i le fa'ata'ita'iga o le gagana. O le aofaʻi o upu na faʻaititia i le 500 afe o upu sili ona lauiloa o loʻo maua i totonu o tusitusiga na faʻaaogaina e toleni ai le faʻataʻitaʻiga. O le fa'amamāina na mafai ai ona fa'aitiitia le tele o le gagana fa'ata'ita'iga mai le 1800MB i le 900MB, ma toetoe a leai se a'afiaga i le fa'ailoaina o mea sese.
Faʻaopoopo lagolago mo mea eseese tekinisia fatuina o suiga faaopoopo (fa'aopoopoga) o fa'amaumauga fa'alogo na fa'aaogaina i a'oa'oga (fa'ata'ita'iga, fa'aopoopoina le fa'alavelave po'o le pisa i se seti o filifiliga).
Fa'aopoopoina se faletusi fa'atasi ai ma fa'apipi'i fa'atasi ma tusi talosaga e fa'avae i luga ole .NET platform.
O faʻamaumauga ua toe faʻaleleia ma ua aoina nei i luga o se isi upega tafaʻilagi. deepspeech.readthedocs.io.