Mozilla fa'alauiloa DeepSpeech 0.6 afi fa'ailoa tautala

Fa'ailoa fa'amalologa ole afi fa'ailoa tautala na fa'atupuina e Mozilla DeepSpeech 0.6, lea e fa'atinoina le fa'ailoga fa'ailoga tautala o le igoa lava e tasi, tuuina atu e tagata suʻesuʻe mai Baidu. O le faʻatinoga o loʻo tusia i le Python e faʻaaoga ai le TensorFlow machine learning platform ma tufatufaina e i lalo ole laisene MPL 2.0 fua. Lagolago galuega i Linux, Android, macOS ma Windows. Ua lava le faatinoga e faaaoga ai le afi i luga o laupapa LePotato, Raspberry Pi 3 ma Raspberry Pi 4.

E aofia ai foi i le seti ofoina fa'ata'ita'iga a'oa'oina, faataitaiga faila leo ma meafaigaluega faʻaalia mai le laina faʻatonu. Ina ia tuʻufaʻatasia le faʻaogaina o le tautala i totonu o au polokalame, o loʻo tuʻufaʻatasia mo le Python, NodeJS, C++ ma le .NET (o loʻo tuʻufaʻatasia e le au atinaʻe lona tolu ni faʻaoga mo ele и Go). O le faʻataʻitaʻiga maeʻa e tuʻuina atu mo naʻo le Igilisi, ae mo isi gagana e fa'apipi'i faatonuga e mafai ona e aʻoaʻoina le faiga e te faʻaaogaina fa'amatalaga leo, aoina mai e le Poloketi Common Voice.

DeepSpeech e sili atu le faigofie nai lo faiga faʻaleaganuʻu ma i le taimi lava e tasi e maua ai le maualuga maualuga o le faʻalauiloaina i le i ai o le pisapisao ese. E fa'aaloa'aloa fa'ata'ita'iga fa'ale-aganu'u ma le manatu o phonemes, nai lo le fa'aaogaina o se masini a'oa'oga fa'aogaina neural network-based e fa'ate'aina ai le mana'oga e atia'e vaega eseese e fa'ata'ita'i ai fa'aletonu eseese e pei o le pisa, si'uleo, ma le tautala.

O le itu i lalo o lenei auala ina ia maua ai le tulaga maualuga o le faʻalauiloaina ma le aʻoaʻoina o se neural network, o le DeepSpeech engine e manaʻomia le tele o faʻamatalaga eseese, faʻatonuina i tulaga moni e leo eseese ma i le i ai o le pisa masani.
O se poloketi na faia i Mozilla e aoina ia faʻamatalaga. Leo masani, saunia se fa'amaumauga fa'amaonia ma 780 itula o Gagana Peretania, 325 i Siamani, 173 i Farani ma 27 itula i Rusia.

O le sini autu o le Poloketi Common Voice o le faʻaputuina lea o le 10 afe itula o faʻamaumauga o faʻauiga eseese o fuaitau masani o le tautala a le tagata, lea e mafai ai ona ausia se tulaga talia o mea sese i le amanaiaina. I lona tulaga o loʻo iai nei, ua uma ona faʻatonuina e le au auai le poloketi le aofaʻi o le 4.3 afe itula, lea na faʻataʻitaʻiina ai le 3.5 afe. A'o a'oa'oina le fa'ata'ita'iga mulimuli o le gagana fa'aPeretania mo DeepSpeech, e 3816 itula o tautalaga sa fa'aogaina, fa'aopoopo i le Common Voice o lo'o ufiufi fa'amaumauga mai galuega a le LibriSpeech, Fisher ma le Switchboard, ma e aofia ai fo'i ma le tusa ma le 1700 itula o fa'amaumauga o fa'aaliga leitio fa'asalalau.

A faʻaaogaina le faʻataʻitaʻiga faʻaPeretania ua saunia mo le siiina mai, o le faʻaogaina o mea sese i DeepSpeech e 7.5% pe a suʻesuʻeina ma se seti suʻega TusitalaLauga. Mo le faʻatusatusaga, o le fua o mea sese mo le iloa e tagata ua fuafua i le 5.83%.

DeepSpeech e aofia ai vaega laiti e lua - o se faʻataʻitaʻiga faʻalogo ma se decoder. O le fa'ata'ita'iga fa'alogo e fa'aogaina auala loloto a'oa'oga masini e fa'atatau ai le ono iai o nisi mataitusi o lo'o iai i le leo fa'aulu. E fa'aaoga e le decoder se su'esu'ega fa'algogo e fa'aliliu ai fa'amatalaga fa'atatau i uiga i se fa'atusa o tusitusiga.

tele mea fou DeepSpeech 0.6 (0.6 lala e le fetaui ma faʻasalalauga muamua ma e manaʻomia ai faʻamatalaga ma faʻafouga faʻataʻitaʻiga):

  • O lo'o fa'atūina se fa'asalalauga fou e maua ai le tali maualuga atu ma e tuto'atasi mai le tele o fa'amaumauga fa'alogo fa'atonu. O se taunuuga, o le lomiga fou o DeepSpeech na mafai ona faʻaititia le latency mo le faʻaalia i le 260 ms, lea e 73% vave atu nai lo le taimi muamua, ma faʻatagaina DeepSpeech e faʻaaogaina i tali faʻaalia tautala i luga o le lele.
  • Ua faia suiga i le API ma ua faia galuega e tuufaatasia ai igoa o galuega. Ua faaopoopo galuega e maua ai metadata faaopoopo e uiga i le synchronization, e mafai ai e le gata ina maua se faʻamatalaga tusitusia o se gaioiga, ae faʻapea foi ona siaki le fusia o tagata taʻitoʻatasi ma fuaiupu i se tulaga i le faʻalogo leo.
  • Lagolago mo le fa'aogaina o le faletusi ua fa'aopoopoina ile pusa meafaigaluega mo fa'aa'oa'oga modules CuDNN e optimize galuega ma fesoʻotaʻiga neural faifaipea (RNN), lea na mafai ai ona ausia se tulaga taua (pe tusa ma le lua) faʻaopoopoga i le faʻatinoga o aʻoaʻoga faʻataʻitaʻiga, ae manaʻomia suiga i le code lea na solia ai le fetaui ma faʻataʻitaʻiga na saunia muamua.
  • Ole pito maualalo ole mana'oga TensorFlow ua siitia mai le 1.13.1 ile 1.14.0. Faʻaopoopo le lagolago mo le lomiga mama o TensorFlow Lite, lea e faʻaititia ai le tele o le DeepSpeech afifi mai le 98 MB i le 3.7 MB. Mo le faʻaogaina i luga o masini faʻapipiʻi ma feaveaʻi, o le tele o le faila o loʻo faʻapipiʻiina ma le faʻataʻitaʻiga ua faʻaititia foi mai le 188 MB i le 47 MB ​​​​(o le quantization method e faʻaaogaina mo le faʻamalosi pe a uma ona aʻoaʻoina le faʻataʻitaʻiga).
  • O le fa'ata'ita'iga o le gagana ua fa'aliliuina i se fa'asologa o fa'asologa o fa'amaumauga e mafai ai ona fa'afanua faila i le manatua pe a utaina. Le lagolago mo le faatulagaga tuai ua taofia.
  • O le faiga o le utaina o se faila i se gagana faʻataʻitaʻiga ua suia, lea na faʻaitiitia ai le mafaufau ma faʻaitiitia le tuai pe a faʻagasolo le talosaga muamua pe a uma ona faia le faʻataʻitaʻiga. I le taimi o le taotoga, DeepSpeech ua faʻaaogaina nei le 22 taimi itiiti le manatua ma amata 500 taimi vave.

    Mozilla fa'alauiloa DeepSpeech 0.6 afi fa'ailoa tautala

  • Na fa'amama upu seāseā i le fa'ata'ita'iga o le gagana. O le aofaʻi o upu na faʻaititia i le 500 afe o upu sili ona lauiloa o loʻo maua i totonu o tusitusiga na faʻaaogaina e toleni ai le faʻataʻitaʻiga. O le fa'amamāina na mafai ai ona fa'aitiitia le tele o le gagana fa'ata'ita'iga mai le 1800MB i le 900MB, ma toetoe a leai se a'afiaga i le fa'ailoaina o mea sese.
  • Faʻaopoopo lagolago mo mea eseese tekinisia fatuina o suiga faaopoopo (fa'aopoopoga) o fa'amaumauga fa'alogo na fa'aaogaina i a'oa'oga (fa'ata'ita'iga, fa'aopoopoina le fa'alavelave po'o le pisa i se seti o filifiliga).
  • Fa'aopoopoina se faletusi fa'atasi ai ma fa'apipi'i fa'atasi ma tusi talosaga e fa'avae i luga ole .NET platform.
  • O faʻamaumauga ua toe faʻaleleia ma ua aoina nei i luga o se isi upega tafaʻilagi. deepspeech.readthedocs.io.

puna: opennet.ru

Faaopoopo i ai se faamatalaga