Mozilla lanĉis la parolrekonan motoron DeepSpeech 0.6

Enkondukita liberigo de parolrekona motoro evoluigita fare de Mozilla DeepSpeech 0.6, kiu efektivigas la parolrekonarkitekturon de la sama nomo, proponis de esploristoj el Baidu. La efektivigo estas skribita en Python uzante la maŝinlernadplatformon TensorFlow kaj distribuita de sub la senpaga licenco MPL 2.0. Subtenas laboron en Linukso, Android, macOS kaj Vindozo. La agado sufiĉas por uzi la motoron sur LePotato, Raspberry Pi 3 kaj Raspberry Pi 4-tabuloj.

Ankaŭ inkluzivita en la aro estas proponitaj edukitaj modeloj, ekzemploj sondosieroj kaj rekonaj iloj de la komandlinio. Por integri la parolrekonan funkcion en viajn programojn, uzeblaj moduloj por Python, NodeJS, C++ kaj .NET estas ofertitaj (triaj programistoj havas aparte preparitajn modulojn por rustiĝi и Go). La preta modelo estas liverita nur por la angla, sed por aliaj lingvoj de alfiksita instrukcioj vi povas trejni la sistemon mem uzante voĉaj datumoj, kolektita de la projekto Common Voice.

DeepSpeech estas multe pli simpla ol tradiciaj sistemoj kaj samtempe provizas pli altkvalitan rekonon en ĉeesto de eksterlanda bruo. Ĝi preteriras tradiciajn akustikajn modelojn kaj la koncepton de fonemoj, anstataŭe uzante tre optimumigitan neŭralan ret-bazitan maŝinlernsistemon kiu eliminas la bezonon evoluigi apartajn komponentojn por modeligi diversajn anomaliojn kiel ekzemple bruo, eĥo, kaj paroltrajtoj.

La malavantaĝo de ĉi tiu aliro estas, ke por akiri altkvalitan rekonon kaj trejnadon de neŭrala reto, la DeepSpeech-motoro postulas grandan kvanton da heterogenaj datumoj, diktita en realaj kondiĉoj de malsamaj voĉoj kaj en ĉeesto de natura bruo.
Projekto kreita en Mozilo kolektas tiajn datumojn. Komuna Voĉo, provizante kontrolitan datumaron kun 780 horoj da angla lingvo, 325 en la germana, 173 en la franca kaj 27 horoj en la rusa.

La fina celo de la projekto Common Voice estas amasigi 10 mil horojn da registradoj de diversaj prononcoj de tipaj frazoj de homa parolo, kio permesos atingi akcepteblan nivelon de eraroj en rekono. En ĝia nuna formo, la projektpartoprenantoj jam diktis entute 4.3 mil horojn, el kiuj 3.5 mil estis testitaj. Dum trejnado de la fina anglalingva modelo por DeepSpeech, 3816 horoj da parolado estis uzitaj, aldone al Common Voice kovranta datenojn de la LibriSpeech, Fisher kaj Switchboard-projektoj, kaj ankaŭ inkluzive de proksimume 1700 horoj da transskribitaj radiospektakloregistradoj.

Kiam vi uzas la pretan anglalingvan modelon ofertitan por elŝuto, la rekona eraroprocento en DeepSpeech estas 7.5% kiam taksita per testaro. LibriSpeech. Por komparo, la eraroprocento por homa rekono taksita 5.83%.

DeepSpeech konsistas el du subsistemoj - akustika modelo kaj malĉifrilo. La akustika modelo uzas profundajn maŝinlernajn metodojn por kalkuli la verŝajnecon de certaj signoj ĉeestantaj en la eniga sono. La malĉifrilo uzas radioserĉan algoritmon por konverti signajn probablodatenojn en tekstan reprezenton.

Ĉefa novigoj DeepSpeech 0.6 (0.6 branĉo ne kongruas kun antaŭaj eldonoj kaj postulas kodon kaj modelajn ĝisdatigojn):

  • Nova fluanta malĉifrilo estas proponita kiu disponigas pli altan respondecon kaj estas sendependa de la grandeco de la prilaboritaj sondatenoj. Kiel rezulto, la nova versio de DeepSpeech sukcesis redukti la latencian por rekono al 260 ms, kio estas 73% pli rapida ol antaŭe, kaj permesas al DeepSpeech esti uzata en parolrekonaj solvoj sur la flugo.
  • Ŝanĝoj estis faritaj al la API kaj laboro estis farita por unuigi funkcionomojn. Funkcioj estis aldonitaj por akiri pliajn metadatumojn pri sinkronigado, permesante al vi ne nur ricevi tekstan reprezenton kiel eligo, sed ankaŭ spuri la ligadon de individuaj signoj kaj frazoj al pozicio en la aŭda fluo.
  • Subteno por uzado de la biblioteko estis aldonita al la ilaro por trejnado de moduloj CuDNN optimumigi laboron kun ripetiĝantaj neŭralaj retoj (RNN), kiuj ebligis atingi signifan (proksimume duoble) pliiĝon en modeltrejnada efikeco, sed postulis ŝanĝojn al la kodo kiu malobservis kongruon kun antaŭe pretaj modeloj.
  • La minimumaj postuloj de versioj de TensorFlow estis levitaj de 1.13.1 al 1.14.0. Aldonita subteno por la malpeza eldono de TensorFlow Lite, kiu reduktas la grandecon de la DeepSpeech-pakaĵo de 98 MB ĝis 3.7 MB. Por uzo en enkonstruitaj kaj porteblaj aparatoj, la grandeco de la pakita dosiero kun la modelo ankaŭ reduktiĝis de 188 MB al 47 MB ​​(la kvantiga metodo estas uzata por kunpremado post kiam la modelo estas trejnita).
  • La lingvomodelo estis tradukita al malsama datumstrukturformato kiu permesas al dosieroj esti mapitaj en memoron kiam ŝarĝite. Subteno por la malnova formato estis nuligita.
  • La reĝimo de ŝarĝo de dosiero kun lingva modelo estis ŝanĝita, kio reduktis memorkonsumon kaj reduktis prokrastojn dum prilaborado de la unua peto post kreado de la modelo. Dum operacio, DeepSpeech nun konsumas 22 fojojn malpli da memoro kaj komenciĝas 500 fojojn pli rapide.

    Mozilla lanĉis la parolrekonan motoron DeepSpeech 0.6

  • Maloftaj vortoj estis filtritaj en la lingvomodelo. La tuta nombro da vortoj reduktiĝis al 500 mil el la plej popularaj vortoj trovitaj en la teksto uzata por trejni la modelon. La purigado ebligis redukti la grandecon de la lingvomodelo de 1800MB ĝis 900MB, kun preskaŭ neniu efiko al la rekona eraroprocento.
  • Aldonita subteno por diversaj teknikisto kreante kromajn variojn (aŭgmento) de la sondatenoj uzitaj en trejnado (ekzemple, aldonante misprezenton aŭ bruon al aro de opcioj).
  • Aldonita biblioteko kun ligadoj por integriĝo kun aplikoj bazitaj sur la platformo .NET.
  • La dokumentaro estis reverkita kaj nun estas kolektita en aparta retejo. deepspeech.readthedocs.io.

fonto: opennet.ru

Aldoni komenton