Mozilla ṣafihan ẹrọ idanimọ ọrọ DeepSpeech 0.6

Agbekale itusilẹ ẹrọ idanimọ ọrọ ti o dagbasoke nipasẹ Mozilla Ọrọ Jin 0.6, eyiti o ṣe imuse faaji idanimọ ọrọ ti orukọ kanna, dabaa nipasẹ awọn oluwadi lati Baidu. Awọn imuse ti wa ni kikọ ni Python lilo awọn TensorFlow ẹrọ eko Syeed ati pin nipasẹ labẹ free MPL 2.0 iwe-ašẹ. Awọn atilẹyin ṣiṣẹ lori Linux, Android, macOS ati Windows. Iṣẹ naa ti to lati lo ẹrọ lori LePotato, Rasipibẹri Pi 3 ati awọn igbimọ Rasipibẹri Pi 4.

Tun wa ninu ṣeto ti a nṣe awọn awoṣe ikẹkọ, apeere awọn faili ohun ati awọn irinṣẹ idanimọ lati laini aṣẹ. Lati ṣepọ iṣẹ idanimọ ọrọ sinu awọn eto rẹ, awọn modulu imurasilẹ-lati-lo fun Python, NodeJS, C ++ ati .NET ni a funni (awọn olupilẹṣẹ ẹni-kẹta ti pese awọn modulu lọtọ fun ipata и Go). Awoṣe ti o pari ni a pese fun Gẹẹsi nikan, ṣugbọn fun awọn ede miiran nipasẹ so awọn ilana o le ṣe ikẹkọ eto funrararẹ nipa lilo ohùn data, ti a gba nipasẹ iṣẹ akanṣe Ohun Wọpọ.

DeepSpeech rọrun pupọ ju awọn eto ibile lọ ati ni akoko kanna pese idanimọ didara ti o ga julọ niwaju ariwo ajeji. O kọja awọn awoṣe akositiki ibile ati imọran ti awọn foonu foonu, dipo lilo eto ẹkọ ẹrọ ti o da lori nẹtiwọọki ti nẹtiwọọki ti o ga julọ ti o yọkuro iwulo lati ṣe agbekalẹ awọn paati lọtọ lati ṣe awoṣe ọpọlọpọ awọn asemase bii ariwo, iwoyi, ati awọn ẹya ọrọ.

Ilọkuro ti ọna yii ni pe lati le gba idanimọ didara giga ati ikẹkọ ti nẹtiwọọki nkankikan, ẹrọ DeepSpeech nilo iye nla ti data orisirisi, ti a sọ ni awọn ipo gidi nipasẹ awọn ohun oriṣiriṣi ati niwaju ariwo adayeba.
Ise agbese ti a ṣẹda ni Mozilla n gba iru data naa. Ohun ti o wọpọ, pese ipilẹ data ti o ni idaniloju pẹlu awọn wakati 780 ti Èdè Gẹ̀ẹ́sì, 325 ni German, 173 ni Faranse ati awọn wakati 27 ni Russian.

Ibi-afẹde ti o ga julọ ti iṣẹ akanṣe Ohun Wọpọ ni lati ṣajọ awọn wakati 10 ẹgbẹrun ti awọn gbigbasilẹ ti ọpọlọpọ awọn pronunciations ti awọn gbolohun ọrọ aṣoju ti ọrọ eniyan, eyiti yoo jẹ ki iyọrisi ipele itẹwọgba ti awọn aṣiṣe ni idanimọ. Ni fọọmu ti o wa lọwọlọwọ, awọn olukopa agbese na ti sọ tẹlẹ apapọ awọn wakati 4.3 ẹgbẹrun, eyiti 3.5 ẹgbẹrun ti ni idanwo. Nigbati ikẹkọ awoṣe ede Gẹẹsi ti o kẹhin fun DeepSpeech, awọn wakati 3816 ti ọrọ ni a lo, ni afikun si awọn alaye ibora ti Voice wọpọ lati awọn iṣẹ akanṣe LibriSpeech, Fisher ati Switchboard, ati pẹlu pẹlu bii awọn wakati 1700 ti awọn igbasilẹ ifihan redio ti a gbasilẹ.

Nigbati o ba nlo awoṣe ede Gẹẹsi ti a ti ṣetan ti a funni fun igbasilẹ, oṣuwọn aṣiṣe idanimọ ni DeepSpeech jẹ 7.5% nigbati a ṣe ayẹwo pẹlu eto idanwo kan LibriSpeech. Fun lafiwe, oṣuwọn aṣiṣe fun idanimọ eniyan ifoju 5.83%.

DeepSpeech oriširiši meji subsystems - ẹya akositiki awoṣe ati ki o kan decoder. Awoṣe akositiki nlo awọn ọna ikẹkọ ẹrọ ti o jinlẹ lati ṣe iṣiro iṣeeṣe ti awọn ohun kikọ kan wa ninu ohun kikọ sii. Oluyipada naa nlo algorithm wiwa ray lati yi data iṣeeṣe ihuwasi pada si aṣoju ọrọ kan.

akọkọ awọn imotuntun DeepSpeech 0.6 (ẹka 0.6 ko ni ibaramu pẹlu awọn idasilẹ iṣaaju ati nilo koodu ati awọn imudojuiwọn awoṣe):

  • Iyipada ṣiṣanwọle tuntun jẹ idamọran ti o pese idahun ti o ga julọ ati pe o jẹ ominira ti iwọn data ohun afetigbọ ti a ṣe ilana. Bi abajade, ẹya tuntun ti DeepSpeech ṣakoso lati dinku lairi fun idanimọ si 260 ms, eyiti o jẹ 73% yiyara ju iṣaaju lọ, ati gba DeepSpeech laaye lati lo ni awọn solusan idanimọ ọrọ lori fo.
  • Awọn ayipada ti ṣe si API ati pe iṣẹ ti ṣe lati ṣọkan awọn orukọ iṣẹ. Awọn iṣẹ ti wa ni afikun lati gba afikun metadata nipa mimuuṣiṣẹpọ, gbigba ọ laaye kii ṣe lati gba aṣoju ọrọ nikan bi iṣẹjade, ṣugbọn tun lati tọpa isopọmọ ti awọn ohun kikọ kọọkan ati awọn gbolohun ọrọ si ipo kan ninu ṣiṣan ohun.
  • Atilẹyin fun lilo ile-ikawe ti ni afikun si ohun elo irinṣẹ fun awọn modulu ikẹkọ CuDNN lati mu iṣẹ ṣiṣẹ pẹlu awọn nẹtiwọọki ti nwaye loorekoore (RNN), eyiti o jẹ ki o ṣee ṣe lati ṣaṣeyọri pataki kan (iwọn ilọpo meji) ilosoke ninu iṣẹ ikẹkọ awoṣe, ṣugbọn o nilo awọn ayipada si koodu ti o ru ibamu pẹlu awọn awoṣe ti a ti pese tẹlẹ.
  • Awọn ibeere ẹya TensorFlow ti o kere ju ti dide lati 1.13.1 si 1.14.0. Atilẹyin ti a ṣafikun fun ẹda iwuwo fẹẹrẹ ti TensorFlow Lite, eyiti o dinku iwọn package DeepSpeech lati 98 MB si 3.7 MB. Fun lilo lori ifibọ ati awọn ẹrọ alagbeka, iwọn faili ti o ni idii pẹlu awoṣe tun ti dinku lati 188 MB si 47 MB ​​(ọna titobi ni a lo fun funmorawon lẹhin ikẹkọ awoṣe).
  • Awoṣe ede naa ti tumọ si ọna kika igbekalẹ data ti o yatọ ti o fun laaye laaye lati ya awọn faili sinu iranti nigbati o ba kojọpọ. Atilẹyin fun ọna kika atijọ ti dawọ.
  • Ipo ikojọpọ faili pẹlu awoṣe ede ti yipada, eyiti o ti dinku agbara iranti ati idinku awọn idaduro nigba ṣiṣe ibeere akọkọ lẹhin ṣiṣẹda awoṣe. Lakoko iṣẹ, DeepSpeech bayi n gba awọn akoko 22 kere si iranti ati bẹrẹ awọn akoko 500 yiyara.

    Mozilla ṣafihan ẹrọ idanimọ ọrọ DeepSpeech 0.6

  • Awọn ọrọ toje ni a ṣe iyọlẹ ninu awoṣe ede. Nọmba apapọ awọn ọrọ ti dinku si 500 ẹgbẹrun awọn ọrọ olokiki julọ ti a rii ninu ọrọ ti a lo lati ṣe ikẹkọ awoṣe. Mimọ jẹ ki o ṣee ṣe lati dinku iwọn awoṣe ede lati 1800MB si 900MB, pẹlu fere ko si ipa lori oṣuwọn aṣiṣe idanimọ.
  • Ṣe afikun atilẹyin fun awọn oriṣiriṣi onimọ-ẹrọ ṣiṣẹda afikun awọn iyatọ (afikun) ti data ohun ti a lo ninu ikẹkọ (fun apẹẹrẹ, fifi ipalọlọ tabi ariwo kun si eto awọn aṣayan).
  • Ṣafikun ile-ikawe pẹlu awọn abuda fun iṣọpọ pẹlu awọn ohun elo ti o da lori pẹpẹ .NET.
  • Iwe naa ti tun ṣiṣẹ ati pe o ti gba bayi lori oju opo wẹẹbu lọtọ. deepspeech.kathedocs.io.

orisun: opennet.ru

Fi ọrọìwòye kun