Mozilla motora naskirina axaftinê DeepSpeech 0.6 destnîşan kir

Nasandin serbestberdana motora naskirina axaftinê ya ku ji hêla Mozilla ve hatî pêşve xistin DeepSpeech 0.6, ku mîmariya naskirina axaftinê ya bi heman navî pêk tîne, pêşniyar kirin ji aliyê lêkolînerên ji Baidu. Pêkanîna di Python de bi karanîna platforma fêrbûna makîneya TensorFlow ve hatî nivîsandin û belav kirin ji hêla di bin lîsansa belaş MPL 2.0 de. Karê li Linux, Android, macOS û Windows piştgirî dike. Performansa ji bo karanîna motorê li ser panelên LePotato, Raspberry Pi 3 û Raspberry Pi 4 bes e.

Jî di nav set pêşkêş kirin modelên perwerdekirî, nimûne pelên deng û amûrên naskirinê ji rêzika fermanê. Ji bo entegrekirina fonksiyona naskirina axaftinê di bernameyên xwe de, modulên amade-bikaranîna ji bo Python, NodeJS, C++ û .NET têne pêşkêş kirin (pêşdebirên aliyên sêyemîn ji bo Zingar и Go). Modela qedandî tenê ji bo Englishngilîzî, lê ji bo zimanên din ji hêla ve tê peyda kirin pêvekirî fermanên hûn dikarin pergalê xwe bikar bînin perwerde bikin daneyên deng, ji aliyê projeya Common Voice ve hatiye komkirin.

DeepSpeech ji pergalên kevneşopî pir hêsan e û di heman demê de di hebûna dengek xerîb de nasîna kalîteya bilindtir peyda dike. Ew modelên akustîk ên kevneşopî û têgeha foneman derbas dike, li şûna ku pergalek fêrbûna makîneyê ya bingehîn a tora neuralî ya pir xweşbînkirî bikar tîne ku hewcedariya pêşvebirina pêkhateyên cihêreng ji bo modela anomaliyên cihêreng ên wekî deng, echo, û taybetmendiyên axaftinê ji holê radike.

Nerazîbûna vê nêzîkbûnê ev e ku ji bo bidestxistina nasîn û perwerdehiya bilind a torê neuralî, motora DeepSpeech hewceyê hejmareke mezin ji daneyên heterojen e, ku di şert û mercên rastîn de ji hêla dengên cihêreng û bi hebûna dengê xwezayî ve hatî destnîşan kirin.
Projeyek ku di Mozilla de hatî çêkirin daneyên weha berhev dike. Dengê Hevbeş, danûstendinek pejirandî bi 780 demjimêran peyda dike Zimanê Îngilîzî, 325 bi almanî, 173 bi fransî û 27 saet bi rûsî.

Armanca dawîn a projeya Common Voice berhevkirina 10 hezar demjimêran tomarkirina bilêvkirinên cihêreng ên peyvên tîpîk ên axaftina mirovan e, ku dê rê bide gihîştina astek pejirandî ya xeletiyên di naskirinê de. Di forma xwe ya heyî de, beşdarên projeyê berê bi tevahî 4.3 hezar demjimêr destnîşan kirine, ji wan 3.5 hezar hatine ceribandin. Dema ku modela dawîn a zimanê Îngilîzî ji bo DeepSpeech perwerde kir, 3816 demjimêrên axaftinê hatin bikar anîn, ji bilî Dengê Common Daneyên ji projeyên LibriSpeech, Fisher û Switchboard vedihewîne, û her weha bi qasî 1700 demjimêran tomarên pêşandana radyoya transkrîpkirî jî tê de hene.

Dema ku modela zimanê Englishngilîzî ya amadekirî ya ku ji bo dakêşanê hatî pêşkêş kirin bikar tîne, rêjeya xeletiya naskirinê di DeepSpeech de 7.5% e dema ku bi komek testê were nirxandin. LibriSpeech. Ji bo berhevdanê, rêjeya çewtiyê ji bo naskirina mirovan têne nirxandin li% 5.83.

DeepSpeech ji du binpergalan pêk tê - modelek akustîk û dekoderek. Modela akustîk rêbazên fêrbûna makîneya kûr bikar tîne da ku îhtîmala hebûna hin karakteran di dengê têketinê de hebin. Dekoder algorîtmayek lêgerîna tîrêjê bikar tîne da ku daneyên îhtîmala karakterê veguherîne nûneriyek nivîsê.

sereke nûbûnên DeepSpeech 0.6 (0.6 şax bi weşanên berê re ne hevaheng e û nûvekirina kod û modelê hewce dike):

  • Dekoderek nû ya streaming tê pêşniyar kirin ku bersivek bilindtir peyda dike û ji mezinahiya daneya bihîstwerî ya hilberkirî serbixwe ye. Wekî encamek, guhertoya nû ya DeepSpeech karî derengiya naskirinê bigihîne 260 ms, ku 73% ji berê zûtir e, û dihêle ku DeepSpeech di çareseriyên naskirina axaftinê de di firînê de were bikar anîn.
  • Guhertin di API-yê de hatine çêkirin û ji bo yekkirina navên fonksiyonan xebat hatine kirin. Fonksiyon hatine zêdekirin da ku metadatayên din ên derbarê hevdengkirinê de bistînin, ku dihêle hûn ne tenê nûneriyek nivîsê wekî encamek werbigirin, lê di heman demê de girêdana karakter û hevokan bi pozîsyonek di pêveka dengî de jî bişopînin.
  • Piştgiriya ji bo karanîna pirtûkxaneyê ji bo modulên perwerdehiyê li amûrê hatî zêdekirin CuDNN optîmîzekirina xebata bi torên neuralî yên dubare (RNN), ku ev gengaz kir ku meriv di performansa perwerdehiya modelê de zêdebûnek girîng (nêzîkî du qat) bi dest bixe, lê pêdivî bi guheztinên koda ku lihevhatina bi modelên berê yên amadekirî re binpê dike.
  • Pêdiviyên herî kêm guhertoya TensorFlow ji 1.13.1 berbi 1.14.0 ve hatî rakirin. Piştgiriyek ji bo çapa sivik a TensorFlow Lite zêde kir, ku mezinahiya pakêta DeepSpeech ji 98 MB kêm dike 3.7 MB. Ji bo karanîna li ser cîhazên pêvekirî û mobîl, mezinahiya pelê pakkirî ya bi modelê re jî ji 188 MB daket 47 MB ​​(rêbaza quantîzasyonê piştî ku model hate perwerde kirin ji bo berhevkirinê tê bikar anîn).
  • Modela ziman ji bo formatek sazûmana daneyê ya cihêreng hatî wergerandin ku destûrê dide pelan dema ku têne barkirin di nav bîranînê de werin nexşandin. Piştgiriya ji bo formata kevn hatiye rawestandin.
  • Moda barkirina pelek bi modelek zimanî hate guheztin, ku vê yekê xerckirina bîranînê kêm kiriye û derengmayîn kêm kiriye dema ku daxwaziya yekem piştî çêkirina modelê hildibijêre. Di dema xebatê de, DeepSpeech naha 22 carî kêmtir bîra dixwe û 500 carî zûtir dest pê dike.

    Mozilla motora naskirina axaftinê DeepSpeech 0.6 destnîşan kir

  • Di modela zimên de peyvên hindik hatin fîltrekirin. Di nivîsa ku ji bo perwerdekirina modelê hatine bikaranîn de hejmara peyvan daket 500 hezarî. Paqijkirinê mimkun kir ku mezinahiya modela ziman ji 1800MB berbi 900MB kêm bike, bi rastî bandorek li ser rêjeya xeletiya naskirinê tune.
  • Piştgiriya ji bo cûrbecûr zêde kir teknîkî afirandina guhertoyên zêde (zêdekirin) yên daneyên bihîstwerî yên ku di perwerdehiyê de têne bikar anîn (mînak, lêzêdekirina guheztin an deng li komek vebijarkan).
  • Ji bo entegrasyona bi sepanên li ser bingeha platforma .NET re pirtûkxaneyek bi girêdan lê zêde kir.
  • Belgekirin ji nû ve hate xebitandin û naha li ser malperek cûda têne berhev kirin. deepspeech.readthedocs.io.

Source: opennet.ru

Add a comment