🥇Mozilla ilianzisha injini ya utambuzi wa usemi DeepSpeech 0.6

Iliyowasilishwa na kutolewa kwa injini ya utambuzi wa usemi iliyotengenezwa na Mozilla Hotuba ya kina 0.6, ambayo inatekeleza usanifu wa utambuzi wa hotuba wa jina moja, iliyopendekezwa na watafiti kutoka Baidu. Utekelezaji umeandikwa katika Python kwa kutumia jukwaa la kujifunza mashine la TensorFlow na kusambazwa na chini ya leseni ya bure ya MPL 2.0. Inasaidia kazi kwenye Linux, Android, macOS na Windows. Utendaji unatosha kutumia injini kwenye bodi za LePotato, Raspberry Pi 3 na Raspberry Pi 4.

Imejumuishwa pia katika seti inayotolewa mifano iliyofunzwa, mifano faili za sauti na zana za utambuzi kutoka kwa mstari wa amri. Ili kuunganisha kitendakazi cha utambuzi wa usemi katika programu zako, moduli zilizo tayari kutumia za Python, NodeJS, C++ na .NET zinatolewa (watengenezaji wa mashirika ya tatu wametayarisha moduli tofauti kwa ajili ya Kutu и Go) Mfano wa kumaliza hutolewa kwa Kiingereza tu, lakini kwa lugha zingine na iliyoambatanishwa maelekezo unaweza kufundisha mfumo mwenyewe kwa kutumia data ya sauti, iliyokusanywa na mradi wa Sauti ya Kawaida.

DeepSpeech ni rahisi zaidi kuliko mifumo ya jadi na wakati huo huo hutoa utambuzi wa ubora wa juu mbele ya kelele ya nje. Hupita modeli za kimapokeo za akustika na dhana ya fonimu, badala yake hutumia mfumo wa kujifunza kwa mashine unaotegemea mtandao wa neural ulioboreshwa zaidi ambao huondoa hitaji la kuunda vipengee tofauti ili kuiga hitilafu mbalimbali kama vile kelele, mwangwi na vipengele vya usemi.

Upande wa chini wa njia hii ni kwamba ili kupata utambuzi wa hali ya juu na mafunzo ya mtandao wa neva, injini ya DeepSpeech inahitaji idadi kubwa ya data tofauti, iliyoamriwa katika hali halisi na sauti tofauti na mbele ya kelele ya asili.
Mradi ulioundwa katika Mozilla hukusanya data kama hiyo. Sauti ya kawaida, kutoa seti ya data iliyothibitishwa yenye saa 780 za Lugha ya Kiingereza, 325 kwa Kijerumani, 173 kwa Kifaransa na masaa 27 kwa Kirusi.

Lengo kuu la mradi wa Sauti ya Kawaida ni kukusanya saa elfu 10 za rekodi za matamshi mbalimbali ya misemo ya kawaida ya hotuba ya binadamu, ambayo itawawezesha kufikia kiwango cha kukubalika cha makosa katika utambuzi. Katika hali yake ya sasa, washiriki wa mradi tayari wameamuru jumla ya masaa 4.3 elfu, ambayo 3.5 elfu wamejaribiwa. Wakati wa kufunza muundo wa mwisho wa lugha ya Kiingereza kwa DeepSpeech, saa 3816 za usemi zilitumika, pamoja na data ya kufunika kwa Sauti ya Kawaida kutoka kwa miradi ya LibriSpeech, Fisher na Switchboard, na pia ikijumuisha takriban saa 1700 za rekodi za vipindi vya redio vilivyonakiliwa.

Unapotumia kielelezo cha lugha ya Kiingereza kilicho tayari kupakuliwa, kiwango cha makosa ya utambuzi katika DeepSpeech ni 7.5% kinapotathminiwa na seti ya majaribio. LibriSpeech. Kwa kulinganisha, kiwango cha makosa kwa utambuzi wa binadamu inakadiriwa 5.83%.

DeepSpeech ina mifumo ndogo miwili - mfano wa akustisk na avkodare. Muundo wa akustika hutumia mbinu za kina za kujifunza kwa mashine ili kukokotoa uwezekano wa baadhi ya wahusika kuwepo kwenye sauti ya kuingiza sauti. Kisimbuaji hutumia algoriti ya utafutaji wa ray kubadilisha data ya uwezekano wa herufi kuwa kiwakilishi cha maandishi.

kuu ubunifu DeepSpeech 0.6 (tawi la 0.6 halioani na matoleo ya awali na linahitaji masasisho ya msimbo na muundo):

Dekoda mpya ya utiririshaji inapendekezwa ambayo hutoa mwitikio wa hali ya juu na haitegemei ukubwa wa data ya sauti iliyochakatwa. Kwa hivyo, toleo jipya la DeepSpeech liliweza kupunguza muda wa kusubiri kwa utambuzi hadi 260 ms, ambayo ni kasi ya 73% kuliko hapo awali, na inaruhusu DeepSpeech kutumika katika masuluhisho ya utambuzi wa usemi kwa kuruka.
Mabadiliko yamefanywa kwa API na kazi imefanywa ili kuunganisha majina ya kazi. Kazi zimeongezwa ili kupata metadata ya ziada kuhusu ulandanishi, huku kuruhusu sio tu kupokea uwakilishi wa maandishi kama matokeo, lakini pia kufuatilia uunganishaji wa herufi na sentensi moja moja kwenye nafasi katika mtiririko wa sauti.
Usaidizi wa kutumia maktaba umeongezwa kwenye kisanduku cha zana za moduli za mafunzo CuDNN ili kuboresha kazi kwa kutumia mitandao ya neva ya kawaida (RNN), ambayo ilifanya iwezekane kufikia ongezeko kubwa (takriban mara mbili) katika utendakazi wa mafunzo ya kielelezo, lakini ilihitaji mabadiliko kwenye kanuni ambayo ilikiuka uoanifu na miundo iliyotayarishwa awali.
Mahitaji ya chini ya toleo la TensorFlow yameongezwa kutoka 1.13.1 hadi 1.14.0. Usaidizi umeongezwa kwa toleo jepesi la TensorFlow Lite, ambalo hupunguza ukubwa wa kifurushi cha DeepSpeech kutoka MB 98 hadi 3.7 MB. Kwa matumizi ya vifaa vilivyopachikwa na vya rununu, saizi ya faili iliyopakiwa na modeli pia imepunguzwa kutoka 188 MB hadi 47 MB (njia ya quantization hutumiwa kwa kushinikiza baada ya mfano kufunzwa).
Muundo wa lugha umetafsiriwa kwa umbizo tofauti la muundo wa data unaoruhusu faili kuchorwa kwenye kumbukumbu zinapopakiwa. Usaidizi wa umbizo la zamani umekatishwa.
Njia ya kupakia faili yenye mfano wa lugha imebadilishwa, ambayo imepunguza matumizi ya kumbukumbu na kupunguza ucheleweshaji wakati wa usindikaji ombi la kwanza baada ya kuunda mfano. Wakati wa operesheni, DeepSpeech sasa hutumia kumbukumbu mara 22 na huanza mara 500 haraka zaidi.
Maneno adimu yalichujwa katika modeli ya lugha. Idadi ya jumla ya maneno ilipunguzwa hadi elfu 500 ya maneno maarufu zaidi yaliyopatikana katika maandishi yaliyotumiwa kufundisha mfano. Kusafisha kulifanya iwezekane kupunguza ukubwa wa muundo wa lugha kutoka 1800MB hadi 900MB, bila athari yoyote kwenye kiwango cha makosa ya utambuzi.
Aliongeza msaada kwa mbalimbali fundi kuunda tofauti za ziada (uboreshaji) wa data ya sauti inayotumiwa katika mafunzo (kwa mfano, kuongeza upotovu au kelele kwa seti ya chaguo).
Aliongeza maktaba yenye vifungo vya kuunganishwa na programu kulingana na jukwaa la .NET.
Nyaraka zimefanyiwa kazi upya na sasa zinakusanywa kwenye tovuti tofauti. hotuba ya kina.somathedocs.io.

Chanzo: opennet.ru

Mozilla inazindua injini ya utambuzi wa usemi ya DeepSpeech 0.6

Kuongeza maoni Kufuta kujibu