Usasishaji wa Sauti ya Mozilla 8.0

Mozilla imetoa sasisho kwa seti zake za data za Sauti ya Kawaida, ambazo zinajumuisha sampuli za matamshi kutoka kwa karibu watu 200. Data inachapishwa kama kikoa cha umma (CC0). Seti zinazopendekezwa zinaweza kutumika katika mifumo ya kujifunza ya mashine ili kujenga utambuzi wa usemi na miundo ya usanisi. Ikilinganishwa na sasisho la awali, kiasi cha nyenzo za hotuba katika mkusanyiko kiliongezeka kwa 30% - kutoka masaa 13.9 hadi 18.2 ya hotuba. Idadi ya lugha zinazotumika imeongezeka kutoka 67 hadi 87.

Seti ya lugha ya Kirusi inashughulikia washiriki 2452 na masaa 193 ya nyenzo za hotuba (kulikuwa na washiriki 2136 na masaa 173), kwa lugha ya Kibelarusi - washiriki 6160 na masaa 987 (kulikuwa na washiriki 3831 na masaa 356), kwa lugha ya Kiukreni - Washiriki 684 na masaa 76 (kulikuwa na washiriki 615 na masaa 66). Zaidi ya watu elfu 79 walishiriki katika utayarishaji wa vifaa kwa Kiingereza, wakiamuru masaa 2886 ya hotuba iliyothibitishwa (kulikuwa na washiriki elfu 75 na masaa 2637).

Hebu tukumbushe kwamba mradi wa Sauti ya Kawaida unalenga kuandaa kazi ya pamoja ili kukusanya hifadhidata ya mifumo ya sauti ambayo inazingatia utofauti wa sauti na mitindo ya usemi. Watumiaji wanaalikwa kutoa vifungu vya sauti vinavyoonyeshwa kwenye skrini au kutathmini ubora wa data iliyoongezwa na watumiaji wengine. Hifadhidata iliyokusanywa yenye rekodi za matamshi mbalimbali ya vishazi vya kawaida vya usemi wa binadamu inaweza kutumika bila vikwazo katika mifumo ya kujifunza kwa mashine na katika miradi ya utafiti. Kulingana na mwandishi wa maktaba inayoendelea ya utambuzi wa hotuba ya Vosk, ubaya wa seti ya Sauti ya Kawaida ni upande mmoja wa nyenzo za sauti (ukubwa wa wanaume wenye umri wa miaka 20-30, na ukosefu wa nyenzo na sauti za wanawake. , watoto na wazee), ukosefu wa kutofautiana katika kamusi (kurudia misemo sawa) na usambazaji wa rekodi katika muundo wa MP3 unaopotosha.

Zaidi ya hayo, tunaweza kutambua kutolewa kwa kisanduku cha zana cha NVIDIA NeMo 1.6, ambacho hutoa mbinu za kujifunza kwa mashine za kuunda mifumo ya utambuzi wa usemi, usanisi wa usemi na uchakataji wa lugha asilia. NeMo inajumuisha miundo iliyo tayari kutumia ya mifumo ya kujifunza kwa mashine kulingana na mfumo wa PyTorch, iliyotayarishwa na NVIDIA kwa kutumia data ya matamshi ya Sauti ya Kawaida na inayojumuisha lugha, lafudhi na aina mbalimbali za matamshi. Miundo hiyo inaweza kuwa muhimu kwa watafiti wanaotengeneza mifumo ya mazungumzo inayotegemea sauti, mifumo ya unukuzi na vituo vya simu vya kiotomatiki. Kwa mfano, NVIDIA NeMo hutumiwa katika huduma za sauti za kiotomatiki za MTS na Sberbank. Msimbo wa NeMo umeandikwa kwa Python kwa kutumia PyTorch na kusambazwa chini ya leseni ya Apache 2.0.

Chanzo: opennet.ru

Kuongeza maoni