Usasishaji wa Sauti ya Mozilla 7.0

NVIDIA na Mozilla wametoa sasisho kwa seti zao za data za Sauti ya Kawaida, ambayo ni pamoja na sampuli za hotuba za watu 182, hadi 25% kutoka miezi 6 iliyopita. Data inachapishwa kama kikoa cha umma (CC0). Seti zinazopendekezwa zinaweza kutumika katika mifumo ya kujifunza kwa mashine ili kujenga utambuzi wa usemi na miundo ya usanisi.

Ikilinganishwa na sasisho la awali, saizi ya nyenzo za hotuba kwenye mkusanyiko imeongezeka kutoka masaa 9 hadi 13.9 elfu ya hotuba. Idadi ya lugha zinazoungwa mkono imeongezeka kutoka 60 hadi 76, pamoja na msaada wa mara ya kwanza kwa lugha za Kibelarusi, Kazakh, Uzbek, Kibulgaria, Kiarmenia, Kiazabajani na Bashkir. Seti ya lugha ya Kirusi inashughulikia washiriki 2136 na masaa 173 ya nyenzo za hotuba (kulikuwa na washiriki 1412 na masaa 111), na kwa lugha ya Kiukreni - washiriki 615 na masaa 66 (kulikuwa na washiriki 459 na masaa 30).

Zaidi ya watu elfu 75 walishiriki katika utayarishaji wa vifaa kwa Kiingereza, wakiamuru masaa 2637 ya hotuba iliyothibitishwa (kulikuwa na washiriki elfu 66 na masaa 1686). Inashangaza, lugha iliyo katika nafasi ya pili kwa kiasi cha data iliyokusanywa ni Rwanda, ambayo masaa 2260 yamekusanywa. Hii inafuatwa na Kijerumani (1040), Kikatalani (920) na Kiesperanto (840). Miongoni mwa saizi inayoongezeka sana ya data ya sauti ni lugha ya Thai (kuongezeka mara 20 kwa msingi, kutoka masaa 12 hadi 250), Luganda (kutoka masaa 8 hadi 80), Kiesperanto (kutoka masaa 100 hadi 840) na Kitamil ( kutoka masaa 24 hadi 220).

Kama sehemu ya ushiriki wake katika mradi wa Sauti ya Kawaida, NVIDIA ilitayarisha miundo iliyotengenezwa tayari ya mifumo ya kujifunza kwa mashine (inayotumika na PyTorch) kulingana na data iliyokusanywa. Mitindo hiyo inasambazwa kama sehemu ya zana ya bure na ya wazi ya NVIDIA NeMo, ambayo, kwa mfano, tayari inatumika katika huduma za sauti za kiotomatiki za MTS na Sberbank. Miundo hiyo inakusudiwa kutumiwa katika utambuzi wa usemi, usanisi wa usemi, na mifumo ya kuchakata lugha asilia, na inaweza kuwa muhimu kwa watafiti wanaounda mifumo ya mazungumzo iliyowezeshwa na sauti, mifumo ya unukuzi na vituo vya simu vya kiotomatiki. Tofauti na miradi iliyopatikana hapo awali, miundo iliyochapishwa haikosi utambuzi wa lugha ya Kiingereza tu na inashughulikia anuwai ya lugha, lafudhi na aina za hotuba.

Hebu tukumbushe kwamba mradi wa Sauti ya Kawaida unalenga kuandaa kazi ya pamoja ili kukusanya hifadhidata ya mifumo ya sauti ambayo inazingatia utofauti wa sauti na mitindo ya usemi. Watumiaji wanaalikwa kutoa vifungu vya sauti vinavyoonyeshwa kwenye skrini au kutathmini ubora wa data iliyoongezwa na watumiaji wengine. Hifadhidata iliyokusanywa yenye rekodi za matamshi mbalimbali ya vishazi vya kawaida vya usemi wa binadamu inaweza kutumika bila vikwazo katika mifumo ya kujifunza kwa mashine na katika miradi ya utafiti.

Kulingana na mwandishi wa maktaba inayoendelea ya utambuzi wa hotuba ya Vosk, ubaya wa seti ya Sauti ya Kawaida ni upande mmoja wa nyenzo za sauti (ukubwa wa wanaume wenye umri wa miaka 20-30, na ukosefu wa nyenzo na sauti za wanawake. , watoto na wazee), ukosefu wa kutofautiana katika kamusi (kurudia misemo sawa) na usambazaji wa rekodi katika muundo wa MP3 unaopotosha.

Chanzo: opennet.ru

Kuongeza maoni