Mozilla Common Voice 7.0 Sabunta Muryar

NVIDIA da Mozilla sun fitar da sabuntawa ga saitin bayanan muryar su na gama gari, wanda ya haɗa da samfuran maganganun mutane 182, sama da 25% daga watanni 6 da suka gabata. Ana buga bayanan azaman yanki na jama'a (CC0). Za a iya amfani da saitin da aka tsara a cikin tsarin koyon injin don gina ƙirar magana da haɗakarwa.

Idan aka kwatanta da sabuntawar baya, girman kayan magana a cikin tarin ya karu daga 9 zuwa 13.9 dubu sa'o'i na magana. Yawan goyan bayan harsuna ya karu daga 60 zuwa 76, ciki har da a karon farko goyon baya ga Belarushiyanci, Kazakh, Uzbek, Bulgarian, Armenian, Azerbaijan da Bashkir harsuna. Saitin harshen Rashanci ya ƙunshi mahalarta 2136 da sa'o'i 173 na kayan magana (akwai mahalarta 1412 da sa'o'i 111), kuma don harshen Ukrainian - mahalarta 615 da sa'o'i 66 (akwai mahalarta 459 da sa'o'i 30).

Fiye da mutane 75 sun shiga cikin shirye-shiryen kayan aiki a cikin Ingilishi, suna ba da sanarwar sa'o'i 2637 na maganganun da aka tabbatar (akwai mahalarta dubu 66 da sa'o'i 1686). Wani abin sha'awa shi ne, harshen da ke matsayi na biyu dangane da adadin bayanan da aka tattara shi ne kasar Rwanda, wanda aka tattara sa'o'i 2260. Wannan ya biyo bayan Jamusanci (1040), Catalan (920) da Esperanto (840). Daga cikin mafi haɓaka girman girman bayanan murya shine yaren Thai (ƙara ninka sau 20 a tushe, daga awanni 12 zuwa 250), Luganda (daga awanni 8 zuwa 80), Esperanto (daga awanni 100 zuwa 840) da Tamil daga 24 zuwa 220 hours).

A matsayin wani ɓangare na sa hannu a cikin aikin Muryar Jama'a, NVIDIA ta shirya shirye-shiryen horarwa don tsarin koyon inji (wanda PyTorch ke goyan bayan) dangane da bayanan da aka tattara. Ana rarraba samfuran a matsayin wani ɓangare na kayan aikin NVIDIA NeMo kyauta da buɗewa, wanda, alal misali, an riga an yi amfani da shi a cikin ayyukan murya ta atomatik na MTS da Sberbank. An yi nufin samfuran don amfani da su a cikin fahimtar magana, haɗa magana, da tsarin sarrafa harshe na halitta, kuma yana iya zama da amfani ga masu bincike gina tsarin tattaunawa mai kunna murya, dandamalin rubutu, da cibiyoyin kira mai sarrafa kansa. Ba kamar ayyukan da ake da su a baya ba, samfuran da aka buga ba su iyakance ga ƙwarewar Ingilishi ba kuma suna rufe nau'ikan harsuna, lafazin da nau'ikan magana.

Bari mu tunatar da ku cewa aikin Muryar Jama'a yana nufin tsara ayyukan haɗin gwiwa don tara bayanan tsarin murya wanda ke la'akari da bambancin muryoyi da salon magana. Ana gayyatar masu amfani zuwa jumlar murya da aka nuna akan allon ko kimanta ingancin bayanan da wasu masu amfani suka ƙara. Za a iya amfani da bayanan da aka tara tare da bayanan lafuzza daban-daban na jimlolin maganganun ɗan adam ba tare da hani ba a cikin tsarin koyan na'ura da kuma ayyukan bincike.

A cewar marubucin Vosk ci gaba da magana da ɗakin karatu, rashin lahani na Saitin Muryar Jama'a shine bangare ɗaya na kayan murya (mafi rinjaye na maza masu shekaru 20-30, da kuma rashin kayan aiki tare da muryoyin mata). , yara da tsofaffi), rashin sauye-sauye a cikin ƙamus (maimaita kalmomi iri ɗaya) da rarraba rikodin a cikin tsarin MP3 mai murdiya.

source: budenet.ru

Add a comment