Mozilla Common Voice 8.0 Sabunta Muryar

Mozilla ta fitar da sabuntawa ga kundin bayanan muryarta na gama gari, waɗanda suka haɗa da samfuran lafuzza daga kusan mutane 200. Ana buga bayanan azaman yanki na jama'a (CC0). Za a iya amfani da saitin da aka tsara a cikin tsarin koyon injin don gina ƙirar magana da haɗakarwa. Idan aka kwatanta da sabuntawar baya, ƙarar kayan magana a cikin tarin ya karu da 30% - daga 13.9 zuwa 18.2 dubu hours na magana. Adadin harsunan da aka goyan baya ya karu daga 67 zuwa 87.

Saitin don harshen Rashanci ya ƙunshi mahalarta 2452 da sa'o'i 193 na kayan magana (akwai mahalarta 2136 da sa'o'i 173), don harshen Belarushiyanci - mahalarta 6160 da sa'o'i 987 (akwai mahalarta 3831 da sa'o'i 356), don harshen Ukrainian - 684 mahalarta da 76 hours (akwai 615 mahalarta da 66 hours). Fiye da mutane 79 sun shiga cikin shirye-shiryen kayan aiki a cikin Ingilishi, suna nuna sa'o'i 2886 na maganganun da aka tabbatar (akwai mahalarta 75 da sa'o'i 2637).

Bari mu tunatar da ku cewa aikin Muryar Jama'a yana nufin tsara ayyukan haɗin gwiwa don tara bayanan tsarin murya wanda ke la'akari da bambancin muryoyi da salon magana. Ana gayyatar masu amfani zuwa jumlar murya da aka nuna akan allon ko kimanta ingancin bayanan da wasu masu amfani suka ƙara. Za a iya amfani da bayanan da aka tara tare da bayanan lafuzza daban-daban na jimlolin maganganun ɗan adam ba tare da hani ba a cikin tsarin koyan na'ura da kuma ayyukan bincike. A cewar marubucin Vosk ci gaba da magana da ɗakin karatu, rashin amfani na Saitin Muryar Jama'a shine bangare ɗaya na kayan murya (mafi rinjaye na maza masu shekaru 20-30, da rashin kayan aiki tare da muryoyin mata). , yara da tsofaffi), rashin sauye-sauye a cikin ƙamus (maimaita kalmomi iri ɗaya) da rarraba rikodin a cikin tsarin MP3 mai murdiya.

Bugu da ƙari, za mu iya lura da sakin kayan aikin NVIDIA NeMo 1.6, wanda ke ba da hanyoyin koyo na na'ura don ƙirƙirar tsarin gane magana, haɗin magana da sarrafa harshe na halitta. NeMo ya haɗa da shirye-shiryen horarwa don amfani don tsarin koyo na inji bisa tsarin PyTorch, wanda NVIDIA ta shirya ta yin amfani da bayanan magana na gama-gari da kuma rufe nau'ikan harsuna, lafazin da nau'ikan magana. Samfuran na iya zama da amfani ga masu bincike haɓaka tsarin tattaunawa na tushen murya, dandamalin rubutu, da cibiyoyin kira na atomatik. Misali, ana amfani da NVIDIA NeMo a cikin ayyukan murya ta atomatik na MTS da Sberbank. An rubuta lambar NeMo a cikin Python ta amfani da PyTorch kuma an rarraba a ƙarƙashin lasisin Apache 2.0.

source: budenet.ru

Add a comment