Update ng Mozilla Common Voice 8.0

Naglabas ang Mozilla ng update sa mga dataset ng Common Voice nito, na kinabibilangan ng mga sample ng pagbigkas mula sa halos 200 tao. Ang data ay na-publish bilang pampublikong domain (CC0). Ang mga iminungkahing set ay maaaring gamitin sa mga machine learning system para bumuo ng speech recognition at synthesis models. Kung ikukumpara sa nakaraang pag-update, ang dami ng materyal sa pagsasalita sa koleksyon ay tumaas ng 30% - mula 13.9 hanggang 18.2 libong oras ng pagsasalita. Ang bilang ng mga sinusuportahang wika ay tumaas mula 67 hanggang 87.

Ang hanay para sa wikang Ruso ay sumasaklaw sa 2452 kalahok at 193 oras ng materyal sa pagsasalita (mayroong 2136 kalahok at 173 oras), para sa wikang Belarusian - 6160 kalahok at 987 oras (mayroong 3831 kalahok at 356 oras), para sa wikang Ukrainian - 684 kalahok at 76 na oras (mayroong 615 kalahok at 66 na oras). Mahigit sa 79 libong tao ang nakibahagi sa paghahanda ng mga materyales sa Ingles, na nagdidikta ng 2886 na oras ng kumpirmadong pagsasalita (mayroong 75 libong kalahok at 2637 na oras).

Paalalahanan ka namin na ang proyekto ng Common Voice ay naglalayong mag-organisa ng magkasanib na gawain upang makaipon ng database ng mga pattern ng boses na isinasaalang-alang ang pagkakaiba-iba ng mga boses at istilo ng pagsasalita. Iniimbitahan ang mga user sa mga voice phrase na ipinapakita sa screen o suriin ang kalidad ng data na idinagdag ng ibang mga user. Ang naipon na database na may mga talaan ng iba't ibang pagbigkas ng mga tipikal na parirala ng pagsasalita ng tao ay maaaring gamitin nang walang mga paghihigpit sa mga machine learning system at sa mga proyekto ng pananaliksik. Ayon sa may-akda ng Vosk continuous speech recognition library, ang mga disadvantages ng Common Voice set ay ang one-sidedness ng voice material (ang pamamayani ng mga lalaking 20-30 taong gulang, at ang kakulangan ng materyal na may boses ng kababaihan. , mga bata at matatanda), ang kawalan ng pagkakaiba-iba sa diksyunaryo (pag-uulit ng parehong mga parirala) at ang pamamahagi ng mga pag-record sa distorting na format ng MP3.

Bukod pa rito, mapapansin natin ang paglabas ng NVIDIA NeMo 1.6 toolkit, na nagbibigay ng mga pamamaraan sa pag-aaral ng makina para sa paglikha ng mga sistema ng pagkilala sa pagsasalita, speech synthesis at natural na pagproseso ng wika. Kasama sa NeMo ang mga ready-to-use na sinanay na modelo para sa mga machine learning system batay sa PyTorch framework, na inihanda ng NVIDIA gamit ang Common Voice speech data at sumasaklaw sa iba't ibang wika, accent at anyo ng pagsasalita. Maaaring maging kapaki-pakinabang ang mga modelo para sa mga mananaliksik na bumubuo ng mga voice-based na dialogue system, transcription platform, at mga automated na call center. Halimbawa, ang NVIDIA NeMo ay ginagamit sa mga awtomatikong serbisyo ng boses ng MTS at Sberbank. Ang NeMo code ay nakasulat sa Python gamit ang PyTorch at ipinamahagi sa ilalim ng lisensya ng Apache 2.0.

Pinagmulan: opennet.ru

Magdagdag ng komento