Update ng Mozilla Common Voice 7.0

Ang NVIDIA at Mozilla ay naglabas ng update sa kanilang mga dataset ng Common Voice, na kinabibilangan ng 182 mga sample ng pagsasalita ng mga tao, tumaas ng 25% mula sa nakalipas na 6 na buwan. Ang data ay na-publish bilang pampublikong domain (CC0). Ang mga iminungkahing set ay maaaring gamitin sa mga machine learning system para bumuo ng speech recognition at synthesis models.

Kung ikukumpara sa nakaraang pag-update, ang laki ng materyal sa pagsasalita sa koleksyon ay tumaas mula 9 hanggang 13.9 libong oras ng pagsasalita. Ang bilang ng mga sinusuportahang wika ay tumaas mula 60 hanggang 76, kabilang sa unang pagkakataon ang suporta para sa mga wikang Belarusian, Kazakh, Uzbek, Bulgarian, Armenian, Azerbaijani at Bashkir. Ang hanay para sa wikang Ruso ay sumasaklaw sa 2136 kalahok at 173 oras ng materyal sa pagsasalita (mayroong 1412 kalahok at 111 oras), at para sa wikang Ukrainiano - 615 kalahok at 66 na oras (mayroong 459 kalahok at 30 oras).

Mahigit sa 75 libong tao ang nakibahagi sa paghahanda ng mga materyales sa Ingles, na nagdidikta ng 2637 na oras ng kumpirmadong pagsasalita (mayroong 66 libong kalahok at 1686 na oras). Kapansin-pansin, ang wika sa pangalawang lugar sa mga tuntunin ng dami ng naipon na data ay Rwanda, kung saan 2260 oras ang nakolekta. Sinundan ito ng German (1040), Catalan (920) at Esperanto (840). Kabilang sa mga pinaka-dynamic na pagtaas ng laki ng data ng boses ay ang wikang Thai (20 beses na pagtaas sa base, mula 12 hanggang 250 oras), Luganda (mula 8 hanggang 80 oras), Esperanto (mula 100 hanggang 840 oras) at Tamil ( mula 24 hanggang 220 oras). oras).

Bilang bahagi ng paglahok nito sa proyekto ng Common Voice, naghanda ang NVIDIA ng mga ready-made na sinanay na modelo para sa mga machine learning system (sinusuportahan ng PyTorch) batay sa nakolektang data. Ang mga modelo ay ipinamahagi bilang bahagi ng libre at bukas na toolkit ng NVIDIA NeMo, na, halimbawa, ay ginagamit na sa mga awtomatikong serbisyo ng boses ng MTS at Sberbank. Ang mga modelo ay inilaan para sa paggamit sa speech recognition, speech synthesis, at natural na mga sistema ng pagpoproseso ng wika, at maaaring maging kapaki-pakinabang para sa mga mananaliksik sa pagbuo ng voice-activated na mga dialogue system, transcription platform, at mga automated na call center. Hindi tulad ng mga dating available na proyekto, ang mga nai-publish na modelo ay hindi limitado sa pagkilala sa wikang Ingles at sumasaklaw sa iba't ibang wika, accent at anyo ng pananalita.

Paalalahanan ka namin na ang proyekto ng Common Voice ay naglalayong mag-organisa ng magkasanib na gawain upang makaipon ng database ng mga pattern ng boses na isinasaalang-alang ang pagkakaiba-iba ng mga boses at istilo ng pagsasalita. Iniimbitahan ang mga user sa mga voice phrase na ipinapakita sa screen o suriin ang kalidad ng data na idinagdag ng ibang mga user. Ang naipon na database na may mga talaan ng iba't ibang pagbigkas ng mga tipikal na parirala ng pagsasalita ng tao ay maaaring gamitin nang walang mga paghihigpit sa mga machine learning system at sa mga proyekto ng pananaliksik.

Ayon sa may-akda ng Vosk continuous speech recognition library, ang mga disadvantages ng Common Voice set ay ang one-sidedness ng voice material (ang pamamayani ng mga lalaking 20-30 taong gulang, at ang kakulangan ng materyal na may boses ng kababaihan. , mga bata at matatanda), ang kawalan ng pagkakaiba-iba sa diksyunaryo (pag-uulit ng parehong mga parirala) at ang pamamahagi ng mga pag-record sa distorting na format ng MP3.

Pinagmulan: opennet.ru

Magdagdag ng komento