Namumuhunan ang NVIDIA ng $1.5 milyon sa proyekto ng Mozilla Common Voice

Ang NVIDIA ay namumuhunan ng $1.5 milyon sa proyekto ng Mozilla Common Voice. Ang interes sa mga speech recognition system ay nagmumula sa hula na sa susunod na sampung taon, ang voice technology ay magiging isa sa mga pangunahing paraan ng pakikipag-ugnayan ng mga tao sa mga device mula sa mga computer at telepono hanggang sa mga digital assistant at kiosk.

Ang pagganap ng mga voice system ay lubos na nakadepende sa dami at iba't ibang data ng boses na magagamit para sa pagsasanay ng mga modelo ng machine learning. Ang teknolohiya ng boses ngayon ay pangunahing nakatuon sa pagkilala sa wikang Ingles at hindi sumasaklaw sa malawak na hanay ng mga wika, accent, at pattern ng pagsasalita. Makakatulong ang pamumuhunan na mapabilis ang paglaki ng data ng pampublikong boses, makipag-ugnayan sa mas maraming komunidad at mga boluntaryo, at palawakin ang bilang ng mga full-time na kawani ng proyekto.

Paalalahanan ka namin na ang proyekto ng Common Voice ay naglalayong mag-organisa ng magkasanib na gawain upang makaipon ng database ng mga pattern ng boses na isinasaalang-alang ang pagkakaiba-iba ng mga boses at istilo ng pagsasalita. Iniimbitahan ang mga user sa mga voice phrase na ipinapakita sa screen o suriin ang kalidad ng data na idinagdag ng ibang mga user. Ang naipon na database na may mga talaan ng iba't ibang pagbigkas ng mga tipikal na parirala ng pagsasalita ng tao ay maaaring gamitin nang walang mga paghihigpit sa mga machine learning system at sa mga proyekto ng pananaliksik.

Kasalukuyang kasama sa hanay ng Common Voice ang mga halimbawa ng pagbigkas mula sa mahigit 164 tao. Humigit-kumulang 9 na libong oras ng data ng boses ang naipon sa 60 iba't ibang wika. Ang hanay para sa wikang Ruso ay sumasaklaw sa 1412 kalahok at 111 oras ng materyal sa pagsasalita, at para sa wikang Ukrainian - 459 kalahok at 30 oras. Para sa paghahambing, higit sa 66 libong tao ang nakibahagi sa paghahanda ng mga materyales sa Ingles, na nagdidikta ng 1686 na oras ng na-verify na pagsasalita. Ang mga iminungkahing set ay maaaring gamitin sa mga machine learning system para bumuo ng speech recognition at synthesis models. Ang data ay na-publish bilang pampublikong domain (CC0).

Ayon sa may-akda ng Vosk continuous speech recognition library, ang mga disadvantages ng Common Voice set ay ang one-sidedness ng voice material (ang pamamayani ng mga lalaking 20-30 taong gulang, at ang kakulangan ng materyal na may boses ng kababaihan. , mga bata at matatanda), ang kawalan ng pagkakaiba-iba sa diksyunaryo (pag-uulit ng parehong mga parirala) at ang pamamahagi ng mga pag-record sa distorting na format ng MP3.

Pinagmulan: opennet.ru

Magdagdag ng komento