Hoʻohou hou ʻia ʻo Mozilla Voice Common 7.0

Ua hoʻokuʻu ʻo NVIDIA lāua ʻo Mozilla i kahi hōʻano hou i kā lākou Common Voice datasets, e komo pū ana me 182 mau laʻana kamaʻilio o ka poʻe, piʻi 25% mai 6 mau mahina i hala. Hoʻopuka ʻia ka ʻikepili ma ke ʻano he kikowaena lehulehu (CC0). Hiki ke hoʻohana ʻia nā pūʻulu i manaʻo ʻia i nā ʻōnaehana aʻo mīkini e kūkulu i ka ʻike ʻōlelo a me nā hiʻohiʻona synthesis.

Ke hoʻohālikelike ʻia i ka mea hou i hala, ua hoʻonui ʻia ka nui o nā mea haʻiʻōlelo i ka hōʻiliʻili mai 9 a 13.9 tausani mau hola o ka haʻiʻōlelo. Ua hoʻonui ʻia ka helu o nā ʻōlelo i kākoʻo ʻia mai ka 60 a hiki i ka 76, me ke kākoʻo mua no ka Belarusian, Kazakh, Uzbek, Bulgarian, Armenian, Azerbaijani a me Bashkir mau ʻōlelo. ʻO ka hoʻonohonoho no ka ʻōlelo Lūkini e uhi ana i nā mea komo 2136 a me 173 mau hola o ka haʻiʻōlelo (he 1412 nā mea komo a me 111 mau hola), a no ka ʻōlelo Ukrainian - 615 mau mea komo a me 66 mau hola (he 459 nā mea komo a me 30 mau hola).

ʻOi aku ma mua o 75 tausani poʻe i komo i ka hoʻomākaukau ʻana i nā mea ma ka ʻōlelo Pelekania, e kuhikuhi ana i nā hola 2637 o ka ʻōlelo i hoʻopaʻa ʻia (aia he 66 tausani mau mea komo a me 1686 mau hola). ʻO ka mea e mahalo ai, ʻo ka ʻōlelo ma ka lua o ka wahi e pili ana i ka nui o ka ʻikepili i hōʻiliʻili ʻia ʻo Rwanda, nona nā hola 2260 i hōʻiliʻili ʻia. Ua ukali ʻia kēia e Kelemania (1040), Catalan (920) a me Esperanto (840). Ma waena o ka hoʻonui nui ʻana i ka nui o ka ʻikepili leo, ʻo ia ka ʻōlelo Thai (20 mau piʻi i ka waihona, mai 12 a 250 mau hola), Luganda (mai 8 a 80 mau hola), Esperanto (mai 100 a 840 mau hola) a me Tamil ( mai 24 a 220 hola). hola).

Ma ke ʻano o kona komo ʻana i ka papahana Common Voice, ua hoʻomākaukau ʻo NVIDIA i nā hiʻohiʻona hoʻomaʻamaʻa mākaukau no nā ʻōnaehana aʻo mīkini (kākoʻo ʻia e PyTorch) ma muli o ka ʻikepili i hōʻiliʻili ʻia. Hoʻokaʻawale ʻia nā hiʻohiʻona ma ke ʻano o ka hāmeʻa NVIDIA NeMo manuahi a wehe ʻia, no ka laʻana, ua hoʻohana ʻia i nā lawelawe leo automated o MTS a me Sberbank. Hoʻohana ʻia nā kumu hoʻohālike no ka ʻike ʻana i ka haʻiʻōlelo, ka ʻōlelo hoʻohui ʻōlelo, a me nā ʻōnaehana hana ʻōlelo kūlohelohe, a he mea pono paha no ka poʻe noiʻi e kūkulu ana i nā ʻōnaehana kamaʻilio leo-hoʻā ʻia, nā paepae transcription, a me nā kikowaena kelepona automated. ʻAʻole like me nā papahana i loaʻa ma mua, ʻaʻole i kaupalena ʻia nā hiʻohiʻona i paʻi ʻia i ka ʻike ʻōlelo Pelekania a uhi ʻia i nā ʻano ʻōlelo like ʻole, nā leo a me nā ʻano ʻōlelo.

E hoʻomanaʻo mākou iā ʻoe ʻo ka papahana Common Voice ke kuhikuhi ʻia i ka hoʻonohonoho ʻana i nā hana hui e hōʻiliʻili i kahi waihona o nā ʻano leo e noʻonoʻo ana i ka ʻokoʻa o nā leo a me nā ʻano ʻōlelo. Kāhea ʻia nā mea hoʻohana i nā huaʻōlelo leo i hōʻike ʻia ma ka pale a i ʻole loiloi i ka maikaʻi o ka ʻikepili i hoʻohui ʻia e nā mea hoʻohana ʻē aʻe. Hiki ke hoʻohana ʻia ka ʻikepili i hōʻiliʻili ʻia me nā moʻolelo o nā ʻōlelo like ʻole o nā huaʻōlelo maʻamau o ka ʻōlelo kanaka me ka ʻole o ke kaohi ʻana i nā ʻōnaehana aʻo mīkini a me nā papahana noiʻi.

Wahi a ka mea kākau o ka Vosk continue speech recognition library, nā hemahema o ka Common Voice set ka one-sidedness o ka leo mea (ka predominance o na kanaka kanaka 20-30 makahiki, a me ka nele o ka mea me ka leo o na wahine. , nā kamaliʻi a me ka poʻe ʻelemakule), ka nele o ka ʻokoʻa o ka puke wehewehe ʻōlelo (ka hana hou ʻana i nā huaʻōlelo like) a me ka hāʻawi ʻana i nā hoʻopaʻa hoʻopaʻa ʻana i ka format MP3 distorting.

Source: opennet.ru

Pākuʻi i ka manaʻo hoʻopuka