Hoʻohou hou ʻia ʻo Mozilla Voice Common 8.0

Ua hoʻokuʻu ʻo Mozilla i kahi hōʻano hou i kāna mau ʻikepili Common Voice, kahi i loaʻa nā laʻana haʻi mai kahi kokoke i 200 poʻe. Hoʻopuka ʻia ka ʻikepili ma ke ʻano he kikowaena lehulehu (CC0). Hiki ke hoʻohana ʻia nā pūʻulu i manaʻo ʻia i nā ʻōnaehana aʻo mīkini e kūkulu i ka ʻike ʻōlelo a me nā hiʻohiʻona synthesis. Ke hoʻohālikelike ʻia i ka hoʻonui mua, ua hoʻonui ʻia ka nui o nā mea haʻiʻōlelo i ka hōʻiliʻili e 30% - mai 13.9 a 18.2 tausani mau hola o ka ʻōlelo. Ua hoʻonui ʻia ka nui o nā ʻōlelo i kākoʻo ʻia mai 67 a i 87.

ʻO ka hoʻonohonoho no ka ʻōlelo Lūkini e uhi ana i nā mea komo 2452 a me 193 mau hola o ka haʻiʻōlelo (aia he 2136 mau mea komo a me 173 mau hola), no ka ʻōlelo Belarusian - 6160 mau mea komo a me 987 mau hola (he 3831 mau mea komo a me 356 mau hola), no ka ʻōlelo Ukrainian - 684 i komo a me 76 mau hola (he 615 i komo a me 66 mau hola). ʻOi aku ma mua o 79 tausani poʻe i komo i ka hoʻomākaukau ʻana i nā mea ma ka ʻōlelo Pelekania, e kuhikuhi ana i 2886 mau hola o ka ʻōlelo i hoʻopaʻa ʻia (aia he 75 tausani mau mea komo a me 2637 mau hola).

E hoʻomanaʻo mākou iā ʻoe ʻo ka papahana Common Voice ke kuhikuhi ʻia i ka hoʻonohonoho ʻana i nā hana hui e hōʻiliʻili i kahi waihona o nā ʻano leo e noʻonoʻo ana i ka ʻokoʻa o nā leo a me nā ʻano ʻōlelo. Kāhea ʻia nā mea hoʻohana i nā huaʻōlelo leo i hōʻike ʻia ma ka pale a i ʻole loiloi i ka maikaʻi o ka ʻikepili i hoʻohui ʻia e nā mea hoʻohana ʻē aʻe. Hiki ke hoʻohana ʻia ka ʻikepili i hōʻiliʻili ʻia me nā moʻolelo o nā ʻōlelo like ʻole o nā huaʻōlelo maʻamau o ka ʻōlelo kanaka me ka ʻole o ke kaohi ʻana i nā ʻōnaehana aʻo mīkini a me nā papahana noiʻi. Wahi a ka mea kākau o ka Vosk mau ʻōlelo hoʻomaopopo ʻana i ka hale waihona puke, ʻo nā hemahema o ka Common Voice set ka one-sidedness o ka mea leo (ka predominance o nā kāne kāne 20-30 makahiki, a me ka nele o nā mea me nā leo wahine. , nā kamaliʻi a me ka poʻe ʻelemakule), ka nele o ka ʻokoʻa i ka puke wehewehe ʻōlelo (ka hana hou ʻana o nā huaʻōlelo like) a me ka hāʻawi ʻana i nā hoʻopaʻa leo i ka format MP3 distorting.

Eia hou, hiki iā mākou ke hoʻomaopopo i ka hoʻokuʻu ʻana o ka NVIDIA NeMo 1.6 toolkit, e hāʻawi ana i nā ʻano aʻo mīkini no ka hoʻokumu ʻana i nā ʻōnaehana ʻike leo, ʻōlelo synthesis a me ka hoʻoponopono ʻōlelo kūlohelohe. Hoʻokomo ʻia ʻo NeMo i nā hiʻohiʻona hoʻomaʻamaʻa mākaukau e hoʻohana no nā ʻōnaehana aʻo mīkini e pili ana i ka framework PyTorch, i hoʻomākaukau ʻia e NVIDIA me ka hoʻohana ʻana i ka ʻikepili leo Common Voice a uhi ʻia i nā ʻano ʻōlelo like ʻole, nā leo a me nā ʻano o ka haʻiʻōlelo. Hiki ke hoʻohana ʻia nā kumu hoʻohālike no ka poʻe noiʻi e hoʻomohala ana i nā ʻōnaehana kamaʻilio ma muli o ka leo, nā paepae transcription, a me nā kikowaena kelepona automated. No ka laʻana, hoʻohana ʻia ʻo NVIDIA NeMo i nā lawelawe leo automated o MTS a me Sberbank. Ua kākau ʻia ka code NeMo ma Python me ka hoʻohana ʻana iā PyTorch a māhele ʻia ma lalo o ka laikini Apache 2.0.

Source: opennet.ru

Pākuʻi i ka manaʻo hoʻopuka