Mozilla Common Voice 9.0 Nuashonrú Gutha

D'eisigh Mozilla nuashonrú ar a thacair sonraí Common Voice, lena n-áirítear samplaí fuaimniú ó bheagnach 200 duine. Foilsítear na sonraí mar fhearann ​​poiblí (CC0). Is féidir na tacair atá beartaithe a úsáid i gcórais mheaisínfhoghlama chun samhlacha aitheantais cainte agus sintéise a thógáil.

I gcomparáid leis an nuashonrú roimhe seo, tháinig méadú 10% ar líon na n-ábhar cainte sa bhailiúchán - ó 18.2 go 20.2 míle uair an chloig cainte. Tá méadú tagtha ar líon na dteangacha a fhaigheann tacaíocht ó 87 go 93. I gcás 27 teanga, tá níos mó ná 100 uair an chloig de shonraí cainte carntha, agus le haghaidh 9 - níos mó ná 500 uair an chloig de shonraí cainte. I gcás 9 dteanga bhí sé indéanta freisin sciar de chaint na mban a bhaint amach de 45% ar a laghad.

Ghlac níos mó ná 81 míle duine páirt in ullmhú na n-ábhar i mBéarla, a dheachtú 2953 uair an chloig de chaint (bhí 79 míle rannpháirtí agus 2886 uair an chloig). Clúdaíonn an tacar don teanga Bealarúisis 6326 rannpháirtí agus 1054 uair an chloig d'ábhar cainte (bhí 6160 rannpháirtí agus 987 uair an chloig), Rúisis - 2585 rannpháirtí agus 201 uair an chloig (bhí 2452 rannpháirtí agus 193 uair an chloig), Úisbéicis - 1503 rannpháirtí agus 231 uair an chloig ( bhí 1355 rannpháirtí agus 227 uair an chloig), teanga Úcráinis - 696 rannpháirtí agus 79 uair an chloig (bhí 684 rannpháirtí agus 76 uair an chloig).

Tá sé mar aidhm ag an tionscadal Common Voice obair chomhpháirteach a eagrú chun bunachar sonraí de phatrúin gutha a bhailiú a chuireann éagsúlacht guthanna agus stíleanna cainte san áireamh. Tugtar cuireadh d’úsáideoirí frásaí gutha ar taispeáint ar an scáileán nó cáilíocht na sonraí a chuireann úsáideoirí eile leis a mheas. Is féidir an bunachar sonraí carntha ina bhfuil taifid ar fhuaimniú éagsúla frásaí tipiciúla cainte daonna a úsáid gan srianta i gcórais mheaisínfhoghlama agus i dtionscadail taighde.

Foinse: oscailtenet.ru

Add a comment