Diweddariad Llais Cyffredin Mozilla 12.0

Mae Mozilla wedi diweddaru ei setiau data Common Voice i gynnwys samplau ynganu gan dros 200 o bobl. Cyhoeddir y data fel parth cyhoeddus (CC0). Gellir defnyddio'r setiau arfaethedig mewn systemau dysgu peirianyddol i adeiladu modelau adnabod lleferydd a synthesis.

O'i gymharu â'r diweddariad blaenorol, cynyddodd cyfaint y deunydd llafar yn y casgliad o 23.8 i 25.8 mil o oriau lleferydd. Cymerodd mwy na 88 mil o bobl ran yn y gwaith o baratoi deunyddiau yn Saesneg, gan bennu 3161 awr o lefaru (roedd 84 mil o gyfranogwyr a 3098 awr). Mae'r set ar gyfer yr iaith Belarwseg yn cynnwys 7903 o gyfranogwyr a 1419 awr o ddeunydd llafar (roedd 6965 o gyfranogwyr a 1217 awr), Rwsieg - 2815 o gyfranogwyr a 229 awr (roedd 2731 o gyfranogwyr a 215 awr), Wsbeceg - 2092 o gyfranogwyr a 262 awr ( roedd 2025 o gyfranogwyr a 258 awr), iaith Wcreineg - 780 o gyfranogwyr ac 87 awr (roedd 759 o gyfranogwyr ac 87 awr).

Nod prosiect Common Voice yw trefnu gwaith ar y cyd i gronni cronfa ddata o batrymau llais sy'n ystyried amrywiaeth lleisiau ac arddulliau lleferydd. Gwahoddir defnyddwyr i leisio ymadroddion a ddangosir ar y sgrin neu werthuso ansawdd y data a ychwanegir gan ddefnyddwyr eraill. Gellir defnyddio'r gronfa ddata gronedig gyda chofnodion o wahanol ynganiadau ymadroddion nodweddiadol o lefaru dynol heb gyfyngiadau mewn systemau dysgu peirianyddol ac mewn prosiectau ymchwil.

Ffynhonnell: opennet.ru

Ychwanegu sylw