Mozilla ĝisdatigis siajn Common Voice-datumaron por inkludi prononcspecimenojn de pli ol 200 homoj. La datumoj estas publikigitaj kiel publika havaĵo (CC0). La proponitaj aroj povas esti uzataj en maŝinlernadsistemoj por konstrui parolrekonon kaj sintezmodelojn. Kompare kun la antaŭa ĝisdatigo, la volumo de parolmaterialo en la kolekto pliiĝis de 28.7 ĝis 30.3 mil horoj da parolo, el kiuj 19.7 mil horoj trapasis la kontrolan proceduron. La nombro da subtenataj lingvoj pliiĝis de 114 ĝis 120 (la jida, latgala, ligura, oseta, telugua kaj okcidenta Sierra Pueblan Naŭatla estis aldonita).
En la preparado de materialoj en la angla partoprenis 90.67 mil homoj, diktante 3438 horojn da parolado (estis 88.9 mil partoprenantoj kaj 3347 horoj). La aro por la belorusa lingvo ampleksas 8249 partoprenantojn kaj 1641 horojn da parolmaterialo (estis 8205 partoprenantoj kaj 1632 horoj), rusa lingvo - 3133 partoprenantoj kaj 265 horoj (estis 3053 partoprenantoj kaj 260 horoj), uzbekaj - 2151 partoprenantoj kaj 264 horoj (estis 2141 partoprenantoj kaj 263 horoj), ukraina lingvo - 1058 partoprenantoj kaj 108 horoj (estis 1024 partoprenantoj kaj 105 horoj).
La projekto Common Voice celas organizi komunan laboron por amasigi datumbazon de voĉaj ŝablonoj, kiu konsideras la diversecon de voĉoj kaj parolstiloj. Uzantoj estas invititaj al voĉfrazoj montritaj sur la ekrano aŭ taksi la kvaliton de datumoj aldonitaj de aliaj uzantoj. La amasigita datumbazo kun registroj de diversaj prononcoj de tipaj frazoj de homa parolo povas esti uzata sen limigo en maŝinlernado-sistemoj kaj en esplorprojektoj.
fonto: opennet.ru
