Mozilo ĝisdatigis siajn datumarojn Common Voice, kiuj inkluzivas prononcajn specimenojn de pli ol 200 0 homoj. La datumoj estas publikigitaj kiel publika havaĵo (CCXNUMX). La proponitaj datumaroj povas esti uzataj en maŝinlernadaj sistemoj por konstrui parolrekonajn kaj sintezajn modelojn.
Kompare kun la antaŭa ĝisdatigo, la volumeno de paroladmaterialo en la kolekto pliiĝis de 23.8 ĝis 25.8 mil horoj da parolado. Pli ol 88 mil homoj partoprenis en la preparado de materialoj en la angla, diktante 3161 horojn da parolado (estis 84 mil partoprenantoj kaj 3098 horoj). La aro por la belorusa lingvo inkluzivas 7903 partoprenantojn kaj 1419 horojn da paroladmaterialo (estis 6965 partoprenantoj kaj 1217 horoj), la rusan - 2815 partoprenantojn kaj 229 horojn (estis 2731 partoprenantoj kaj 215 horoj), la uzbekan - 2092 partoprenantojn kaj 262 horojn (estis 2025 partoprenantoj kaj 258 horoj), la ukrainan - 780 partoprenantojn kaj 87 horojn (estis 759 partoprenantoj kaj 87 horoj).
La projekto Common Voice celas organizi komunan laboron por amasigi datumbazon de voĉaj ŝablonoj, kiu konsideras la diversecon de voĉoj kaj parolstiloj. Uzantoj estas invititaj al voĉfrazoj montritaj sur la ekrano aŭ taksi la kvaliton de datumoj aldonitaj de aliaj uzantoj. La amasigita datumbazo kun registroj de diversaj prononcoj de tipaj frazoj de homa parolo povas esti uzata sen limigo en maŝinlernado-sistemoj kaj en esplorprojektoj.
fonto: opennet.ru
