Ĝisdatigo de Mozilla Common Voice 12.0

Mozilla ĝisdatigis siajn Common Voice-datumaron por inkludi prononcspecimenojn de pli ol 200 homoj. La datumoj estas publikigitaj kiel publika havaĵo (CC0). La proponitaj aroj povas esti uzataj en maŝinlernado-sistemoj por konstrui parolrekonon kaj sintezmodelojn.

Kompare kun la antaŭa ĝisdatigo, la volumo de parolmaterialo en la kolekto pliiĝis de 23.8 ĝis 25.8 mil horoj da parolo. Pli ol 88 mil homoj partoprenis en la preparado de materialoj en la angla, diktante 3161 horojn da parolado (estis 84 mil partoprenantoj kaj 3098 horoj). La aro por la belorusa lingvo ampleksas 7903 partoprenantojn kaj 1419 horojn da parolmaterialo (estis 6965 partoprenantoj kaj 1217 horoj), rusa - 2815 partoprenantoj kaj 229 horoj (estis 2731 partoprenantoj kaj 215 horoj), uzbeka - 2092 partoprenantoj kaj 262 horoj ( estis 2025 partoprenantoj kaj 258 horoj), ukraina lingvo - 780 partoprenantoj kaj 87 horoj (estis 759 partoprenantoj kaj 87 horoj).

La projekto Common Voice celas organizi komunan laboron por amasigi datumbazon de voĉaj ŝablonoj, kiu konsideras la diversecon de voĉoj kaj parolstiloj. Uzantoj estas invititaj al voĉfrazoj montritaj sur la ekrano aŭ taksi la kvaliton de datumoj aldonitaj de aliaj uzantoj. La amasigita datumbazo kun registroj de diversaj prononcoj de tipaj frazoj de homa parolo povas esti uzata sen limigo en maŝinlernado-sistemoj kaj en esplorprojektoj.

fonto: opennet.ru

Aldoni komenton