Ĝisdatigo de Mozilla Common Voice 9.0

Mozilla publikigis ĝisdatigon de siaj datumseroj de Common Voice, kiuj inkluzivas prononcajn specimenojn de preskaŭ 200 homoj. La datumoj estas publikigitaj kiel publika havaĵo (CC0). La proponitaj aroj povas esti uzataj en maŝinlernado-sistemoj por konstrui parolrekonon kaj sintezmodelojn.

Kompare kun la antaŭa ĝisdatigo, la volumo de parolmaterialo en la kolekto pliiĝis je 10% - de 18.2 ĝis 20.2 mil horoj da parolo. La nombro da subtenataj lingvoj pliiĝis de 87 al 93. Por 27 lingvoj, pli ol 100 horoj da paroldatenoj akumuliĝis, kaj dum 9 - pli ol 500 horoj da paroldatenoj. Por 9 lingvoj ankaŭ eblis atingi parton de ina parolado de almenaŭ 45%.

Pli ol 81 mil homoj partoprenis en la preparado de materialoj en la angla, diktante 2953 horojn da parolado (estis 79 mil partoprenantoj kaj 2886 horoj). La aro por la belorusa lingvo ampleksas 6326 partoprenantojn kaj 1054 horojn da parolmaterialo (estis 6160 partoprenantoj kaj 987 horoj), rusa - 2585 partoprenantoj kaj 201 horoj (estis 2452 partoprenantoj kaj 193 horoj), uzbekaj - 1503 partoprenantoj kaj 231 horoj ( estis 1355 partoprenantoj kaj 227 horoj), ukraina lingvo - 696 partoprenantoj kaj 79 horoj (estis 684 partoprenantoj kaj 76 horoj).

La projekto Common Voice celas organizi komunan laboron por amasigi datumbazon de voĉaj ŝablonoj, kiu konsideras la diversecon de voĉoj kaj parolstiloj. Uzantoj estas invititaj al voĉfrazoj montritaj sur la ekrano aŭ taksi la kvaliton de datumoj aldonitaj de aliaj uzantoj. La amasigita datumbazo kun registroj de diversaj prononcoj de tipaj frazoj de homa parolo povas esti uzata sen limigo en maŝinlernado-sistemoj kaj en esplorprojektoj.

fonto: opennet.ru

Aldoni komenton