Ĝisdatigo de Mozilla Common Voice 7.0

NVIDIA kaj Mozilla publikigis ĝisdatigon de siaj datumseroj de Common Voice, kiuj inkluzivas 182 parolspecimenojn de homoj, pli ol 25% ol antaŭ 6 monatoj. La datumoj estas publikigitaj kiel publika havaĵo (CC0). La proponitaj aroj povas esti uzataj en maŝinlernadsistemoj por konstrui parolrekonon kaj sintezmodelojn.

Kompare kun la antaŭa ĝisdatigo, la grandeco de la parolmaterialo en la kolekto pliiĝis de 9 ĝis 13.9 mil horoj da parolo. La nombro da subtenataj lingvoj pliiĝis de 60 al 76, inkluzive de unuafoje subteno por belorusa, kazaĥa, uzbeka, bulgara, armena, azera kaj baŝkira lingvoj. La aro por la rusa lingvo ampleksas 2136 partoprenantojn kaj 173 horojn da parolmaterialo (estis 1412 partoprenantoj kaj 111 horoj), kaj por la ukraina lingvo - 615 partoprenantoj kaj 66 horoj (estis 459 partoprenantoj kaj 30 horoj).

Pli ol 75 mil homoj partoprenis en la preparado de materialoj en la angla, diktante 2637 horojn da konfirmita parolado (estis 66 mil partoprenantoj kaj 1686 horoj). Interese, la lingvo en la dua loko laŭ la kvanto de akumulitaj datumoj estas Ruando, por kiu kolektiĝis 2260 horoj. Sekvas la germana (1040), la kataluna (920) kaj Esperanto (840). Inter la plej dinamike pliiĝantaj la grandeco de voĉaj datumoj estas la tajlanda lingvo (20-obla pliiĝo en la bazo, de 12 ĝis 250 horoj), Lugando (de 8 ĝis 80 horoj), Esperanto (de 100 ĝis 840 horoj) kaj la tamila ( de 24 ĝis 220 horoj). horoj).

Kadre de ĝia partopreno en la projekto Common Voice, NVIDIA preparis pretajn trejnitajn modelojn por maŝinlernado-sistemoj (subtenataj de PyTorch) surbaze de la kolektitaj datumoj. La modeloj estas distribuitaj kiel parto de la senpaga kaj malfermita NVIDIA NeMo ilaro, kiu, ekzemple, jam estas uzata en la aŭtomatigitaj voĉservoj de MTS kaj Sberbank. La modeloj estas destinitaj por uzo en parolrekono, parolsintezo, kaj naturlingvaj pretigaj sistemoj, kaj povas esti utilaj por esploristoj konstruantaj voĉ-aktivigitajn dialogsistemojn, transskribajn platformojn kaj aŭtomatigitajn vokcentrojn. Male al antaŭe disponeblaj projektoj, la publikigitaj modeloj ne estas limigitaj al anglalingva rekono kaj kovras diversajn lingvojn, akĉentojn kaj parolformojn.

Ni memorigu vin, ke la projekto Komuna Voĉo celas organizi komunan laboron por amasigi datumbazon de voĉaj ŝablonoj, kiu konsideras la diversecon de voĉoj kaj parolstiloj. Uzantoj estas invititaj al voĉfrazoj montritaj sur la ekrano aŭ taksi la kvaliton de datumoj aldonitaj de aliaj uzantoj. La amasigita datumbazo kun registroj de diversaj prononcoj de tipaj frazoj de homa parolo povas esti uzata sen limigo en maŝinlernado-sistemoj kaj en esplorprojektoj.

Laŭ la aŭtoro de la biblioteko de kontinua parolrekono Vosk, la malavantaĝoj de la aro Komuna Voĉo estas la unuflankeco de la voĉmaterialo (la superrego de viraj homoj 20-30-jaraj, kaj la manko de materialo kun la voĉoj de virinoj. , infanoj kaj maljunuloj), la manko de ŝanĝebleco en la vortaro (ripeto de la samaj frazoj) kaj la dissendo de registradoj en la distordanta MP3-formato.

fonto: opennet.ru

Aldoni komenton