NVIDIA investas 1.5 milionojn USD en projekto Mozilla Common Voice

NVIDIA investas $1.5 milionojn en la projekto Mozilla Common Voice. Intereso pri parolrekonaj sistemoj devenas de la antaŭdiro, ke dum la venontaj dek jaroj, voĉteknologio fariĝos unu el la ĉefaj manieroj kiel homoj interagas kun aparatoj, kiuj iras de komputiloj kaj telefonoj ĝis ciferecaj asistantoj kaj kioskoj.

La agado de voĉsistemoj estas tre dependa de la volumeno kaj diverseco de voĉdatenoj haveblaj por trejnado de maŝinlernado-modeloj. La hodiaŭa voĉteknologio ĉefe temigas anglalingvan rekonon kaj ne kovras la vastan aron da lingvoj, akcentoj kaj parolmanieroj. La investo helpos akceli la kreskon de publikaj voĉaj datumoj, engaĝi pli da komunumoj kaj volontuloj, kaj pligrandigi la nombron de plentempaj projektaj dungitoj.

Ni memorigu vin, ke la projekto Komuna Voĉo celas organizi komunan laboron por amasigi datumbazon de voĉaj ŝablonoj, kiu konsideras la diversecon de voĉoj kaj parolstiloj. Uzantoj estas invititaj al voĉfrazoj montritaj sur la ekrano aŭ taksi la kvaliton de datumoj aldonitaj de aliaj uzantoj. La amasigita datumbazo kun registroj de diversaj prononcoj de tipaj frazoj de homa parolo povas esti uzata sen limigo en maŝinlernado-sistemoj kaj en esplorprojektoj.

La Common Voice-aro nuntempe inkluzivas prononcekzemplojn de pli ol 164 homoj. Ĉirkaŭ 9 mil horoj da voĉaj datumoj estis akumulitaj en 60 malsamaj lingvoj. La aro por la rusa lingvo ampleksas 1412 partoprenantojn kaj 111 horojn da parolmaterialo, kaj por la ukraina lingvo - 459 partoprenantoj kaj 30 horoj. Por komparo, pli ol 66 mil homoj partoprenis en la preparado de materialoj en la angla, diktante 1686 horojn da kontrolita parolado. La proponitaj aroj povas esti uzataj en maŝinlernadsistemoj por konstrui parolrekonon kaj sintezmodelojn. La datumoj estas publikigitaj kiel publika havaĵo (CC0).

Laŭ la aŭtoro de la biblioteko de kontinua parolrekono Vosk, la malavantaĝoj de la aro Komuna Voĉo estas la unuflankeco de la voĉmaterialo (la superrego de viraj homoj 20-30-jaraj, kaj la manko de materialo kun la voĉoj de virinoj. , infanoj kaj maljunuloj), la manko de ŝanĝebleco en la vortaro (ripeto de la samaj frazoj) kaj la dissendo de registradoj en la distordanta MP3-formato.

fonto: opennet.ru

Aldoni komenton