Ĝisdatigo de Mozilla Common Voice 8.0

Mozilla publikigis ĝisdatigon de siaj datumseroj de Common Voice, kiuj inkluzivas prononcajn specimenojn de preskaŭ 200 homoj. La datumoj estas publikigitaj kiel publika havaĵo (CC0). La proponitaj aroj povas esti uzataj en maŝinlernado-sistemoj por konstrui parolrekonon kaj sintezmodelojn. Kompare kun la antaŭa ĝisdatigo, la volumo de parolmaterialo en la kolekto pliiĝis je 30% - de 13.9 ĝis 18.2 mil horoj da parolo. La nombro da subtenataj lingvoj pliiĝis de 67 al 87.

La aro por la rusa lingvo ampleksas 2452 partoprenantojn kaj 193 horojn da parolmaterialo (estis 2136 partoprenantoj kaj 173 horoj), por la belorusa lingvo - 6160 partoprenantoj kaj 987 horoj (estis 3831 partoprenantoj kaj 356 horoj), por la ukraina lingvo - 684 partoprenantoj kaj 76 horoj (estis 615 partoprenantoj kaj 66 horoj). Pli ol 79 mil homoj partoprenis en la preparado de materialoj en la angla, diktante 2886 horojn da konfirmita parolado (estis 75 mil partoprenantoj kaj 2637 horoj).

Ni memorigu vin, ke la projekto Komuna Voĉo celas organizi komunan laboron por amasigi datumbazon de voĉaj ŝablonoj, kiu konsideras la diversecon de voĉoj kaj parolstiloj. Uzantoj estas invititaj al voĉfrazoj montritaj sur la ekrano aŭ taksi la kvaliton de datumoj aldonitaj de aliaj uzantoj. La amasigita datumbazo kun registroj de diversaj prononcoj de tipaj frazoj de homa parolo povas esti uzata sen limigo en maŝinlernado-sistemoj kaj en esplorprojektoj. Laŭ la aŭtoro de la biblioteko de kontinua parolrekono Vosk, la malavantaĝoj de la aro Komuna Voĉo estas la unuflankeco de la voĉmaterialo (la superrego de viraj homoj 20-30-jaraj, kaj la manko de materialo kun la voĉoj de virinoj. , infanoj kaj maljunuloj), la manko de ŝanĝebleco en la vortaro (ripeto de la samaj frazoj) kaj la dissendo de registradoj en la distordanta MP3-formato.

Aldone, ni povas noti la liberigon de la ilaro de NVIDIA NeMo 1.6, kiu provizas maŝinlernajn metodojn por krei parolrekonajn sistemojn, parolsintezon kaj prilaboradon de natura lingvo. NeMo inkluzivas uzeblajn trejnitajn modelojn por maŝinlernado-sistemoj bazitaj sur la kadro PyTorch, preparita de NVIDIA uzante paroldatenojn de Common Voice kaj kovrante diversajn lingvojn, akcentojn kaj parolformojn. La modeloj povas esti utilaj por esploristoj evoluantaj voĉ-bazitajn dialogsistemojn, transskribajn platformojn kaj aŭtomatigitajn vokcentrojn. Ekzemple, NVIDIA NeMo estas uzata en aŭtomatigitaj voĉservoj de MTS kaj Sberbank. La NeMo-kodo estas skribita en Python uzante PyTorch kaj distribuita sub la licenco Apache 2.0.

fonto: opennet.ru

Aldoni komenton