Aġġornament ta' Mozilla Common Voice 8.0

Mozilla ħarġet aġġornament għas-settijiet tad-dejta tagħha tal-Common Voice, li jinkludu kampjuni tal-pronunzja minn kważi 200 persuna. Id-dejta hija ppubblikata bħala dominju pubbliku (CC0). Is-settijiet proposti jistgħu jintużaw f'sistemi ta 'tagħlim tal-magni biex jinbnew mudelli ta' rikonoxximent u sintesi tad-diskors. Meta mqabbel mal-aġġornament preċedenti, il-volum tal-materjal tad-diskors fil-ġbir żdied bi 30% - minn 13.9 għal 18.2 elf siegħa ta 'diskors. In-numru ta' lingwi appoġġjati żdied minn 67 għal 87.

Is-sett għall-lingwa Russa jkopri 2452 parteċipant u 193 siegħa ta 'materjal ta' diskors (kien hemm 2136 parteċipant u 173 siegħa), għal-lingwa Bjelorussa - 6160 parteċipant u 987 siegħa (kien hemm 3831 parteċipant u 356 siegħa), għal-lingwa Ukraina - 684 parteċipant u 76 siegħa (kien hemm 615 parteċipant u 66 siegħa). Aktar minn 79 elf ruħ ħadu sehem fil-preparazzjoni ta 'materjali bl-Ingliż, li jiddettaw 2886 siegħa ta' diskors ikkonfermat (kien hemm 75 elf parteċipant u 2637 siegħa).

Ejjew infakkru li l-proġett Common Voice huwa mmirat biex jorganizza ħidma konġunta biex jakkumula database ta’ mudelli tal-vuċi li tqis id-diversità tal-vuċijiet u stili ta’ diskors. L-utenti huma mistiedna biex vuċi frażijiet murija fuq l-iskrin jew jevalwaw il-kwalità tad-dejta miżjuda minn utenti oħra. Id-database akkumulata b'rekords ta 'diversi pronunzji ta' frażijiet tipiċi ta 'diskors tal-bniedem tista' tintuża mingħajr restrizzjonijiet f'sistemi ta 'tagħlim bil-magni u fi proġetti ta' riċerka. Skond l-awtur tal-librerija ta 'rikonoxximent tad-diskors kontinwu Vosk, l-iżvantaġġi tas-sett tal-Vuċi Komuni huma l-one-sidedness tal-materjal tal-vuċi (il-predominanza ta' nies irġiel 20-30 sena, u n-nuqqas ta 'materjal bil-vuċijiet tan-nisa , tfal u anzjani), in-nuqqas ta’ varjabbiltà fid-dizzjunarju (ripetizzjoni tal-istess frażijiet) u t-tqassim tar-reġistrazzjonijiet fil-format MP3 li jgħawġu.

Barra minn hekk, nistgħu ninnotaw ir-rilaxx tal-għodda NVIDIA NeMo 1.6, li tipprovdi metodi ta 'tagħlim tal-magni għall-ħolqien ta' sistemi ta 'rikonoxximent tad-diskors, sintesi tad-diskors u pproċessar tal-lingwa naturali. NeMo jinkludi mudelli mħarrġa lesti għall-użu għal sistemi ta’ tagħlim bil-magni bbażati fuq il-qafas PyTorch, ippreparati minn NVIDIA bl-użu ta’ data tad-diskors ta’ Common Voice u li jkopru varjetà ta’ lingwi, aċċenti u forom ta’ diskors. Il-mudelli jistgħu jkunu utli għar-riċerkaturi li qed jiżviluppaw sistemi ta’ djalogu bbażati fuq il-vuċi, pjattaformi ta’ traskrizzjoni, u ċentri ta’ sejħiet awtomatizzati. Pereżempju, NVIDIA NeMo jintuża fis-servizzi tal-vuċi awtomatizzati ta 'MTS u Sberbank. Il-kodiċi NeMo huwa miktub f'Python bl-użu ta 'PyTorch u mqassam taħt il-liċenzja Apache 2.0.

Sors: opennet.ru

Żid kumment