Aġġornament ta' Mozilla Common Voice 7.0

NVIDIA u Mozilla ħarġu aġġornament għas-settijiet tad-dejta tal-Common Voice tagħhom, li jinkludu kampjuni tad-diskors ta’ 182 persuna, b’25% ogħla minn 6 xhur ilu. Id-dejta hija ppubblikata bħala dominju pubbliku (CC0). Is-settijiet proposti jistgħu jintużaw f'sistemi ta 'tagħlim tal-magni biex jinbnew mudelli ta' rikonoxximent u sintesi tad-diskors.

Meta mqabbel mal-aġġornament preċedenti, id-daqs tal-materjal tad-diskors fil-ġbir żdied minn 9 għal 13.9 elf siegħa ta 'diskors. In-numru ta' lingwi appoġġjati żdied minn 60 għal 76, inkluż għall-ewwel darba appoġġ għal-lingwi Bjelorussi, Każakki, Użbeki, Bulgari, Armeni, Ażerbajġani u Bashkir. Is-sett għall-lingwa Russa jkopri 2136 parteċipant u 173 siegħa ta 'materjal ta' diskors (kien hemm 1412 parteċipant u 111 siegħa), u għall-lingwa Ukraina - 615 parteċipant u 66 siegħa (kien hemm 459 parteċipant u 30 siegħa).

Aktar minn 75 elf ruħ ħadu sehem fil-preparazzjoni ta 'materjali bl-Ingliż, li jiddettaw 2637 siegħa ta' diskors ikkonfermat (kien hemm 66 elf parteċipant u 1686 siegħa). Interessanti, il-lingwa fit-tieni post f'termini tal-ammont ta 'dejta akkumulata hija r-Rwanda, li għaliha nġabru 2260 siegħa. Dan huwa segwit mill-Ġermaniż (1040), Katalan (920) u Esperanto (840). Fost l-aktar li qed jiżdiedu b'mod dinamiku d-daqs tad-dejta tal-vuċi hemm il-lingwa Tajlandiża (żieda ta' 20 darba fil-bażi, minn 12 għal 250 siegħa), Luganda (minn 8 sa 80 siegħa), Esperanto (minn 100 sa 840 siegħa) u Tamil ( minn 24 sa 220 siegħa).sigħat).

Bħala parti mill-parteċipazzjoni tagħha fil-proġett Common Voice, NVIDIA ħejjiet mudelli mħarrġa lesti għal sistemi ta’ tagħlim bil-magni (appoġġati minn PyTorch) ibbażati fuq id-dejta miġbura. Il-mudelli huma mqassma bħala parti mill-għodda NVIDIA NeMo b'xejn u miftuħa, li, pereżempju, diġà tintuża fis-servizzi awtomatizzati tal-vuċi ta 'MTS u Sberbank. Il-mudelli huma maħsuba għall-użu f'sistemi ta' rikonoxximent tad-diskors, sintesi tad-diskors u ipproċessar tal-lingwa naturali, u jistgħu jkunu utli għar-riċerkaturi li jibnu sistemi ta' djalogu attivati ​​bil-vuċi, pjattaformi ta' traskrizzjoni, u ċentri tat-telefonati awtomatizzati. B'differenza għal proġetti disponibbli qabel, il-mudelli ppubblikati mhumiex limitati għar-rikonoxximent tal-lingwa Ingliża u jkopru varjetà ta' lingwi, aċċenti u forom ta' diskors.

Ejjew infakkru li l-proġett Common Voice huwa mmirat biex jorganizza ħidma konġunta biex jakkumula database ta’ mudelli tal-vuċi li tqis id-diversità tal-vuċijiet u stili ta’ diskors. L-utenti huma mistiedna biex vuċi frażijiet murija fuq l-iskrin jew jevalwaw il-kwalità tad-dejta miżjuda minn utenti oħra. Id-database akkumulata b'rekords ta 'diversi pronunzji ta' frażijiet tipiċi ta 'diskors tal-bniedem tista' tintuża mingħajr restrizzjonijiet f'sistemi ta 'tagħlim bil-magni u fi proġetti ta' riċerka.

Skond l-awtur tal-librerija ta 'rikonoxximent tad-diskors kontinwu Vosk, l-iżvantaġġi tas-sett tal-Vuċi Komuni huma l-one-sidedness tal-materjal tal-vuċi (il-predominanza ta' nies irġiel 20-30 sena, u n-nuqqas ta 'materjal bil-vuċijiet tan-nisa , tfal u anzjani), in-nuqqas ta’ varjabbiltà fid-dizzjunarju (ripetizzjoni tal-istess frażijiet) u d-distribuzzjoni ta’ reġistrazzjonijiet fil-format MP3 li jgħawġu.

Sors: opennet.ru

Żid kumment