Mizajou Mozilla Common Voice 8.0

Mozilla te pibliye yon aktyalizasyon nan seri done Common Voice li yo, ki gen ladan echantiyon pwononsyasyon ki soti nan prèske 200 moun. Done yo pibliye kòm domèn piblik (CC0). Ansanm yo pwopoze yo ka itilize nan sistèm aprantisaj machin pou konstwi rekonesans lapawòl ak modèl sentèz. Konpare ak aktyalizasyon anvan an, volim nan materyèl lapawòl nan koleksyon an ogmante pa 30% - soti nan 13.9 a 18.2 mil èdtan nan lapawòl. Kantite lang ki sipòte yo te ogmante de 67 a 87.

Ansanm pou lang Ris la kouvri 2452 patisipan yo ak 193 èdtan nan materyèl lapawòl (te gen 2136 patisipan yo ak 173 èdtan), pou lang Belarisyen an - 6160 patisipan yo ak 987 èdtan (te gen 3831 patisipan yo ak 356 èdtan), pou lang Ukrainian a - 684 patisipan ak 76 èdtan (te gen 615 patisipan ak 66 èdtan). Plis pase 79 mil moun te patisipe nan preparasyon materyèl nan lang angle, dikte 2886 èdtan nan diskou konfime (te gen 75 mil patisipan ak 2637 èdtan).

Ann raple w ke pwojè Common Voice la vize òganize travay ansanm pou akimile yon baz done modèl vwa ki pran an kont divèsite vwa ak estil lapawòl. Itilizatè yo envite pou vwa fraz ki parèt sou ekran an oswa evalye kalite done lòt itilizatè yo ajoute. Ka baz done a akimile ak dosye sou pwononsyasyon divès kalite fraz tipik nan lapawòl moun ka itilize san restriksyon nan sistèm aprantisaj machin ak nan pwojè rechèch. Dapre otè a nan bibliyotèk la Vosk kontinyèl rekonesans lapawòl, dezavantaj yo nan seri a vwa komen yo se yon sèl-sidedness nan materyèl la vwa (dominans nan moun gason 20-30 ane fin vye granmoun, ak mank de materyèl ak vwa yo nan fanm yo). , timoun ak granmoun aje), mank de varyasyon nan diksyonè a (repetisyon nan fraz yo menm) ak distribye anrejistreman nan fòma MP3 ki defòme.

Anplis de sa, nou ka sonje lage zouti NVIDIA NeMo 1.6, ki bay metòd aprantisaj machin pou kreye sistèm rekonesans lapawòl, sentèz lapawòl ak pwosesis langaj natirèl. NeMo gen ladann modèl fòmasyon ki pare pou itilize pou sistèm aprantisaj machin ki baze sou kad PyTorch, NVIDIA prepare lè l sèvi avèk done lapawòl Voix komen epi ki kouvri yon varyete lang, aksan ak fòm lapawòl. Modèl yo ka itil pou chèchè yo devlope sistèm dyalòg ki baze sou vwa, platfòm transkripsyon, ak sant apèl otomatik yo. Pou egzanp, NVIDIA NeMo yo itilize nan sèvis vwa otomatik MTS ak Sberbank. Kòd NeMo a ekri nan Python lè l sèvi avèk PyTorch epi distribye anba lisans Apache 2.0.

Sous: opennet.ru

Add nouvo kòmantè