Mozilla Common Voice 8.0 Voice Update

Ang Mozilla nagpagawas ug update sa Common Voice datasets niini, nga naglakip sa mga sample sa paglitok gikan sa halos 200 ka tawo. Ang datos gimantala isip public domain (CC0). Ang gisugyot nga mga set mahimong magamit sa mga sistema sa pagkat-on sa makina aron makahimo mga modelo sa pag-ila sa sinultihan ug synthesis. Kung itandi sa miaging pag-update, ang gidaghanon sa materyal sa pagsulti sa koleksyon misaka sa 30% - gikan sa 13.9 hangtod 18.2 ka libo nga oras sa pagsulti. Ang gidaghanon sa gisuportahan nga mga pinulongan miuswag gikan sa 67 ngadto sa 87.

Ang set alang sa Russian nga pinulongan naglangkob sa 2452 ka partisipante ug 193 ka oras nga speech material (adunay 2136 ka partisipante ug 173 ka oras), alang sa Belarusian nga pinulongan - 6160 ka partisipante ug 987 ka oras (adunay 3831 ka partisipante ug 356 ka oras), alang sa Ukrainian nga pinulongan - 684 ka partisipante ug 76 ka oras (adunay 615 ka partisipante ug 66 ka oras). Kapin sa 79 ka libo ka mga tawo ang miapil sa pag-andam sa mga materyales sa English, nga nagdiktar sa 2886 ka oras nga gikumpirma nga sinultihan (adunay 75 ka libo nga mga partisipante ug 2637 ka oras).

Pahinumdoman ka namo nga ang proyekto sa Common Voice gitumong sa pag-organisar sa hiniusang trabaho aron makatigom og database sa mga pattern sa tingog nga nagkonsiderar sa pagkalain-lain sa mga tingog ug mga estilo sa pagsulti. Gidapit ang mga tiggamit sa mga pulong sa tingog nga gipakita sa screen o pagtimbang-timbang sa kalidad sa datos nga gidugang sa ubang mga tiggamit. Ang natipon nga database nga adunay mga rekord sa lain-laing mga paglitok sa tipikal nga hugpong sa mga pulong sa tawhanong sinultihan mahimong magamit nga walay mga pagdili sa mga sistema sa pagkat-on sa makina ug sa mga proyekto sa panukiduki. Sumala sa tagsulat sa Vosk padayon nga speech recognition library, ang mga disadvantages sa Common Voice set mao ang one-sidedness sa voice material (ang predominance sa mga lalaki nga 20-30 anyos, ug ang kakulang sa materyal nga adunay mga tingog sa mga babaye. , mga bata ug mga tigulang), ang kakulang sa kabag-ohan sa diksyonaryo (pagsubli sa parehas nga hugpong sa mga pulong) ug ang pag-apod-apod sa mga rekording sa gituis nga format sa MP3.

Dugang pa, mamatikdan nato ang pagpagawas sa NVIDIA NeMo 1.6 toolkit, nga naghatag og mga pamaagi sa pagkat-on sa makina alang sa paghimo sa mga sistema sa pag-ila sa sinultihan, speech synthesis ug natural nga pagproseso sa pinulongan. Ang NeMo naglakip sa andam nga gamiton nga nabansay nga mga modelo alang sa mga sistema sa pagkat-on sa makina base sa PyTorch framework, nga giandam sa NVIDIA gamit ang Common Voice speech data ug naglangkob sa lain-laing mga pinulongan, accent ug porma sa sinultihan. Mahimong mapuslanon ang mga modelo alang sa mga tigdukiduki nga nagpalambo sa mga sistema sa diyalogo nga nakabase sa tingog, mga platform sa transkripsyon, ug mga automated nga call center. Pananglitan, ang NVIDIA NeMo gigamit sa mga awtomatikong serbisyo sa tingog sa MTS ug Sberbank. Ang NeMo code gisulat sa Python gamit ang PyTorch ug giapod-apod ubos sa Apache 2.0 nga lisensya.

Source: opennet.ru

Idugang sa usa ka comment