Mozilla Common Voice 12.0 Voice Update

Gi-update sa Mozilla ang mga datos sa Common Voice niini aron maapil ang mga sample sa paglitok gikan sa kapin sa 200 ka mga tawo. Ang datos gimantala isip public domain (CC0). Ang gisugyot nga mga set mahimong magamit sa mga sistema sa pagkat-on sa makina aron makahimo mga modelo sa pag-ila sa sinultihan ug synthesis.

Kung itandi sa miaging update, ang gidaghanon sa mga materyal sa pagsulti sa koleksyon misaka gikan sa 23.8 ngadto sa 25.8 ka libo nga mga oras sa pagsulti. Labaw sa 88 ka libo ka mga tawo ang miapil sa pag-andam sa mga materyales sa English, nga nagdiktar sa 3161 ka oras sa pagsulti (adunay 84 ka libo nga mga partisipante ug 3098 ka oras). Ang set alang sa Belarusian nga pinulongan naglangkob sa 7903 ka partisipante ug 1419 ka oras nga speech material (adunay 6965 ka partisipante ug 1217 ka oras), Russian - 2815 ka partisipante ug 229 ka oras (adunay 2731 ka partisipante ug 215 ka oras), Uzbek - 2092 ka partisipante ug 262 ka oras ( adunay 2025 ka mga partisipante ug 258 ka oras), Ukrainian nga pinulongan - 780 ka mga partisipante ug 87 ka oras (adunay 759 ka mga partisipante ug 87 ka oras).

Ang proyekto sa Common Voice nagtumong sa pag-organisar sa hiniusang trabaho aron makaipon og database sa mga pattern sa tingog nga nagkonsiderar sa pagkalainlain sa mga tingog ug estilo sa pagsulti. Gidapit ang mga tiggamit sa mga pulong sa tingog nga gipakita sa screen o pagtimbang-timbang sa kalidad sa datos nga gidugang sa ubang mga tiggamit. Ang natipon nga database nga adunay mga rekord sa lain-laing mga paglitok sa tipikal nga hugpong sa mga pulong sa tawhanong sinultihan mahimong magamit nga walay mga pagdili sa mga sistema sa pagkat-on sa makina ug sa mga proyekto sa panukiduki.

Source: opennet.ru

Idugang sa usa ka comment