Përditësimi zanor i Mozilla Common Voice 12.0

Mozilla ka përditësuar grupet e të dhënave të saj Common Voice për të përfshirë mostrat e shqiptimit nga mbi 200 njerëz. Të dhënat publikohen si domen publik (CC0). Kompletet e propozuara mund të përdoren në sistemet e mësimit të makinerive për të ndërtuar modele të njohjes dhe sintezës së të folurit.

Krahasuar me përditësimin e mëparshëm, vëllimi i materialit të të folurit në koleksion u rrit nga 23.8 në 25.8 mijë orë fjalim. Më shumë se 88 mijë njerëz morën pjesë në përgatitjen e materialeve në anglisht, duke diktuar 3161 orë fjalim (84 mijë pjesëmarrës dhe 3098 orë). Kompleti për gjuhën bjelloruse mbulon 7903 pjesëmarrës dhe 1419 orë materiale të të folurit (kishte 6965 pjesëmarrës dhe 1217 orë), Rusisht - 2815 pjesëmarrës dhe 229 orë (kishte 2731 pjesëmarrës dhe 215 orë), Uzbekisht - 2092 pjesëmarrës dhe 262 orë ( kishte 2025 pjesëmarrës dhe 258 orë), gjuha ukrainase - 780 pjesëmarrës dhe 87 orë (ishin 759 pjesëmarrës dhe 87 orë).

Projekti Common Voice synon të organizojë punë të përbashkët për të grumbulluar një bazë të dhënash të modeleve të zërit që merr parasysh diversitetin e zërave dhe stilet e të folurit. Përdoruesit ftohen në frazat zanore të shfaqura në ekran ose të vlerësojnë cilësinë e të dhënave të shtuara nga përdoruesit e tjerë. Baza e të dhënave e akumuluar me regjistrime të shqiptimeve të ndryshme të frazave tipike të të folurit njerëzor mund të përdoret pa kufizime në sistemet e mësimit të makinerive dhe në projektet kërkimore.

Burimi: opennet.ru

Shto një koment