Mozilla Common Voice 12.0 radduppfærsla

Mozilla hefur uppfært Common Voice gagnasöfn sín til að innihalda framburðarsýni frá yfir 200 manns. Gögnin eru birt sem almenningseign (CC0). Fyrirhuguð sett er hægt að nota í vélanámskerfum til að byggja upp talgreiningar- og nýmyndunarlíkön.

Samanborið við fyrri uppfærslu jókst magn ræðuefnis í safninu úr 23.8 í 25.8 þúsund ræðustundir. Rúmlega 88 þúsund manns tóku þátt í gerð efnis á ensku, sem réði 3161 klukkustund af ræðu (það voru 84 þúsund þátttakendur og 3098 klukkustundir). Settið fyrir hvítrússneska tungumálið nær yfir 7903 þátttakendur og 1419 klukkustundir af ræðuefni (það voru 6965 þátttakendur og 1217 klukkustundir), rússnesku - 2815 þátttakendur og 229 klukkustundir (það voru 2731 þátttakendur og 215 klukkustundir), Uzbek - 2092 þátttakendur og 262 klukkustundir ( það voru 2025 þátttakendur og 258 klst.), úkraínska - 780 þátttakendur og 87 klst (það voru 759 þátttakendur og 87 klst.).

Sameiginleg rödd verkefnið miðar að því að skipuleggja sameiginlega vinnu við að safna gagnagrunni yfir raddmynstur sem tekur mið af fjölbreytileika radda og talaðferða. Notendum er boðið að raddsetningar sem birtast á skjánum eða meta gæði gagna sem aðrir notendur bæta við. Uppsafnaðan gagnagrunn með skrám yfir ýmsa framburð dæmigerðra orðasambanda manna er hægt að nota án takmarkana í vélanámskerfum og í rannsóknarverkefnum.

Heimild: opennet.ru

Bæta við athugasemd