Mozilla Common Voice 9.0 radduppfærsla

Mozilla hefur gefið út uppfærslu á Common Voice gagnapakkanum sínum, sem innihalda framburðarsýni frá næstum 200 manns. Gögnin eru birt sem almenningseign (CC0). Fyrirhuguð sett er hægt að nota í vélanámskerfum til að byggja upp talgreiningar- og nýmyndunarlíkön.

Í samanburði við fyrri uppfærslu jókst magn talefnis í safninu um 10% - úr 18.2 í 20.2 þúsund talstundir. Fjöldi studdra tungumála hefur aukist úr 87 í 93. Fyrir 27 tungumál hafa safnast meira en 100 klukkustundir af talgögnum og fyrir 9 - meira en 500 klukkustundir af talgögnum. Fyrir 9 tungumál var einnig hægt að ná hlutfalli kvenkyns talmáls upp á að minnsta kosti 45%.

Rúmlega 81 þúsund manns tóku þátt í gerð efnis á ensku, sem réði 2953 klukkustundum af ræðu (það voru 79 þúsund þátttakendur og 2886 klukkustundir). Settið fyrir hvítrússneska tungumálið nær yfir 6326 þátttakendur og 1054 klukkustundir af ræðuefni (það voru 6160 þátttakendur og 987 klukkustundir), rússnesku - 2585 þátttakendur og 201 klukkustund (það voru 2452 þátttakendur og 193 klukkustundir), Uzbek - 1503 þátttakendur og 231 klukkustund ( það voru 1355 þátttakendur og 227 klukkustundir), úkraínska - 696 þátttakendur og 79 klukkustundir (það voru 684 þátttakendur og 76 klukkustundir).

Sameiginleg rödd verkefnið miðar að því að skipuleggja sameiginlega vinnu við að safna gagnagrunni yfir raddmynstur sem tekur mið af fjölbreytileika radda og talaðferða. Notendum er boðið að raddsetningar sem birtast á skjánum eða meta gæði gagna sem aðrir notendur bæta við. Uppsafnaðan gagnagrunn með skrám yfir ýmsa framburð dæmigerðra orðasambanda manna er hægt að nota án takmarkana í vélanámskerfum og í rannsóknarverkefnum.

Heimild: opennet.ru

Bæta við athugasemd