Mozilla Common Voice 9.0 Update

Mozilla huet en Update fir seng Common Voice Datesätz verëffentlecht, déi Aussprooch Echantillon vu bal 200 Leit enthalen. D'Donnéeën ginn als Public Domain (CC0) publizéiert. Déi proposéiert Sets kënnen a Maschinnléieresystemer benotzt ginn fir Riederkennungs- a Synthesemodeller ze bauen.

Am Verglach zum fréiere Update ass de Volume vu Riedmaterial an der Sammlung ëm 10% eropgaang - vun 18.2 op 20.2 Tausend Stonne Ried. D'Zuel vun de ënnerstëtzte Sproochen ass vun 87 op 93 eropgaang. Fir 27 Sprooche si méi wéi 100 Stonne Rieddaten accumuléiert, a fir 9 - méi wéi 500 Stonnen Rieddaten. Fir 9 Sproochen war et och méiglech en Undeel vun der weiblecher Ried vu mindestens 45% z'erreechen.

Méi wéi 81 Tausend Leit hunn un der Virbereedung vun Material op Englesch deelgeholl, diktéiert 2953 Stonnen Ried (et waren 79 Tausend Participanten an 2886 Stonnen). De Set fir déi wäissrussesch Sprooch deckt 6326 Participanten an 1054 Stonnen Riedmaterial (et waren 6160 Participanten an 987 Stonnen), Russesch - 2585 Participanten an 201 Stonnen (et waren 2452 Participanten an 193 Stonnen), Usbekesch - 1503 Participanten an 231 Stonnen ( et waren 1355 Participanten an 227 Stonnen), Ukrainesch Sprooch - 696 Participanten an 79 Stonnen (et waren 684 Participanten an 76 Stonnen).

De Common Voice-Projet zielt fir gemeinsam Aarbecht ze organiséieren fir eng Datebank vu Stëmmmuster ze sammelen déi d'Diversitéit vu Stëmmen a Riedstiler berücksichtegt. D'Benotzer ginn invitéiert op Stëmm Sätze déi um Bildschierm ugewise ginn oder d'Qualitéit vun den Donnéeën vun anere Benotzer evaluéieren. Déi akkumuléiert Datebank mat Opzeechnunge vu verschiddene Aussoe vun typesche Sätze vu mënschlecher Ried kann ouni Restriktiounen a Maschinnléieresystemer an a Fuerschungsprojeten benotzt ginn.

Source: opennet.ru

Setzt e Commentaire