Mozilla Common Voice 7.0 Update

NVIDIA a Mozilla hunn en Update fir hir Common Voice Datesätz verëffentlecht, déi 182 Leit Riedproben enthalen, erop 25% vu viru 6 Méint. D'Donnéeën ginn als Public Domain (CC0) publizéiert. Déi proposéiert Sets kënnen a Maschinnléieresystemer benotzt ginn fir Riederkennungs- a Synthesemodeller ze bauen.

Am Verglach zum fréiere Update ass d'Gréisst vum Riedmaterial an der Sammlung vun 9 op 13.9 Tausend Stonne Ried eropgaang. D'Zuel vun de ënnerstëtzte Sproochen ass vun 60 op 76 eropgaang, dorënner fir d'éischte Kéier Ënnerstëtzung fir Belarusian, Kasachesch, Usbekesch, Bulgaresch, Armenesch, Aserbaidschan a Bashkir Sproochen. De Set fir déi russesch Sprooch deckt 2136 Participanten an 173 Stonnen Riedmaterial (et waren 1412 Participanten an 111 Stonnen), a fir d'Ukrainesch Sprooch - 615 Participanten a 66 Stonnen (et waren 459 Participanten an 30 Stonnen).

Méi wéi 75 dausend Leit hunn un der Virbereedung vu Materialien op Englesch deelgeholl, diktéiert 2637 Stonnen bestätegt Ried (et waren 66 dausend Participanten an 1686 Stonnen). Interessanterweis ass d'Sprooch op der zweeter Plaz wat d'Quantitéit u cumuléierten Donnéeën ugeet ass Rwanda, fir déi 2260 Stonnen gesammelt goufen. Duerno kommen Däitsch (1040), Katalanesch (920) an Esperanto (840). Ënnert de dynameschste Erhéijung vun der Gréisst vun de Stëmmdaten sinn d'Thai Sprooch (20-fach Erhéijung vun der Basis, vun 12 op 250 Stonnen), Luganda (vun 8 op 80 Stonnen), Esperanto (vun 100 op 840 Stonnen) an Tamil ( 24 bis 220 Uhr).

Als Deel vu senger Participatioun am Common Voice-Projet huet NVIDIA fäerdeg ausgebilte Modeller fir Maschinnléiersystemer virbereet (ënnerstëtzt vu PyTorch) baséiert op de gesammelten Donnéeën. D'Modeller ginn als Deel vum gratis an oppenen NVIDIA NeMo Toolkit verdeelt, deen zum Beispill schonn an den automatiséierte Stëmmservicer vu MTS a Sberbank benotzt gëtt. D'Modeller si geduecht fir an der Riederkennung, der Riedsynthese an der natierlecher Sproochveraarbechtungssystemer ze benotzen, a kënne nëtzlech si fir Fuerscher déi Stëmm-aktivéiert Dialogsystemer, Transkriptiounsplattformen an automatiséiert Callcenter bauen. Am Géigesaz zu virdru verfügbare Projete sinn déi publizéiert Modeller net limitéiert op Englesch Sproocherkennung an decken eng Vielfalt vu Sproochen, Akzenter a Forme vu Ried.

Loosst eis Iech drun erënneren datt de Common Voice Projet zielt fir gemeinsam Aarbecht ze organiséieren fir eng Datebank vu Stëmmmuster ze sammelen déi d'Diversitéit vu Stëmmen a Riedstiler berücksichtegt. D'Benotzer ginn invitéiert op Stëmm Sätze déi um Bildschierm ugewise ginn oder d'Qualitéit vun den Donnéeën vun anere Benotzer evaluéieren. Déi akkumuléiert Datebank mat Opzeechnunge vu verschiddene Aussoe vun typesche Sätze vu mënschlecher Ried kann ouni Restriktiounen a Maschinnléieresystemer an a Fuerschungsprojeten benotzt ginn.

Laut dem Auteur vun der Vosk kontinuéierlecher Riederkennungsbibliothéik sinn d'Nodeeler vum Common Voice Set d'Eenseitegkeet vum Stëmmmaterial (d'Prédominatioun vu männleche Leit 20-30 Joer al, an de Mangel u Material mat de Stëmme vu Fraen , Kanner an eeler Leit), de Mangel u Verännerlechkeet am Wierderbuch (Wiederholung vun de selwechte Sätze) an d'Verdeelung vun Opzeechnungen am verzerrten MP3-Format.

Source: opennet.ru

Setzt e Commentaire