Mozilla Common Voice 8.0-oppdatering

Mozilla har gitt ut en oppdatering til sine Common Voice-datasett, som inkluderer uttaleprøver fra nesten 200 0 personer. Dataene er publisert som offentlig eiendom (CC30). De foreslåtte settene kan brukes i maskinlæringssystemer for å bygge talegjenkjennings- og syntesemodeller. Sammenlignet med forrige oppdatering økte volumet av talemateriale i samlingen med 13.9% - fra 18.2 til 67 tusen timer med tale. Antall støttede språk har økt fra 87 til XNUMX.

Settet for det russiske språket dekker 2452 deltakere og 193 timer med talemateriale (det var 2136 deltakere og 173 timer), for det hviterussiske språket - 6160 deltakere og 987 timer (det var 3831 deltakere og 356 timer), for det ukrainske språket - 684 deltakere og 76 timer (det var 615 deltakere og 66 timer). Mer enn 79 tusen mennesker deltok i utarbeidelsen av materiell på engelsk, og dikterte 2886 timer med bekreftet tale (det var 75 tusen deltakere og 2637 timer).

La oss minne om at Common Voice-prosjektet har som mål å organisere felles arbeid for å akkumulere en database med stemmemønstre som tar hensyn til mangfoldet av stemmer og talestiler. Brukere inviteres til å stemme fraser som vises på skjermen eller evaluere kvaliteten på data som er lagt til av andre brukere. Den akkumulerte databasen med registreringer av ulike uttaler av typiske uttrykk for menneskelig tale kan brukes uten begrensninger i maskinlæringssystemer og i forskningsprosjekter. I følge forfatteren av Vosks kontinuerlige talegjenkjenningsbibliotek er ulempene med Common Voice-settet ensidigheten til stemmematerialet (overvekten av menn i alderen 20-30 år, og mangelen på materiale med stemmene til kvinner). , barn og eldre), mangelen på variasjon i ordboken (repetisjon av de samme frasene) og distribusjon av opptak i det forvrengende MP3-formatet.

I tillegg kan vi merke utgivelsen av NVIDIA NeMo 1.6-verktøysettet, som gir maskinlæringsmetoder for å lage talegjenkjenningssystemer, talesyntese og naturlig språkbehandling. NeMo inkluderer ferdige opplærte modeller for maskinlæringssystemer basert på PyTorch-rammeverket, utarbeidet av NVIDIA ved bruk av Common Voice-taledata og som dekker en rekke språk, aksenter og taleformer. Modellene kan være nyttige for forskere som utvikler stemmebaserte dialogsystemer, transkripsjonsplattformer og automatiserte callsentre. For eksempel brukes NVIDIA NeMo i automatiserte taletjenester til MTS og Sberbank. NeMo-koden er skrevet i Python ved hjelp av PyTorch og distribuert under Apache 2.0-lisensen.

Kilde: opennet.ru

Legg til en kommentar