Mozilla Common Voice 7.0-oppdatering

NVIDIA og Mozilla har gitt ut en oppdatering til sine Common Voice-datasett, som inkluderer 182 25 personers taleprøver, opp 6 % fra for 0 måneder siden. Dataene er publisert som offentlig eiendom (CCXNUMX). De foreslåtte settene kan brukes i maskinlæringssystemer for å bygge talegjenkjennings- og syntesemodeller.

Sammenlignet med forrige oppdatering har størrelsen på talematerialet i samlingen økt fra 9 til 13.9 tusen timer med tale. Antall støttede språk har økt fra 60 til 76, inkludert for første gang støtte for hviterussisk, kasakhisk, usbekisk, bulgarsk, armensk, aserbajdsjansk og bashkirisk. Settet for det russiske språket dekker 2136 deltakere og 173 timer med talemateriale (det var 1412 deltakere og 111 timer), og for det ukrainske språket - 615 deltakere og 66 timer (det var 459 deltakere og 30 timer).

Mer enn 75 tusen mennesker deltok i utarbeidelsen av materiell på engelsk, og dikterte 2637 timer med bekreftet tale (det var 66 tusen deltakere og 1686 timer). Interessant nok er språket på andreplass når det gjelder mengden akkumulert data, Rwanda, som det er samlet inn 2260 timer for. Deretter følger tysk (1040), katalansk (920) og esperanto (840). Blant de mest dynamisk økende størrelsen på taledata er det thailandske språket (20 ganger økning i basen, fra 12 til 250 timer), Luganda (fra 8 til 80 timer), esperanto (fra 100 til 840 timer) og tamilsk ( fra 24 til 220 timer).

Som en del av sin deltakelse i Common Voice-prosjektet utarbeidet NVIDIA ferdige trenede modeller for maskinlæringssystemer (støttet av PyTorch) basert på de innsamlede dataene. Modellene distribueres som en del av det gratis og åpne NVIDIA NeMo-verktøysettet, som for eksempel allerede brukes i de automatiserte taletjenestene til MTS og Sberbank. Modellene er ment for bruk i talegjenkjenning, talesyntese og naturlig språkbehandlingssystemer, og kan være nyttige for forskere som bygger stemmeaktiverte dialogsystemer, transkripsjonsplattformer og automatiserte callsentre. I motsetning til tidligere tilgjengelige prosjekter, er de publiserte modellene ikke begrenset til engelsk språkgjenkjenning og dekker en rekke språk, aksenter og taleformer.

La oss minne om at Common Voice-prosjektet har som mål å organisere felles arbeid for å akkumulere en database med stemmemønstre som tar hensyn til mangfoldet av stemmer og talestiler. Brukere inviteres til å stemme fraser som vises på skjermen eller evaluere kvaliteten på data som er lagt til av andre brukere. Den akkumulerte databasen med registreringer av ulike uttaler av typiske uttrykk for menneskelig tale kan brukes uten begrensninger i maskinlæringssystemer og i forskningsprosjekter.

I følge forfatteren av Vosks kontinuerlige talegjenkjenningsbibliotek er ulempene med Common Voice-settet ensidigheten til stemmematerialet (overvekten av menn i alderen 20-30 år, og mangelen på materiale med stemmene til kvinner). , barn og eldre), mangelen på variasjon i ordboken (repetisjon av de samme frasene) og distribusjon av opptak i det forvrengende MP3-formatet.

Kilde: opennet.ru

Legg til en kommentar