Mozilla Common Voice 7.0 Stemmeopdatering

NVIDIA og Mozilla har udgivet en opdatering til deres Common Voice-datasæt, som omfatter 182 personers taleeksempler, en stigning på 25 % fra for 6 måneder siden. Dataene er publiceret som public domain (CC0). De foreslåede sæt kan bruges i maskinlæringssystemer til at bygge talegenkendelse og syntesemodeller.

Sammenlignet med den tidligere opdatering er størrelsen af ​​talematerialet i samlingen steget fra 9 til 13.9 tusinde timers tale. Antallet af understøttede sprog er steget fra 60 til 76, herunder for første gang støtte til hviderussisk, kasakhisk, usbekisk, bulgarsk, armensk, aserbajdsjansk og bashkirisk sprog. Sættet til det russiske sprog dækker 2136 deltagere og 173 timers talemateriale (der var 1412 deltagere og 111 timer), og for det ukrainske sprog - 615 deltagere og 66 timer (der var 459 deltagere og 30 timer).

Mere end 75 tusinde mennesker deltog i forberedelsen af ​​materialer på engelsk, hvilket dikterede 2637 timers bekræftet tale (der var 66 tusinde deltagere og 1686 timer). Interessant nok er sproget på andenpladsen med hensyn til mængden af ​​akkumulerede data Rwanda, som der er indsamlet 2260 timer til. Herefter følger tysk (1040), catalansk (920) og esperanto (840). Blandt de mest dynamisk stigende størrelse af stemmedata er det thailandske sprog (20 gange stigning i basen, fra 12 til 250 timer), Luganda (fra 8 til 80 timer), esperanto (fra 100 til 840 timer) og tamil ( fra 24 til 220 timer).

Som en del af sin deltagelse i Common Voice-projektet udarbejdede NVIDIA færdige trænede modeller til maskinlæringssystemer (understøttet af PyTorch) baseret på de indsamlede data. Modellerne distribueres som en del af det gratis og åbne NVIDIA NeMo-værktøjssæt, som for eksempel allerede bruges i MTS og Sberbanks automatiserede taletjenester. Modellerne er beregnet til brug i talegenkendelse, talesyntese og naturlige sprogbehandlingssystemer og kan være nyttige for forskere, der bygger stemmeaktiverede dialogsystemer, transskriptionsplatforme og automatiserede callcentre. I modsætning til tidligere tilgængelige projekter er de offentliggjorte modeller ikke begrænset til engelsk sproggenkendelse og dækker en række forskellige sprog, accenter og taleformer.

Lad os minde dig om, at Common Voice-projektet har til formål at organisere fælles arbejde for at opbygge en database over stemmemønstre, der tager højde for mangfoldigheden af ​​stemmer og talestile. Brugere inviteres til at stemme sætninger vist på skærmen eller evaluere kvaliteten af ​​data tilføjet af andre brugere. Den akkumulerede database med registreringer af forskellige udtaler af typiske sætninger i menneskelig tale kan bruges uden begrænsninger i maskinlæringssystemer og i forskningsprojekter.

Ifølge forfatteren af ​​Vosks kontinuerte talegenkendelsesbibliotek er ulemperne ved Common Voice-sættet stemmematerialets ensidighed (overvægten af ​​mandlige mennesker i alderen 20-30 år og manglen på materiale med kvinders stemmer). , børn og ældre), den manglende variabilitet i ordbogen (gentagelse af de samme sætninger) og distributionen af ​​optagelser i det forvrængende MP3-format.

Kilde: opennet.ru

Tilføj en kommentar