Mozilla Common Voice 8.0 Stemmeopdatering

Mozilla har udgivet en opdatering til sine Common Voice-datasæt, som inkluderer udtaleprøver fra næsten 200 mennesker. Dataene er publiceret som public domain (CC0). De foreslåede sæt kan bruges i maskinlæringssystemer til at bygge talegenkendelse og syntesemodeller. Sammenlignet med den tidligere opdatering steg mængden af ​​talemateriale i samlingen med 30% - fra 13.9 til 18.2 tusinde timers tale. Antallet af understøttede sprog er steget fra 67 til 87.

Sættet til det russiske sprog dækker 2452 deltagere og 193 timers talemateriale (der var 2136 deltagere og 173 timer), for det hviderussiske sprog - 6160 deltagere og 987 timer (der var 3831 deltagere og 356 timer), for det ukrainske sprog - 684 deltagere og 76 timer (der var 615 deltagere og 66 timer). Mere end 79 tusinde mennesker deltog i forberedelsen af ​​materialer på engelsk, hvilket dikterede 2886 timers bekræftet tale (der var 75 tusinde deltagere og 2637 timer).

Lad os minde dig om, at Common Voice-projektet har til formål at organisere fælles arbejde for at opbygge en database over stemmemønstre, der tager højde for mangfoldigheden af ​​stemmer og talestile. Brugere inviteres til at stemme sætninger vist på skærmen eller evaluere kvaliteten af ​​data tilføjet af andre brugere. Den akkumulerede database med registreringer af forskellige udtaler af typiske sætninger i menneskelig tale kan bruges uden begrænsninger i maskinlæringssystemer og i forskningsprojekter. Ifølge forfatteren af ​​Vosks kontinuerte talegenkendelsesbibliotek er ulemperne ved Common Voice-sættet stemmematerialets ensidighed (overvægten af ​​mandlige mennesker i alderen 20-30 år og manglen på materiale med kvinders stemmer). , børn og ældre), den manglende variabilitet i ordbogen (gentagelse af de samme sætninger) og distributionen af ​​optagelser i det forvrængende MP3-format.

Derudover kan vi bemærke udgivelsen af ​​NVIDIA NeMo 1.6-værktøjssættet, som giver maskinlæringsmetoder til at skabe talegenkendelsessystemer, talesyntese og naturlig sprogbehandling. NeMo inkluderer klar-til-brug trænede modeller til maskinlæringssystemer baseret på PyTorch-rammeværket, udarbejdet af NVIDIA ved hjælp af Common Voice-taledata og dækker en række forskellige sprog, accenter og taleformer. Modellerne kan være nyttige for forskere, der udvikler stemmebaserede dialogsystemer, transskriptionsplatforme og automatiserede callcentre. For eksempel bruges NVIDIA NeMo i automatiserede taletjenester fra MTS og Sberbank. NeMo-koden er skrevet i Python ved hjælp af PyTorch og distribueret under Apache 2.0-licensen.

Kilde: opennet.ru

Tilføj en kommentar