Mozilla Common Voice 7.0 Voice Update

NVIDIA ja Mozilla ovat julkaisseet päivityksen Common Voice -tietosarjoihinsa, jotka sisältävät 182 25 ihmisen puhenäytteitä, mikä on 6 % enemmän kuin 0 kuukautta sitten. Tiedot julkaistaan ​​julkisesti (CCXNUMX). Ehdotettuja sarjoja voidaan käyttää koneoppimisjärjestelmissä puheentunnistus- ja synteesimallien rakentamiseen.

Edelliseen päivitykseen verrattuna kokoelman puhemateriaalin koko on kasvanut 9:stä 13.9 tuhanteen puhetuntiin. Tuettujen kielten määrä on kasvanut 60:stä 76:een, mukaan lukien ensimmäistä kertaa tuki valkovenäläiselle, kazakstanille, uzbekille, bulgarialle, armenialle, azerbaidžanille ja baškiirille. Venäjän kielen sarja kattaa 2136 osallistujaa ja 173 tuntia puhemateriaalia (osallistujia oli 1412 ja 111 tuntia) ja ukrainan kielen - 615 osallistujaa ja 66 tuntia (osallistujia oli 459 ja 30 tuntia).

Englanninkielisten materiaalien valmisteluun osallistui yli 75 tuhatta ihmistä, jotka sanelivat 2637 tuntia vahvistettua puhetta (osallistujia oli 66 tuhatta ja tuntia 1686). Mielenkiintoista on, että kerättyjen tietojen määrässä toisella sijalla oleva kieli on Ruanda, jolta on kerätty 2260 tuntia. Seuraavaksi tulevat saksa (1040), katalaani (920) ja esperanto (840). Dynaamisimmin kasvavia äänidatan kokoa ovat thai (20-kertainen perusmäärä, 12 tunnista 250 tuntiin), luganda (8 tunnista 80 tuntiin), esperanto (100 tunnista 840 tuntiin) ja tamili ( 24-220 tuntia).

Osana osallistumistaan ​​Common Voice -projektiin NVIDIA valmisti kerättyjen tietojen pohjalta valmiita koulutettuja malleja koneoppimisjärjestelmiin (PyTorchin tukema). Mallit jaetaan osana ilmaista ja avointa NVIDIA NeMo -työkalupakettia, joka on jo käytössä esimerkiksi MTS:n ja Sberbankin automatisoiduissa puhepalveluissa. Mallit on tarkoitettu käytettäväksi puheentunnistuksessa, puhesynteesissä ja luonnollisen kielen prosessointijärjestelmissä, ja niistä voi olla hyötyä tutkijoille, jotka rakentavat ääniaktivoituja dialogijärjestelmiä, transkriptioalustoja ja automaattisia puhelinpalvelukeskuksia. Toisin kuin aiemmin saatavilla olevat hankkeet, julkaistut mallit eivät rajoitu englannin kielen tunnistamiseen ja kattavat useita kieliä, aksentteja ja puhemuotoja.

Muistutettakoon, että Common Voice -projektin tavoitteena on järjestää yhteistä työtä äänimallien tietokannan keräämiseksi, joka ottaa huomioon äänien ja puhetyylien monimuotoisuuden. Käyttäjiä pyydetään kuuntelemaan näytöllä näkyviä lauseita tai arvioimaan muiden käyttäjien lisäämien tietojen laatua. Akkumuloitua tietokantaa, jossa on tietueita ihmisen puheen tyypillisten lauseiden eri ääntämismuodoista, voidaan käyttää rajoituksetta koneoppimisjärjestelmissä ja tutkimusprojekteissa.

Voskin jatkuvan puheentunnistuskirjaston kirjoittajan mukaan Common Voice -sarjan haittoja ovat äänimateriaalin yksipuolisuus (20-30-vuotiaiden miesten valtaosa ja naisten äänien materiaalin puute , lapset ja vanhukset), sanakirjan vaihtelevuuden puute (samojen lauseiden toisto) ja tallenteiden jakelu vääristävässä MP3-muodossa.

Lähde: opennet.ru

Lisää kommentti