Mozilla Common Voice 8.0 Voice Update

Mozilla on julkaissut päivityksen Common Voice -tietosarjoihinsa, jotka sisältävät ääntämisnäytteitä lähes 200 0 ihmiseltä. Tiedot julkaistaan ​​julkisesti (CC30). Ehdotettuja sarjoja voidaan käyttää koneoppimisjärjestelmissä puheentunnistus- ja synteesimallien rakentamiseen. Edelliseen päivitykseen verrattuna puhemateriaalin määrä kokoelmassa kasvoi 13.9 % - 18.2:stä 67 tuhanteen puhetuntiin. Tuettujen kielten määrä on kasvanut 87:stä XNUMX:ään.

Venäjän kielen setti kattaa 2452 osallistujaa ja 193 tuntia puhemateriaalia (osallistujia oli 2136 ja 173 tuntia), valkovenälän kielelle - 6160 osallistujaa ja 987 tuntia (osallistujia oli 3831 ja 356 tuntia), ukrainan kielelle - 684 osallistujaa ja 76 tuntia (osallistujia oli 615 ja 66 tuntia). Englanninkielisten materiaalien valmisteluun osallistui yli 79 tuhatta ihmistä, jotka sanelivat 2886 tuntia vahvistettua puhetta (osallistujia oli 75 tuhatta ja 2637 tuntia).

Muistutettakoon, että Common Voice -projektin tavoitteena on järjestää yhteistä työtä äänimallien tietokannan keräämiseksi, joka ottaa huomioon äänien ja puhetyylien monimuotoisuuden. Käyttäjiä pyydetään kuuntelemaan näytöllä näkyviä lauseita tai arvioimaan muiden käyttäjien lisäämien tietojen laatua. Akkumuloitua tietokantaa, jossa on tietueita ihmisen puheen tyypillisten lauseiden eri ääntämismuodoista, voidaan käyttää rajoituksetta koneoppimisjärjestelmissä ja tutkimusprojekteissa. Voskin jatkuvan puheentunnistuskirjaston kirjoittajan mukaan Common Voice -sarjan haittoja ovat äänimateriaalin yksipuolisuus (20-30-vuotiaiden miesten valtaosa ja naisten äänien materiaalin puute , lapset ja vanhukset), sanakirjan vaihtelevuuden puute (samojen lauseiden toisto) ja tallenteiden levittäminen vääristävässä MP3-muodossa.

Lisäksi voimme huomioida NVIDIA NeMo 1.6 -työkalupaketin julkaisun, joka tarjoaa koneoppimismenetelmiä puheentunnistusjärjestelmien luomiseen, puhesynteesiin ja luonnollisen kielen käsittelyyn. NeMo sisältää valmiita koulutettuja PyTorch-kehykseen perustuvia koneoppimisjärjestelmiä koskevia malleja, jotka NVIDIA on valmistellut käyttämällä Common Voice -puhedataa ja jotka kattavat erilaisia ​​kieliä, aksentteja ja puhemuotoja. Mallit voivat olla hyödyllisiä tutkijoille, jotka kehittävät äänipohjaisia ​​dialogijärjestelmiä, transkriptioalustoja ja automaattisia puhelinpalvelukeskuksia. Esimerkiksi NVIDIA NeMo:ta käytetään MTS:n ja Sberbankin automatisoiduissa puhepalveluissa. NeMo-koodi on kirjoitettu Pythonissa PyTorchin avulla ja jaettu Apache 2.0 -lisenssillä.

Lähde: opennet.ru

Lisää kommentti