Mozilla Common Voice 9.0 Voice Update

Mozilla on julkaissut päivityksen Common Voice -tietosarjoihinsa, jotka sisältävät ääntämisnäytteitä lähes 200 0 ihmiseltä. Tiedot julkaistaan ​​julkisesti (CCXNUMX). Ehdotettuja sarjoja voidaan käyttää koneoppimisjärjestelmissä puheentunnistus- ja synteesimallien rakentamiseen.

Edelliseen päivitykseen verrattuna kokoelman puhemateriaalin määrä kasvoi 10 % - 18.2:sta 20.2 tuhanteen puhetuntiin. Tuettujen kielten määrä on kasvanut 87:stä 93:een. 27 kielestä on kertynyt yli 100 tuntia puhedataa ja 9:stä yli 500 tuntia puhedataa. Yhdeksällä kielellä oli myös mahdollista saavuttaa vähintään 9 prosentin osuus naisten puheesta.

Englanninkielisten materiaalien valmisteluun osallistui yli 81 tuhatta ihmistä, jotka sanelivat 2953 tuntia puhetta (osallistujia oli 79 tuhatta ja 2886 tuntia). Valkovenäjän kielen setti kattaa 6326 osallistujaa ja 1054 tuntia puhemateriaalia (osallistujia oli 6160 ja 987 tuntia), venäjän - 2585 osallistujaa ja 201 tuntia (osallistujia oli 2452 ja 193 tuntia), uzbekin kielen - 1503 osallistujaa ja 231 tuntia ( osallistujia oli 1355 ja 227 tuntia), ukrainan kieli - 696 osallistujaa ja 79 tuntia (osallistujia oli 684 ja 76 tuntia).

Common Voice -hankkeen tavoitteena on järjestää yhteistä työtä äänimallien tietokannan keräämiseksi, joka ottaa huomioon äänien ja puhetyylien monimuotoisuuden. Käyttäjiä pyydetään kuuntelemaan näytöllä näkyviä lauseita tai arvioimaan muiden käyttäjien lisäämien tietojen laatua. Akkumuloitua tietokantaa, jossa on tietueita ihmisen puheen tyypillisten lauseiden eri ääntämismuodoista, voidaan käyttää rajoituksetta koneoppimisjärjestelmissä ja tutkimusprojekteissa.

Lähde: opennet.ru

Lisää kommentti