NVIDIA sijoittaa 1.5 miljoonaa dollaria Mozilla Common Voice -projektiin

NVIDIA sijoittaa 1.5 miljoonaa dollaria Mozilla Common Voice -projektiin. Kiinnostus puheentunnistusjärjestelmiin juontaa juurensa ennustuksesta, että seuraavan kymmenen vuoden aikana ääniteknologiasta tulee yksi tärkeimmistä tavoista, joilla ihmiset ovat vuorovaikutuksessa laitteiden kanssa aina tietokoneista ja puhelimista digitaalisiin avustajiin ja kioskeihin.

Äänijärjestelmien suorituskyky riippuu suuresti koneoppimismallien opetusta varten käytettävissä olevan äänidatan määrästä ja valikoimasta. Nykypäivän äänitekniikka keskittyy ensisijaisesti englannin kielen tunnistamiseen, eikä se kata laajaa valikoimaa kieliä, aksentteja ja puhekuvioita. Investointi nopeuttaa julkisen puhedatan kasvua, sitouttaa enemmän yhteisöjä ja vapaaehtoisia sekä laajentaa kokopäiväisen projektihenkilöstön määrää.

Muistutettakoon, että Common Voice -projektin tavoitteena on järjestää yhteistä työtä äänimallien tietokannan keräämiseksi, joka ottaa huomioon äänien ja puhetyylien monimuotoisuuden. Käyttäjiä pyydetään kuuntelemaan näytöllä näkyviä lauseita tai arvioimaan muiden käyttäjien lisäämien tietojen laatua. Akkumuloitua tietokantaa, jossa on tietueita ihmisen puheen tyypillisten lauseiden eri ääntämismuodoista, voidaan käyttää rajoituksetta koneoppimisjärjestelmissä ja tutkimusprojekteissa.

Common Voice -sarja sisältää tällä hetkellä ääntämisesimerkkejä yli 164 9 ihmiseltä. Puhedataa on kertynyt noin 60 tuhatta tuntia 1412 eri kielellä. Venäjän kielen sarja kattaa 111 osallistujaa ja 459 tuntia puhemateriaalia ja ukrainan kielen 30 osallistujaa ja 66 tuntia. Vertailun vuoksi englanninkielisten materiaalien valmisteluun osallistui yli 1686 tuhatta ihmistä, jotka sanelivat 0 tuntia vahvistettua puhetta. Ehdotettuja sarjoja voidaan käyttää koneoppimisjärjestelmissä puheentunnistus- ja synteesimallien rakentamiseen. Tiedot julkaistaan ​​julkisesti (CCXNUMX).

Voskin jatkuvan puheentunnistuskirjaston kirjoittajan mukaan Common Voice -sarjan haittoja ovat äänimateriaalin yksipuolisuus (20-30-vuotiaiden miesten valtaosa ja naisten äänien materiaalin puute , lapset ja vanhukset), sanakirjan vaihtelevuuden puute (samojen lauseiden toisto) ja tallenteiden jakelu vääristävässä MP3-muodossa.

Lähde: opennet.ru

Lisää kommentti