NVIDIA belê $1.5 miljoen in die Mozilla Common Voice-projek

NVIDIA belê $1.5 miljoen in die Mozilla Common Voice-projek. Belangstelling in spraakherkenningstelsels spruit uit die voorspelling dat stemtegnologie oor die volgende tien jaar een van die belangrikste maniere sal word waarop mense met toestelle interaksie het wat wissel van rekenaars en fone tot digitale assistente en kiosks.

Die werkverrigting van stemstelsels is hoogs afhanklik van die volume en verskeidenheid stemdata wat beskikbaar is vir die opleiding van masjienleermodelle. Vandag se stemtegnologie fokus hoofsaaklik op Engelse taalherkenning en dek nie die groot verskeidenheid tale, aksente en spraakpatrone nie. Die belegging sal help om die groei van openbare stemdata te versnel, meer gemeenskappe en vrywilligers te betrek, en die aantal voltydse projekpersoneel uit te brei.

Laat ons jou daaraan herinner dat die Common Voice-projek daarop gemik is om gesamentlike werk te organiseer om 'n databasis van stempatrone op te bou wat die diversiteit van stemme en spraakstyle in ag neem. Gebruikers word uitgenooi om frases te stem wat op die skerm vertoon word of om die kwaliteit van data wat deur ander gebruikers bygevoeg is, te evalueer. Die opgehoopte databasis met rekords van verskeie uitsprake van tipiese frases van menslike spraak kan sonder beperkings in masjienleerstelsels en in navorsingsprojekte gebruik word.

Die Common Voice-stel bevat tans uitspraakvoorbeelde van meer as 164 9 mense. Ongeveer 60 duisend uur se stemdata is in 1412 verskillende tale opgehoop. Die stel vir die Russiese taal dek 111 deelnemers en 459 uur se spraakmateriaal, en vir die Oekraïens - 30 deelnemers en 66 uur. Ter vergelyking, meer as 1686 duisend mense het deelgeneem aan die voorbereiding van materiaal in Engels, wat 0 uur se geverifieerde toespraak dikteer. Die voorgestelde stelle kan in masjienleerstelsels gebruik word om spraakherkenning en sintesemodelle te bou. Die data word as publieke domein (CCXNUMX) gepubliseer.

Volgens die skrywer van die Vosk deurlopende spraakherkenningsbiblioteek is die nadele van die Common Voice-stel die eensydigheid van die stemmateriaal (die oorheersing van manlike mense 20-30 jaar oud, en die gebrek aan materiaal met die stemme van vroue , kinders en bejaardes), die gebrek aan wisselvalligheid in die woordeboek (herhaling van dieselfde frases) en die verspreiding van opnames in die verdraaiende MP3-formaat.

Bron: opennet.ru

Voeg 'n opmerking