NVIDIA investon 1.5 milion dollarë në projektin Mozilla Common Voice

NVIDIA po investon 1.5 milionë dollarë në projektin Mozilla Common Voice. Interesi për sistemet e njohjes së të folurit buron nga parashikimi se gjatë dhjetë viteve të ardhshme, teknologjia e zërit do të bëhet një nga mënyrat kryesore se si njerëzit ndërveprojnë me pajisjet, duke filluar nga kompjuterët dhe telefonat tek asistentët dhe kioskat dixhitale.

Performanca e sistemeve zanore varet shumë nga vëllimi dhe shumëllojshmëria e të dhënave zanore të disponueshme për modelet e trajnimit të mësimit të makinerive. Teknologjia e sotme e zërit fokusohet kryesisht në njohjen e gjuhës angleze dhe nuk mbulon gamën e gjerë të gjuhëve, thekseve dhe modeleve të të folurit. Investimi do të ndihmojë në përshpejtimin e rritjes së të dhënave zanore publike, angazhimin e më shumë komuniteteve dhe vullnetarëve dhe zgjerimin e numrit të stafit të projektit me kohë të plotë.

Ju kujtojmë se projekti Common Voice ka për qëllim organizimin e punës së përbashkët për të grumbulluar një bazë të dhënash të modeleve të zërit që merr parasysh diversitetin e zërave dhe stilet e të folurit. Përdoruesit ftohen në frazat zanore të shfaqura në ekran ose të vlerësojnë cilësinë e të dhënave të shtuara nga përdoruesit e tjerë. Baza e të dhënave e akumuluar me regjistrime të shqiptimeve të ndryshme të frazave tipike të të folurit njerëzor mund të përdoret pa kufizime në sistemet e mësimit të makinerive dhe në projektet kërkimore.

Kompleti Common Voice aktualisht përfshin shembuj shqiptimi nga mbi 164 njerëz. Rreth 9 mijë orë të dhëna zanore janë grumbulluar në 60 gjuhë të ndryshme. Seti për gjuhën ruse mbulon 1412 pjesëmarrës dhe 111 orë material të të folurit, dhe për gjuhën ukrainase - 459 pjesëmarrës dhe 30 orë. Për krahasim, më shumë se 66 mijë njerëz morën pjesë në përgatitjen e materialeve në anglisht, duke diktuar 1686 orë fjalim të verifikuar. Kompletet e propozuara mund të përdoren në sistemet e mësimit të makinerive për të ndërtuar modele të njohjes dhe sintezës së të folurit. Të dhënat publikohen si domen publik (CC0).

Sipas autorit të bibliotekës së njohjes së vazhdueshme të të folurit Vosk, disavantazhet e grupit të zërit të përbashkët janë njëanshmëria e materialit zanor (mbizotërimi i meshkujve 20-30 vjeç dhe mungesa e materialit me zërat e grave , fëmijët dhe të moshuarit), mungesa e ndryshueshmërisë në fjalor (përsëritja e të njëjtave fraza) dhe shpërndarja e regjistrimeve në formatin MP3 deformues.

Burimi: opennet.ru

Shto një koment