Përditësimi zanor i Mozilla Common Voice 7.0

NVIDIA dhe Mozilla kanë lëshuar një përditësim në grupet e tyre të të dhënave Common Voice, të cilat përfshijnë 182 mostra të të folurit të njerëzve, 25% më shumë nga 6 muaj më parë. Të dhënat publikohen si domen publik (CC0). Kompletet e propozuara mund të përdoren në sistemet e mësimit të makinerive për të ndërtuar modele të njohjes dhe sintezës së të folurit.

Krahasuar me përditësimin e mëparshëm, madhësia e materialit të të folurit në koleksion është rritur nga 9 në 13.9 mijë orë fjalim. Numri i gjuhëve të mbështetura është rritur nga 60 në 76, duke përfshirë për herë të parë mbështetjen për gjuhët bjelloruse, kazake, uzbekisht, bullgare, armene, azerbajxhane dhe bashkir. Seti për gjuhën ruse mbulon 2136 pjesëmarrës dhe 173 orë material të të folurit (1412 pjesëmarrës dhe 111 orë), dhe për gjuhën ukrainase - 615 pjesëmarrës dhe 66 orë (kishte 459 pjesëmarrës dhe 30 orë).

Më shumë se 75 mijë njerëz morën pjesë në përgatitjen e materialeve në anglisht, duke diktuar 2637 orë fjalim të konfirmuar (ishin 66 mijë pjesëmarrës dhe 1686 orë). Interesant është fakti se gjuha në vendin e dytë për nga sasia e të dhënave të grumbulluara është Ruanda, për të cilën janë mbledhur 2260 orë. Kjo pasohet nga gjermanishtja (1040), katalanishtja (920) dhe esperanto (840). Ndër më dinamikët në rritje të madhësisë së të dhënave zanore janë gjuha tajlandeze (20-fishuar në bazë, nga 12 në 250 orë), Luganda (nga 8 në 80 orë), Esperanto (nga 100 në 840 orë) dhe Tamile ( nga ora 24 deri në 220 orë).orë).

Si pjesë e pjesëmarrjes së saj në projektin Common Voice, NVIDIA përgatiti modele të gatshme të trajnuara për sistemet e mësimit të makinerive (të mbështetur nga PyTorch) bazuar në të dhënat e mbledhura. Modelet shpërndahen si pjesë e veglave falas dhe të hapura NVIDIA NeMo, e cila, për shembull, përdoret tashmë në shërbimet e automatizuara zanore të MTS dhe Sberbank. Modelet janë të destinuara për përdorim në njohjen e të folurit, sintezën e të folurit dhe sistemet e përpunimit të gjuhës natyrore dhe mund të jenë të dobishme për studiuesit që ndërtojnë sisteme dialogu të aktivizuar me zë, platforma transkriptimi dhe qendra të automatizuara thirrjesh. Ndryshe nga projektet e disponueshme më parë, modelet e publikuara nuk kufizohen në njohjen e gjuhës angleze dhe mbulojnë një sërë gjuhësh, thekse dhe formash të të folurit.

Ju kujtojmë se projekti Common Voice ka për qëllim organizimin e punës së përbashkët për të grumbulluar një bazë të dhënash të modeleve të zërit që merr parasysh diversitetin e zërave dhe stilet e të folurit. Përdoruesit ftohen në frazat zanore të shfaqura në ekran ose të vlerësojnë cilësinë e të dhënave të shtuara nga përdoruesit e tjerë. Baza e të dhënave e akumuluar me regjistrime të shqiptimeve të ndryshme të frazave tipike të të folurit njerëzor mund të përdoret pa kufizime në sistemet e mësimit të makinerive dhe në projektet kërkimore.

Sipas autorit të bibliotekës së njohjes së vazhdueshme të të folurit Vosk, disavantazhet e grupit të zërit të përbashkët janë njëanshmëria e materialit zanor (mbizotërimi i meshkujve 20-30 vjeç dhe mungesa e materialit me zërat e grave , fëmijët dhe të moshuarit), mungesa e ndryshueshmërisë në fjalor (përsëritja e të njëjtave fraza) dhe shpërndarja e regjistrimeve në formatin MP3 deformues.

Burimi: opennet.ru

Shto një koment