Përditësimi zanor i Mozilla Common Voice 8.0

Mozilla ka lëshuar një përditësim për grupet e të dhënave të saj Common Voice, të cilat përfshijnë mostra shqiptimi nga afro 200 njerëz. Të dhënat publikohen si domen publik (CC0). Kompletet e propozuara mund të përdoren në sistemet e mësimit të makinerive për të ndërtuar modele të njohjes dhe sintezës së të folurit. Krahasuar me përditësimin e mëparshëm, vëllimi i materialit të të folurit në koleksion u rrit me 30% - nga 13.9 në 18.2 mijë orë fjalim. Numri i gjuhëve të mbështetura është rritur nga 67 në 87.

Seti për gjuhën ruse mbulon 2452 pjesëmarrës dhe 193 orë material të të folurit (2136 pjesëmarrës dhe 173 orë), për gjuhën bjelloruse - 6160 pjesëmarrës dhe 987 orë (kishte 3831 pjesëmarrës dhe 356 orë), për gjuhën ukrainase - 684 pjesëmarrës dhe 76 orë (ishin 615 pjesëmarrës dhe 66 orë). Më shumë se 79 mijë njerëz morën pjesë në përgatitjen e materialeve në anglisht, duke diktuar 2886 orë fjalim të konfirmuar (ishin 75 mijë pjesëmarrës dhe 2637 orë).

Ju kujtojmë se projekti Common Voice ka për qëllim organizimin e punës së përbashkët për të grumbulluar një bazë të dhënash të modeleve të zërit që merr parasysh diversitetin e zërave dhe stilet e të folurit. Përdoruesit ftohen në frazat zanore të shfaqura në ekran ose të vlerësojnë cilësinë e të dhënave të shtuara nga përdoruesit e tjerë. Baza e të dhënave e akumuluar me regjistrime të shqiptimeve të ndryshme të frazave tipike të të folurit njerëzor mund të përdoret pa kufizime në sistemet e mësimit të makinerive dhe në projektet kërkimore. Sipas autorit të bibliotekës së njohjes së vazhdueshme të të folurit Vosk, disavantazhet e grupit të zërit të përbashkët janë njëanshmëria e materialit zanor (mbizotërimi i meshkujve 20-30 vjeç dhe mungesa e materialit me zërat e grave , fëmijët dhe të moshuarit), mungesa e ndryshueshmërisë në fjalor (përsëritja e të njëjtave fraza) dhe shpërndarja e regjistrimeve në formatin MP3 deformues.

Për më tepër, mund të vërejmë lëshimin e paketës së veglave NVIDIA NeMo 1.6, e cila ofron metoda të mësimit të makinerive për krijimin e sistemeve të njohjes së të folurit, sintezën e të folurit dhe përpunimin e gjuhës natyrore. NeMo përfshin modele të trajnuara të gatshme për përdorim për sistemet e mësimit të makinerive të bazuara në kornizën PyTorch, të përgatitura nga NVIDIA duke përdorur të dhënat e të folurit me zë të përbashkët dhe që mbulojnë një sërë gjuhësh, thekse dhe formash të të folurit. Modelet mund të jenë të dobishme për studiuesit që zhvillojnë sisteme dialogu të bazuara në zë, platforma transkriptimi dhe qendra të automatizuara të thirrjeve. Për shembull, NVIDIA NeMo përdoret në shërbimet e automatizuara të zërit të MTS dhe Sberbank. Kodi NeMo është shkruar në Python duke përdorur PyTorch dhe shpërndahet nën licencën Apache 2.0.

Burimi: opennet.ru

Shto një koment