🥇Përditësimi i Mozilla Common Voice 8.0

Mozilla ka publikuar një përditësim për të dhënat e saj Common Voice, i cili përfshin mostra të të folurit nga gati 200 njerëz. Të dhënat janë publikuar në domenin publik (CC0). Setet e të dhënave mund të përdoren në sistemet e të mësuarit automatik për të ndërtuar modele të njohjes dhe sintezës së të folurit. Krahasuar me përditësimin e mëparshëm, madhësia e të dhënave të të folurit të koleksionit është rritur me 30% - nga 13.9 në 18.2 orë të folurit. Numri i gjuhëve të mbështetura është rritur nga 67 në 87.

Seti i gjuhës ruse përfshinte 2452 pjesëmarrës dhe 193 orë material fjalimi (më parë 2136 pjesëmarrës dhe 173 orë), seti i gjuhës bjelloruse përfshinte 6160 pjesëmarrës dhe 987 orë (më parë 3831 pjesëmarrës dhe 356 orë), dhe seti i gjuhës ukrainase përfshinte 684 pjesëmarrës dhe 76 orë (më parë 615 pjesëmarrës dhe 66 orë). Më shumë se 79 njerëz morën pjesë në përgatitjen e materialeve të gjuhës angleze, duke diktuar 2886 orë material fjalimi të verifikuar (më parë 75 pjesëmarrës dhe 2637 orë).

Si kujtesë, projekti Common Voice synon të organizojë përpjekje bashkëpunuese për të grumbulluar një bazë të dhënash me shabllone zëri që kap të gjithë diversitetin e zërave dhe modeleve të të folurit. Përdoruesit ftohen të shprehin frazat e shfaqura në ekran ose të vlerësojnë cilësinë e të dhënave të shtuara nga përdorues të tjerë. Baza e të dhënave e grumbulluar, që përmban regjistrime të shqiptimeve të ndryshme të frazave tipike njerëzore, mund të përdoret pa kufizime në sistemet e të mësuarit automatik dhe projektet kërkimore. Sipas Vosk, autorit të bibliotekës së njohjes së vazhdueshme të të folurit, mangësitë e të dhënave të Common Voice përfshijnë natyrën e anshme të materialit të zërit (mbizotërimi i meshkujve në të 20-at dhe 30-at e tyre, me mungesë materiali që paraqet gra, fëmijë dhe të moshuar), mungesën e diversitetit të fjalorit (përsëritja e të njëjtave frazave) dhe shpërndarjen e regjistrimeve në formatin MP3 shtrembërues.

Gjithashtu, vlen të përmendet publikimi i NVIDIA NeMo 1.6, një set mjetesh që ofron metoda të të mësuarit automatik për krijimin e njohjes së të folurit, sintezës së të folurit dhe sistemeve të përpunimit të gjuhës natyrore. NeMo përfshin modele të gatshme për përdorim dhe të para-trajnuara për sistemet e të mësuarit automatik bazuar në kornizën PyTorch, të zhvilluar nga NVIDIA duke përdorur të dhëna të të folurit Common Voice dhe që mbulojnë gjuhë, thekse dhe forma të të folurit të ndryshme. Këto modele mund të jenë të dobishme për studiuesit që zhvillojnë sisteme dialogu të aktivizuara me zë, platforma transkriptimi dhe qendra të automatizuara thirrjesh. Për shembull, NVIDIA NeMo përdoret në shërbimet e automatizuara të zërit në MTS dhe Sberbank. NeMo është shkruar në Python duke përdorur PyTorch dhe është i licencuar sipas licencës Apache 2.0.

Burimi: opennet.ru

Përditësimi zanor i Mozilla Common Voice 8.0

ProHoster