Mozilla Common Voice 8.0 radduppfærsla

Mozilla hefur gefið út uppfærslu á Common Voice gagnapakkanum sínum, sem innihalda framburðarsýni frá næstum 200 manns. Gögnin eru birt sem almenningseign (CC0). Fyrirhuguð sett er hægt að nota í vélanámskerfum til að byggja upp talgreiningar- og nýmyndunarlíkön. Miðað við fyrri uppfærslu jókst magn talefnis í safninu um 30% - úr 13.9 í 18.2 þúsund talstundir. Fjöldi studdra tungumála hefur aukist úr 67 í 87.

Settið fyrir rússnesku nær yfir 2452 þátttakendur og 193 klukkustundir af ræðuefni (það voru 2136 þátttakendur og 173 klukkustundir), fyrir hvítrússneska tungumálið - 6160 þátttakendur og 987 klukkustundir (það voru 3831 þátttakendur og 356 klukkustundir), fyrir úkraínska tungumálið - 684 þátttakendur og 76 klukkustundir (það voru 615 þátttakendur og 66 klukkustundir). Rúmlega 79 þúsund manns tóku þátt í gerð efnis á ensku, sem réði 2886 klukkustundum af staðfestri ræðu (það voru 75 þúsund þátttakendur og 2637 klukkustundir).

Minnum á að Sameiginleg rödd verkefnið miðar að því að skipuleggja sameiginlega vinnu við að safna gagnagrunni yfir raddmynstur sem tekur mið af fjölbreytileika radda og talaðferða. Notendum er boðið að raddsetningar sem birtast á skjánum eða meta gæði gagna sem aðrir notendur bæta við. Uppsafnaðan gagnagrunn með skrám yfir ýmsa framburð dæmigerðra orðasambanda manna er hægt að nota án takmarkana í vélanámskerfum og í rannsóknarverkefnum. Að sögn höfundar samfelldra talgreiningarbókasafns Vosk eru gallarnir við Common Voice settið einhliða raddefnið (yfirburður karla á aldrinum 20-30 ára og skortur á efni með raddir kvenna , börn og gamalmenni), skortur á breytileika í orðabókinni (endurtekning sömu setninga) og dreifingu upptöku á brengluðu MP3-sniði.

Að auki getum við tekið eftir útgáfu NVIDIA NeMo 1.6 verkfærasettsins, sem veitir vélanámsaðferðir til að búa til talgreiningarkerfi, talgervil og náttúrulega málvinnslu. NeMo inniheldur tilbúin til notkunar þjálfuð líkön fyrir vélanámskerfi byggð á PyTorch ramma, útbúin af NVIDIA með Common Voice talgögnum og ná yfir margs konar tungumál, kommur og talform. Líkönin geta verið gagnleg fyrir vísindamenn sem þróa raddbundin samræðukerfi, uppskriftarvettvang og sjálfvirkar símaver. Til dæmis er NVIDIA NeMo notað í sjálfvirkri raddþjónustu MTS og Sberbank. NeMo kóðinn er skrifaður í Python með PyTorch og dreift undir Apache 2.0 leyfinu.

Heimild: opennet.ru

Bæta við athugasemd