Mozilla Common Voice 7.0 radduppfærsla

NVIDIA og Mozilla hafa gefið út uppfærslu á Common Voice gagnasöfnum sínum, sem innihalda 182 talsýni, sem er 25% aukning frá 6 mánuðum síðan. Gögnin eru birt sem almenningseign (CC0). Fyrirhuguð sett er hægt að nota í vélanámskerfum til að byggja upp talgreiningar- og nýmyndunarlíkön.

Í samanburði við fyrri uppfærslu hefur stærð ræðuefnis í safninu aukist úr 9 í 13.9 þúsund talstundir. Fjöldi studdra tungumála hefur aukist úr 60 í 76, þar á meðal í fyrsta skipti stuðningur við hvítrússnesku, kasakska, úsbeksku, búlgörsku, armensku, aserska og baskír. Settið fyrir rússnesku nær yfir 2136 þátttakendur og 173 klukkustundir af ræðuefni (það voru 1412 þátttakendur og 111 klukkustundir), og fyrir úkraínska tungumálið - 615 þátttakendur og 66 klukkustundir (það voru 459 þátttakendur og 30 klukkustundir).

Rúmlega 75 þúsund manns tóku þátt í gerð efnis á ensku, sem réðu 2637 klukkustundum af staðfestu ræðu (það voru 66 þúsund þátttakendur og 1686 klukkustundir). Athyglisvert er að tungumálið í öðru sæti hvað varðar magn uppsafnaðra gagna er Rúanda, sem 2260 klukkustundum hefur verið safnað fyrir. Þar á eftir koma þýska (1040), katalónska (920) og esperantó (840). Meðal þeirra raddgagna sem hafa stækkað raddgögnin eru taílenska (20-föld aukning á grunni, úr 12 í 250 klukkustundir), lúganda (frá 8 til 80 klukkustundum), esperantó (úr 100 til 840 klukkustundum) og tamílska ( frá 24 til 220 klukkustundir).

Sem hluti af þátttöku sinni í Common Voice verkefninu útbjó NVIDIA tilbúin þjálfuð líkön fyrir vélanámskerfi (studd af PyTorch) byggð á söfnuðu gögnunum. Líkönunum er dreift sem hluti af ókeypis og opnu NVIDIA NeMo verkfærasettinu, sem til dæmis er þegar notað í sjálfvirkri raddþjónustu MTS og Sberbank. Líkönin eru ætluð til notkunar í talgreiningu, talgervil og náttúrulegum málvinnslukerfum og geta verið gagnleg fyrir rannsakendur sem byggja upp raddstýrð samræðukerfi, uppskriftarpalla og sjálfvirkar símaver. Ólíkt áður tiltækum verkefnum eru birtu líkönin ekki takmörkuð við enska tungumálaþekkingu og ná yfir margs konar tungumál, kommur og talform.

Minnum á að Sameiginleg rödd verkefnið miðar að því að skipuleggja sameiginlega vinnu við að safna gagnagrunni yfir raddmynstur sem tekur mið af fjölbreytileika radda og talaðferða. Notendum er boðið að raddsetningar sem birtast á skjánum eða meta gæði gagna sem aðrir notendur bæta við. Uppsafnaðan gagnagrunn með skrám yfir ýmsa framburð dæmigerðra orðasambanda manna er hægt að nota án takmarkana í vélanámskerfum og í rannsóknarverkefnum.

Að sögn höfundar samfelldra talgreiningarsafns Vosk eru gallarnir við Common Voice settið einhliða raddefnið (yfirgnæfandi karlkyns fólks á aldrinum 20-30 ára og skortur á efni með röddum kvenna , börn og gamalmenni), skortur á breytileika í orðabókinni (endurtekning sömu setninga) og dreifingu upptöku á brengluðu MP3-sniði.

Heimild: opennet.ru

Bæta við athugasemd