NVIDIA fjárfestir $1.5 milljónir í Mozilla Common Voice verkefninu

NVIDIA fjárfestir $1.5 milljónir í Mozilla Common Voice verkefninu. Áhugi á talgreiningarkerfum stafar af þeirri spá að á næstu tíu árum muni raddtækni verða ein helsta leiðin sem fólk hefur samskipti við tæki, allt frá tölvum og símum til stafrænna aðstoðarmanna og söluturna.

Frammistaða raddkerfa er mjög háð magni og fjölbreytileika raddgagna sem eru tiltækar til að þjálfa vélanámslíkön. Raddtækni nútímans beinist fyrst og fremst að enskri tungugreiningu og nær ekki yfir hið mikla úrval af tungumálum, kommur og talmynstri. Fjárfestingin mun hjálpa til við að flýta fyrir vexti opinberra raddgagna, taka þátt í fleiri samfélögum og sjálfboðaliðum og auka fjölda starfsmanna verkefna í fullu starfi.

Minnum á að Sameiginleg rödd verkefnið miðar að því að skipuleggja sameiginlega vinnu við að safna gagnagrunni yfir raddmynstur sem tekur mið af fjölbreytileika radda og talaðferða. Notendum er boðið að raddsetningar sem birtast á skjánum eða meta gæði gagna sem aðrir notendur bæta við. Uppsafnaðan gagnagrunn með skrám yfir ýmsa framburð dæmigerðra orðasambanda manna er hægt að nota án takmarkana í vélanámskerfum og í rannsóknarverkefnum.

Common Voice settið inniheldur nú framburðardæmi frá yfir 164 manns. Um 9 þúsund klukkustundir af raddgögnum hafa safnast á 60 mismunandi tungumálum. Settið fyrir rússnesku nær yfir 1412 þátttakendur og 111 klukkustundir af ræðuefni og fyrir úkraínska tungumálið - 459 þátttakendur og 30 klukkustundir. Til samanburðar tóku meira en 66 þúsund manns þátt í gerð efnis á ensku og sögðu 1686 klukkustundir af sannreyndri ræðu. Fyrirhuguð sett er hægt að nota í vélanámskerfum til að byggja upp talgreiningar- og nýmyndunarlíkön. Gögnin eru birt sem almenningseign (CC0).

Að sögn höfundar samfelldra talgreiningarsafns Vosk eru gallarnir við Common Voice settið einhliða raddefnið (yfirgnæfandi karlkyns fólks á aldrinum 20-30 ára og skortur á efni með röddum kvenna , börn og gamalmenni), skortur á breytileika í orðabókinni (endurtekning sömu setninga) og dreifingu upptöku á brengluðu MP3-sniði.

Heimild: opennet.ru

Bæta við athugasemd