Diweddariad Llais Cyffredin Mozilla 7.0

Mae NVIDIA a Mozilla wedi rhyddhau diweddariad i'w setiau data Common Voice, sy'n cynnwys samplau lleferydd 182 o bobl, i fyny 25% o 6 mis yn ôl. Cyhoeddir y data fel parth cyhoeddus (CC0). Gellir defnyddio'r setiau arfaethedig mewn systemau dysgu peirianyddol i adeiladu modelau adnabod lleferydd a synthesis.

O'i gymharu â'r diweddariad blaenorol, mae maint y deunydd llafar yn y casgliad wedi cynyddu o 9 i 13.9 mil o oriau lleferydd. Mae nifer yr ieithoedd a gefnogir wedi cynyddu o 60 i 76, gan gynnwys am y tro cyntaf cefnogaeth i ieithoedd Belarwseg, Kazakh, Wsbeceg, Bwlgareg, Armeneg, Aserbaijaneg a Bashkir. Mae'r set ar gyfer yr iaith Rwsieg yn cynnwys 2136 o gyfranogwyr a 173 awr o ddeunydd llafar (roedd 1412 o gyfranogwyr a 111 awr), ac ar gyfer yr iaith Wcreineg - 615 o gyfranogwyr a 66 awr (roedd 459 o gyfranogwyr a 30 awr).

Cymerodd mwy na 75 mil o bobl ran yn y gwaith o baratoi deunyddiau yn Saesneg, gan bennu 2637 awr o araith wedi'i chadarnhau (roedd 66 mil o gyfranogwyr a 1686 awr). Yn ddiddorol, yr iaith yn yr ail safle o ran faint o ddata cronedig yw Rwanda, y mae 2260 o oriau wedi'u casglu ar ei chyfer. Dilynir hyn gan Almaeneg (1040), Catalaneg (920) ac Esperanto (840). Ymhlith y rhai mwyaf deinamig sy'n cynyddu maint data llais mae'r iaith Thai (cynnydd 20-plyg yn y sylfaen, o 12 i 250 awr), Luganda (o 8 i 80 awr), Esperanto (o 100 i 840 awr) a Tamil ( rhwng 24 a 220 awr).

Fel rhan o'i gyfranogiad yn y prosiect Common Voice, paratôdd NVIDIA fodelau hyfforddedig parod ar gyfer systemau dysgu peiriannau (gyda chefnogaeth PyTorch) yn seiliedig ar y data a gasglwyd. Dosberthir y modelau fel rhan o becyn cymorth NVIDIA NeMo rhad ac am ddim ac agored, sydd, er enghraifft, eisoes yn cael ei ddefnyddio yng ngwasanaethau llais awtomataidd MTS a Sberbank. Bwriedir i'r modelau gael eu defnyddio mewn systemau adnabod lleferydd, synthesis lleferydd, a phrosesu iaith naturiol, a gallant fod yn ddefnyddiol i ymchwilwyr sy'n adeiladu systemau deialog wedi'u hysgogi gan lais, llwyfannau trawsgrifio, a chanolfannau galwadau awtomataidd. Yn wahanol i brosiectau a oedd ar gael yn flaenorol, nid yw’r modelau cyhoeddedig wedi’u cyfyngu i adnabyddiaeth o’r Saesneg ac maent yn cwmpasu amrywiaeth o ieithoedd, acenion a ffurfiau lleferydd.

Gadewch inni eich atgoffa mai nod prosiect Common Voice yw trefnu gwaith ar y cyd i gronni cronfa ddata o batrymau llais sy’n ystyried amrywiaeth lleisiau ac arddulliau lleferydd. Gwahoddir defnyddwyr i leisio ymadroddion a ddangosir ar y sgrin neu werthuso ansawdd y data a ychwanegir gan ddefnyddwyr eraill. Gellir defnyddio'r gronfa ddata gronedig gyda chofnodion o wahanol ynganiadau ymadroddion nodweddiadol o lefaru dynol heb gyfyngiadau mewn systemau dysgu peirianyddol ac mewn prosiectau ymchwil.

Yn ôl awdur llyfrgell adnabod lleferydd parhaus Vosk, anfanteision set Common Voice yw unochrogrwydd y deunydd llais (goruchafiaeth dynion 20-30 oed, a diffyg deunydd gyda lleisiau menywod , plant a'r henoed), y diffyg amrywioldeb yn y geiriadur (ailadrodd yr un ymadroddion) a dosbarthu recordiadau yn y fformat MP3 ystumio.

Ffynhonnell: opennet.ru

Ychwanegu sylw