Diweddariad Llais Cyffredin Mozilla 8.0

Mae Mozilla wedi rhyddhau diweddariad i'w setiau data Common Voice, sy'n cynnwys samplau ynganu gan bron i 200 o bobl. Cyhoeddir y data fel parth cyhoeddus (CC0). Gellir defnyddio'r setiau arfaethedig mewn systemau dysgu peirianyddol i adeiladu modelau adnabod lleferydd a synthesis. O'i gymharu â'r diweddariad blaenorol, cynyddodd cyfaint y deunydd llafar yn y casgliad 30% - o 13.9 i 18.2 mil o oriau lleferydd. Mae nifer yr ieithoedd a gefnogir wedi cynyddu o 67 i 87.

Mae'r set ar gyfer yr iaith Rwsieg yn cynnwys 2452 o gyfranogwyr a 193 awr o ddeunydd llafar (roedd 2136 o gyfranogwyr a 173 awr), ar gyfer yr iaith Belarwseg - 6160 o gyfranogwyr a 987 awr (roedd 3831 o gyfranogwyr a 356 awr), ar gyfer yr iaith Wcreineg - 684 o gyfranogwyr a 76 awr (roedd 615 o gyfranogwyr a 66 awr). Cymerodd mwy na 79 mil o bobl ran yn y gwaith o baratoi deunyddiau yn Saesneg, gan bennu 2886 awr o araith wedi'i chadarnhau (roedd 75 mil o gyfranogwyr a 2637 awr).

Gadewch inni eich atgoffa mai nod prosiect Common Voice yw trefnu gwaith ar y cyd i gronni cronfa ddata o batrymau llais sy’n ystyried amrywiaeth lleisiau ac arddulliau lleferydd. Gwahoddir defnyddwyr i leisio ymadroddion a ddangosir ar y sgrin neu werthuso ansawdd y data a ychwanegir gan ddefnyddwyr eraill. Gellir defnyddio'r gronfa ddata gronedig gyda chofnodion o wahanol ynganiadau ymadroddion nodweddiadol o lefaru dynol heb gyfyngiadau mewn systemau dysgu peirianyddol ac mewn prosiectau ymchwil. Yn ôl awdur llyfrgell adnabod lleferydd parhaus Vosk, anfanteision set Common Voice yw unochrogrwydd y deunydd llais (goruchafiaeth dynion 20-30 oed, a diffyg deunydd gyda lleisiau menywod , plant a'r henoed), y diffyg amrywioldeb yn y geiriadur (ailadrodd yr un ymadroddion) a dosbarthiad y recordiadau yn y fformat MP3 ystumio.

Yn ogystal, gallwn nodi rhyddhau pecyn cymorth NVIDIA NeMo 1.6, sy'n darparu dulliau dysgu peiriant ar gyfer creu systemau adnabod lleferydd, synthesis lleferydd a phrosesu iaith naturiol. Mae NeMo yn cynnwys modelau hyfforddedig parod i'w defnyddio ar gyfer systemau dysgu peirianyddol yn seiliedig ar fframwaith PyTorch, a baratowyd gan NVIDIA gan ddefnyddio data lleferydd Common Voice ac sy'n cwmpasu amrywiaeth o ieithoedd, acenion a ffurfiau lleferydd. Gall y modelau fod yn ddefnyddiol i ymchwilwyr sy'n datblygu systemau deialog sy'n seiliedig ar lais, llwyfannau trawsgrifio, a chanolfannau galwadau awtomataidd. Er enghraifft, defnyddir NVIDIA NeMo mewn gwasanaethau llais awtomataidd MTS a Sberbank. Mae'r cod NeMo wedi'i ysgrifennu yn Python gan ddefnyddio PyTorch a'i ddosbarthu o dan drwydded Apache 2.0.

Ffynhonnell: opennet.ru

Ychwanegu sylw