Mae'r cod ar gyfer system adnabod lleferydd a chyfieithu Whisper wedi'i agor

Mae prosiect OpenAI, sy'n datblygu prosiectau cyhoeddus ym maes deallusrwydd artiffisial, wedi cyhoeddi datblygiadau sy'n ymwneud â system adnabod lleferydd Whisper. Honnir bod y system ar gyfer lleferydd yn Saesneg yn darparu lefelau o ddibynadwyedd a chywirdeb adnabod awtomatig yn agos at adnabyddiaeth ddynol. Mae'r cod ar gyfer gweithredu cyfeirnod sy'n seiliedig ar fframwaith PyTorch a set o fodelau sydd eisoes wedi'u hyfforddi, yn barod i'w defnyddio, wedi'u hagor. Mae'r cod yn agored o dan y drwydded MIT.

I hyfforddi'r model, defnyddiwyd 680 mil o oriau o ddata lleferydd, a gasglwyd o sawl casgliad yn cwmpasu gwahanol ieithoedd a meysydd pwnc. Mae tua 1/3 o'r data lleferydd sy'n ymwneud â hyfforddiant mewn ieithoedd heblaw Saesneg. Mae'r system arfaethedig yn ymdrin yn gywir â sefyllfaoedd fel ynganiad acennog, sŵn cefndir, a'r defnydd o jargon technegol. Yn ogystal â thrawsgrifio lleferydd yn destun, gall y system hefyd gyfieithu lleferydd o unrhyw iaith i'r Saesneg a chanfod ymddangosiad lleferydd yn y ffrwd sain.

Ffurfir y modelau mewn dau gynrychioliad: model ar gyfer yr iaith Saesneg a model amlieithog, sydd hefyd yn cefnogi ieithoedd Rwsieg, Wcreineg a Belarwseg. Yn ei dro, rhennir pob cynrychiolaeth yn 5 opsiwn, yn amrywio o ran maint a nifer y paramedrau a gwmpesir yn y model. Po fwyaf yw'r maint, y mwyaf yw cywirdeb ac ansawdd y gydnabyddiaeth, ond hefyd yr uchaf yw'r gofynion ar gyfer maint y cof fideo GPU a'r isaf yw'r perfformiad. Er enghraifft, mae'r opsiwn lleiaf yn cynnwys 39 miliwn o baramedrau ac mae angen 1 GB o gof fideo, ac mae'r uchafswm yn cynnwys 1550 miliwn o baramedrau ac mae angen 10 GB o gof fideo. Mae'r opsiwn lleiaf 32 gwaith yn gyflymach na'r uchafswm.

Mae'r cod ar gyfer system adnabod lleferydd a chyfieithu Whisper wedi'i agor

Mae'r system yn defnyddio pensaernïaeth rhwydwaith niwral Transformer, sy'n cynnwys amgodiwr a datgodiwr sy'n rhyngweithio â'i gilydd. Mae'r sain yn cael ei rannu'n ddarnau 30 eiliad, sy'n cael eu trosi'n sbectrogram log-Mel a'u hanfon at yr amgodiwr. Anfonir allbwn yr amgodiwr at y datgodiwr, sy'n rhagweld cynrychiolaeth testun wedi'i gymysgu â thocynnau arbennig sy'n caniatáu, mewn un model cyffredinol, i ddatrys problemau megis canfod iaith, gan gyfrif am gronoleg ynganiad ymadroddion, trawsgrifio lleferydd yn ieithoedd gwahanol, a chyfieithu i'r Saesneg.

Ffynhonnell: opennet.ru

Ychwanegu sylw