Tá an cód don chóras aitheantais cainte agus aistriúcháin Whisper oscailte

D’fhoilsigh tionscadal OpenAI, a fhorbraíonn tionscadail phoiblí i réimse na hintleachta saorga, forbairtí a bhaineann le córas aitheantais urlabhra Whisper. Maítear go soláthraíonn an córas leibhéil iontaofachta agus chruinneas aitheantais uathoibríoch do chaint i mBéarla gar d’aitheantas daonna. Osclaíodh an cód le haghaidh cur chun feidhme tagartha atá bunaithe ar chreat PyTorch agus sraith de shamhlacha atá oilte cheana féin, atá réidh le húsáid. Tá an cód oscailte faoin gceadúnas MIT.

Chun an tsamhail a oiliúint, baineadh úsáid as 680 míle uair an chloig de shonraí cainte, a bailíodh ó roinnt bailiúcháin a chlúdaíonn teangacha agus réimsí ábhair éagsúla. Tá thart ar 1/3 de na sonraí cainte a bhaineann leis an oiliúint i dteangacha eile seachas Béarla. Láimhseálann an córas atá beartaithe i gceart cásanna mar fhuaimniú géaraithe, torann cúlra, agus úsáid béarlagair theicniúil. Chomh maith le caint a thras-scríobh go téacs, is féidir leis an gcóras urlabhra a aistriú ó aon teanga go Béarla agus cuma na cainte sa sruth fuaime a bhrath.

Tá dhá léiriú ar na samhlacha: múnla don Bhéarla agus samhail ilteangach, a thacaíonn freisin le teangacha Rúisise, Úcráinis agus Bealarúisis. Ina dhiaidh sin, roinntear gach léiriú i 5 rogha, difriúil i méid agus líon na bparaiméadar atá clúdaithe sa mhúnla. Dá mhéad an méid, is mó an cruinneas agus cáilíocht an aitheantais, ach freisin dá airde na ceanglais maidir le méid an chuimhne físeán GPU agus an níos ísle ar an fheidhmíocht. Mar shampla, cuimsíonn an rogha íosta 39 milliún paraiméadair agus éilíonn sé 1 GB de chuimhne físeáin, agus cuimsíonn an t-uasmhéid 1550 milliún paraiméadair agus éilíonn sé 10 GB de chuimhne físeáin. Is é an rogha íosta 32 huaire níos tapúla ná an t-uasmhéid.

Tá an cód don chóras aitheantais cainte agus aistriúcháin Whisper oscailte

Úsáideann an córas ailtireacht líonra nóral Trasfhoirmeoir, a chuimsíonn ionchódóir agus díchódóir a idirghníomhaíonn lena chéile. Déantar an fhuaim a mhiondealú ina smután 30 soicind, a thiontaítear ina speictream log-Mel agus a sheoltar chuig an ionchódóir. Seoltar aschur an ionchódóra chuig an díchódóir, a thuar léiriú téacs measctha le comharthaí speisialta a cheadaíonn, i múnla ginearálta amháin, fadhbanna a réiteach mar bhrath teanga, cuntas a thabhairt ar chroineolaíocht fhuaimniú frásaí, trascríobh cainte i teangacha éagsúla, agus aistriúchán go Béarla.

Foinse: oscailtenet.ru

Add a comment