Tha an còd airson siostam aithneachaidh cainnte agus eadar-theangachaidh Whisper air fhosgladh

Tha am pròiseact OpenAI, a bhios a’ leasachadh phròiseactan poblach ann an raon inntleachd fuadain, air leasachaidhean fhoillseachadh co-cheangailte ri siostam aithneachaidh cainnt Whisper. Thathas ag agairt gu bheil an siostam airson cainnt sa Bheurla a’ toirt seachad ìrean earbsachd agus mionaideachd aithne fèin-ghluasadach faisg air aithne daonna. Chaidh an còd airson buileachadh iomraidh stèidhichte air frèam PyTorch agus seata de mhodalan air an trèanadh mar-thà, deiseil airson an cleachdadh, fhosgladh. Tha an còd fosgailte fo chead MIT.

Gus am modail a thrèanadh, chaidh 680 mìle uair a thìde de dhàta cainnte a chleachdadh, air a chruinneachadh bho ghrunn chruinneachaidhean a 'còmhdach diofar chànanan agus raointean cuspaireil. Tha timcheall air 1/3 den dàta cainnte a tha an sàs ann an trèanadh ann an cànanan eile seach Beurla. Bidh an siostam a thathar a’ moladh a’ làimhseachadh gu ceart suidheachaidhean leithid fuaimneachadh le stràc, fuaim cùl-fhiosrachaidh, agus cleachdadh jargon teignigeach. A bharrachd air a bhith ag ath-sgrìobhadh cainnt gu teacsa, faodaidh an siostam cuideachd cainnt eadar-theangachadh bho chànan sam bith gu Beurla agus lorg coltas cainnt anns an t-sruth claisneachd.

Tha na modailean air an cruthachadh ann an dà riochdachadh: modail airson Beurla agus modail ioma-chànanach, a tha cuideachd a 'toirt taic do chànanan Ruiseanach, Ucràineach agus Bealarúisis. Ann an tionndadh, tha gach riochdachadh air a roinn ann an 5 roghainnean, eadar-dhealaichte ann am meud agus àireamh nam paramadairean a tha air an còmhdach sa mhodail. Mar as motha am meud, is ann as àirde a tha cruinneas agus càileachd aithne, ach cuideachd mar as àirde na riatanasan airson meud cuimhne bhidio GPU agus mar as ìsle an coileanadh. Mar eisimpleir, tha an roghainn as ìsle a ’toirt a-steach 39 millean paramadair agus a’ feumachdainn 1 GB de chuimhne bhidio, agus tha an ìre as àirde a ’toirt a-steach 1550 millean paramadair agus a’ feumachdainn 10 GB de chuimhne bhidio. Tha an roghainn as ìsle 32 tursan nas luaithe na an ìre as àirde.

Tha an còd airson siostam aithneachaidh cainnte agus eadar-theangachaidh Whisper air fhosgladh

Bidh an siostam a’ cleachdadh ailtireachd lìonra neural Transformer, a tha a’ toirt a-steach encoder agus decoder a bhios ag eadar-obrachadh le chèile. Tha an claisneachd air a bhriseadh sìos gu pìosan 30-diog, a thèid a thionndadh gu spectrogram log-Mel agus a chuir chun encoder. Tha toradh an encoder air a chuir chun decoder, a tha a’ ro-innse riochdachadh teacsa measgaichte le comharran sònraichte a leigeas, ann an aon mhodail coitcheann, fuasgladh fhaighinn air duilgheadasan leithid lorg cànain, cunntas a thoirt air eachdraidh fuaimneachadh abairtean, tar-sgrìobhadh cainnt ann an cànanan eadar-dhealaichte, agus eadar-theangachadh gu Beurla.

Source: fosgailtenet.ru

Cuir beachd ann