Tha am pròiseact OpenAI, a bhios aâ leasachadh phròiseactan poblach ann an raon inntleachd fuadain, air leasachaidhean fhoillseachadh co-cheangailte ri siostam aithneachaidh cainnt Whisper. Thathas ag agairt gu bheil an siostam airson cainnt sa Bheurla aâ toirt seachad ĂŹrean earbsachd agus mionaideachd aithne fèin-ghluasadach faisg air aithne daonna. Chaidh an còd airson buileachadh iomraidh stèidhichte air frèam PyTorch agus seata de mhodalan air an trèanadh mar-thĂ , deiseil airson an cleachdadh, fhosgladh. Tha an còd fosgailte fo chead MIT.
Gus am modail a thrèanadh, chaidh 680 mĂŹle uair a thĂŹde de dhĂ ta cainnte a chleachdadh, air a chruinneachadh bho ghrunn chruinneachaidhean a 'còmhdach diofar chĂ nanan agus raointean cuspaireil. Tha timcheall air 1/3 den dĂ ta cainnte a tha an sĂ s ann an trèanadh ann an cĂ nanan eile seach Beurla. Bidh an siostam a thathar aâ moladh aâ lĂ imhseachadh gu ceart suidheachaidhean leithid fuaimneachadh le strĂ c, fuaim cĂšl-fhiosrachaidh, agus cleachdadh jargon teignigeach. A bharrachd air a bhith ag ath-sgrĂŹobhadh cainnt gu teacsa, faodaidh an siostam cuideachd cainnt eadar-theangachadh bho chĂ nan sam bith gu Beurla agus lorg coltas cainnt anns an t-sruth claisneachd.
Tha na modailean air an cruthachadh ann an dĂ riochdachadh: modail airson Beurla agus modail ioma-chĂ nanach, a tha cuideachd a 'toirt taic do chĂ nanan Ruiseanach, UcrĂ ineach agus BealarĂşisis. Ann an tionndadh, tha gach riochdachadh air a roinn ann an 5 roghainnean, eadar-dhealaichte ann am meud agus Ă ireamh nam paramadairean a tha air an còmhdach sa mhodail. Mar as motha am meud, is ann as Ă irde a tha cruinneas agus cĂ ileachd aithne, ach cuideachd mar as Ă irde na riatanasan airson meud cuimhne bhidio GPU agus mar as ĂŹsle an coileanadh. Mar eisimpleir, tha an roghainn as ĂŹsle a âtoirt a-steach 39 millean paramadair agus aâ feumachdainn 1 GB de chuimhne bhidio, agus tha an ĂŹre as Ă irde a âtoirt a-steach 1550 millean paramadair agus aâ feumachdainn 10 GB de chuimhne bhidio. Tha an roghainn as ĂŹsle 32 tursan nas luaithe na an ĂŹre as Ă irde.

Bidh an siostam aâ cleachdadh ailtireachd lĂŹonra neural Transformer, a tha aâ toirt a-steach encoder agus decoder a bhios ag eadar-obrachadh le chèile. Tha an claisneachd air a bhriseadh sĂŹos gu pĂŹosan 30-diog, a thèid a thionndadh gu spectrogram log-Mel agus a chuir chun encoder. Tha toradh an encoder air a chuir chun decoder, a tha aâ ro-innse riochdachadh teacsa measgaichte le comharran sònraichte a leigeas, ann an aon mhodail coitcheann, fuasgladh fhaighinn air duilgheadasan leithid lorg cĂ nain, cunntas a thoirt air eachdraidh fuaimneachadh abairtean, tar-sgrĂŹobhadh cainnt ann an cĂ nanan eadar-dhealaichte, agus eadar-theangachadh gu Beurla.
Source: fosgailtenet.ru
