D'oscail GitHub forbairtí maidir le húsáid meaisínfhoghlama le haghaidh cuardach cód agus anailís

GitHub tugadh isteach tionscadal CodeSearchNet, a d'ullmhaigh samhlacha meaisínfhoghlama agus tacair sonraí atá riachtanach chun cód a pharsáil, a rangú agus a anailísiú i dteangacha ríomhchlárúcháin éagsúla. CodeSearchNet, cosúil le IMAGEnet, cuimsíonn sé bailiúchán mór gearrthóga cód le nótaí a dhéanann foirmeálta ar a ndéanann an cód. Scríobhtar comhpháirteanna do mhúnlaí oiliúna agus samplaí d’úsáid CodeSearchNet i Python ag baint úsáide as creat Tensorflow agus dáilte ag faoi ​​cheadúnas MIT.

Agus CodeSearchNet á chruthú, baineadh úsáid as teicneolaíochtaí parsála téacs teanga nádúrtha, rud a chuir ar chumas na gcóras meaisínfhoghlama ní hamháin gnéithe comhréire a chur san áireamh, ach freisin brí na ngníomhartha a rinne an cód. An córas GitHub curtha i bhfeidhm i dturgnaimh ar chuardach cód shéimeantach a eagrú ag baint úsáide as fiosrúcháin ar teanga nádúrtha (mar shampla, nuair a iarrtar “liosta teaghráin a shórtáil”, taispeántar cód le cur i bhfeidhm na n-algartam comhfhreagrach).

Áiríonn an tacar sonraí atá beartaithe níos mó ná 2 mhilliún nasc cód-tráchtála, a ullmhaíodh bunaithe ar théacsanna foinse na leabharlann oscailte atá ann cheana féin. Clúdaíonn an cód téacs foinse iomlán na bhfeidhmeanna nó na modhanna aonair, agus déanann an trácht cur síos ar na gníomhartha a dhéanann an fheidhm (soláthraítear doiciméadacht mhionsonraithe). Faoi láthair, ullmhaítear tacair shonraí do Python, JavaScript, Ruby, Go, Java agus PHP. Soláthraítear samplaí de na tacair shonraí atá beartaithe a úsáid chun cineálacha éagsúla líonraí néaracha a oiliúint, lena n-áirítear Neural-Mála-As-Focail, RNN, Féin-Aird (BERT) agus 1D-CNN+Hibrideach Féinaird.

Chun meicníochtaí cuardaigh teanga nádúrtha a fhorbairt, ullmhaíodh sraith Dúshlán CodeSearchNet freisin, lena n-áirítear
99 tipiciúil fiosrúcháin le thart ar 4 mhíle nóta saineolach ag cur síos ar na ceangail chóid is dóichí i tacar sonraí CodeSearchNet Corpus, a chlúdaíonn thart ar 6 mhilliún modh agus feidhm (méid socraithe thart ar 20 GB). Is féidir leis an Dúshlán CodeSearchNet feidhmiú mar thagarmharc chun éifeachtúlacht modhanna áirithe chun cód nádúrtha teanga a chuardach a mheas. Ag baint úsáide as uirlisí KubeFlow ullmhaithe
mar shampla inneall cuardaigh cód.

Foinse: oscailtenet.ru

Add a comment