Tha GitHub air leasachaidhean fhosgladh ann an cleachdadh ionnsachadh innealan airson sgrùdadh còd agus mion-sgrùdadh

GitHub toirt a-steach dreachd CodeSearchNet, a tha air modalan ionnsachaidh inneal ullachadh agus seataichean dàta a tha riatanach airson parsadh, seòrsachadh agus sgrùdadh còd ann an grunn chànanan prògramaidh. CodeSearchNet, coltach ri IMAGEnet, a’ toirt a-steach cruinneachadh mòr de chriomagan còd le notaichean a chuireas gu foirmeil na bhios an còd a’ dèanamh. Tha co-phàirtean airson modalan trèanaidh agus eisimpleirean de chleachdadh CodeSearchNet air an sgrìobhadh ann am Python a’ cleachdadh frèam Tensorflow agus air a sgaoileadh le fo chead MIT.

Nuair a chaidh CodeSearchNet a chruthachadh, chaidh teicneòlasan parsaidh teacsa cànain nàdarra a chleachdadh, a’ toirt cothrom do shiostaman ionnsachaidh innealan aire a thoirt chan ann a-mhàin air feartan syntactic, ach cuideachd air brìgh nan gnìomhan a rinn a’ chòd. An siostam GitHub buntainn ann an deuchainnean mu bhith ag eagrachadh sgrùdadh còd semantach a’ cleachdadh cheistean air cànan nàdarrach (mar eisimpleir, nuair a dh'iarras tu "a 'rèiteachadh liosta de shreathan", tha còd le gnìomhachadh nan algorithms co-fhreagarrach air a thaisbeanadh).

Tha an stòr-dàta a thathar a’ moladh a’ toirt a-steach còrr air 2 mhillean ceangal beachd-còd, air ullachadh stèidhichte air teacsaichean tùsail nan leabharlannan fosgailte a th’ ann mar-thà. Tha an còd a’ còmhdach teacsa stòr iomlan ghnìomhan no dhòighean fa leth, agus tha am beachd a’ toirt cunntas air na gnìomhan a rinn an gnìomh (tha sgrìobhainnean mionaideach air an toirt seachad). An-dràsta, tha stòran-dàta gan ullachadh airson Python, JavaScript, Ruby, Go, Java agus PHP. Tha eisimpleirean air an toirt seachad de bhith a’ cleachdadh na stòran-dàta a thathar a’ moladh airson diofar sheòrsaichean de lìonraidhean neural a thrèanadh, a’ gabhail a-steach Neural-Bag-of-Words, RNN, Fèin-aire (BERT) agus 1D-CNN+ Hybrid fèin-aire.

Gus dòighean sgrùdaidh cànain nàdarra a leasachadh, chaidh seata de CodeSearchNet Challenge ullachadh a bharrachd, a’ gabhail a-steach
99 àbhaisteach ceistean le timcheall air 4 mìle nota eòlaiche a’ toirt cunntas air na ceanglaichean còd as coltaiche ann an stòr-dàta CodeSearchNet Corpus, a’ còmhdach timcheall air 6 millean dòigh agus gnìomh (meud a shuidheachadh mu 20 GB). Faodaidh Dùbhlan CodeSearchNet a bhith na shlat-tomhais airson a bhith a’ measadh èifeachdas cuid de dhòighean airson còd cànain nàdarra a lorg. A 'cleachdadh innealan Cuibhle-shruth ullachadh
eisimpleir einnsean sgrùdaidh còd.

Source: fosgailtenet.ru

Cuir beachd ann