GitHub hat ûntjouwings iepene yn it brûken fan masine learen foar koade sykjen en analyse

GitHub yntrodusearre ûntwerp CodeSearchNet. CodeSearchNet, fergelykber mei IMAGEnet, befettet in grutte kolleksje koade snippets mei annotaasjes dy't formalisearje wat de koade docht. Komponinten foar trainingsmodellen en foarbylden fan it brûken fan CodeSearchNet binne skreaun yn Python mei it Tensorflow-ramt en ferspraat troch ûnder de MIT-lisinsje.

By it oanmeitsjen fan CodeSearchNet waarden technologyen foar tekstparsing fan natuerlike taal brûkt, wêrtroch masine-learsystemen net allinich syntaktyske funksjes yn rekken brocht, mar ek de betsjutting fan 'e aksjes útfierd troch de koade. It GitHub-systeem tapast yn eksperiminten op it organisearjen fan semantyske koade sykjen mei help fan queries op natuerlike taal (Bygelyks, by it oanfreegjen fan "sortearjen fan in list mei snaren", wurdt koade werjûn mei de ymplemintaasje fan de oerienkommende algoritmen).

De foarstelde dataset omfettet mear dan 2 miljoen koade-kommentaarkeppelings, taret op basis fan de boarneteksten fan besteande iepen bibleteken. De koade beslacht de folsleine boarnetekst fan yndividuele funksjes of metoaden, en it kommentaar beskriuwt de aksjes útfierd troch de funksje (detaillearre dokumintaasje wurdt levere). Op it stuit wurde datasets taret foar Python, JavaScript, Ruby, Go, Java en PHP. Foarbylden wurde levere foar it brûken fan de foarstelde datasets foar training fan ferskate soarten neuronale netwurken, ynklusyf Neural-Bag-Fan-Words, RNN, Self-Attention (BERT) en 1D-CNN + Self-Attention Hybrid.

Om sykmeganismen foar natuerlike taal te ûntwikkeljen, is in set fan CodeSearchNet Challenge ek taret, ynklusyf
99 typysk fragen mei sawat 4 tûzen saakkundige annotaasjes dy't de meast wierskynlike koadebindingen beskriuwe yn 'e CodeSearchNet Corpus dataset, dy't sawat 6 miljoen metoaden en funksjes beslaan (set grutte sawat 20 GB). De CodeSearchNet Challenge kin tsjinje as benchmark foar it evaluearjen fan de effektiviteit fan bepaalde metoaden foar it sykjen fan natuerlike taalkoade. Mei help fan ark KubeFlow taret
foarbyld koade sykmasine.

Boarne: opennet.ru

Add a comment