GitHub nag-abli sa mga kalamboan sa paggamit sa machine learning alang sa pagpangita ug pagtuki sa code

GitHub gipaila ang proyekto CodeSearchNet, nga nag-andam sa mga modelo sa pagkat-on sa makina ug mga set sa datos nga gikinahanglan alang sa pag-parse, pagklasipikar ug pag-analisar sa code sa lain-laing mga programming language. CodeSearchNet, susama sa ImageNet, naglakip sa daghang koleksyon sa mga snippet sa code nga adunay mga anotasyon nga nagpormal sa gibuhat sa code. Ang mga sangkap alang sa mga modelo sa pagbansay ug mga pananglitan sa paggamit sa CodeSearchNet gisulat sa Python gamit ang Tensorflow framework ug giapod-apod sa ubos sa lisensya sa MIT.

Sa paghimo sa CodeSearchNet, gigamit ang mga teknolohiya sa pag-parse sa teksto sa natural nga pinulongan, nga nakapahimo sa mga sistema sa pagkat-on sa makina sa pagkonsiderar dili lamang sa mga syntactic nga bahin, kondili usab sa kahulogan sa mga aksyon nga gihimo sa code. Ang sistema sa GitHub gipadapat sa mga eksperimento sa pag-organisar sa pagpangita sa semantic code gamit ang mga pangutana sa natural nga pinulongan (pananglitan, kung naghangyo "pagsunud sa usa ka lista sa mga kuwerdas", gipakita ang code nga adunay pagpatuman sa katugbang nga mga algorithm).

Ang gisugyot nga dataset naglakip sa labaw sa 2 ka milyon nga code-comment links, giandam base sa tinubdan nga mga teksto sa kasamtangan nga bukas nga mga librarya. Ang code naglangkob sa kompleto nga gigikanan nga teksto sa indibidwal nga mga gimbuhaton o pamaagi, ug ang komento naghulagway sa mga aksyon nga gihimo sa function (detalyadong dokumentasyon gihatag). Sa pagkakaron, ang mga dataset giandam alang sa Python, JavaScript, Ruby, Go, Java ug PHP. Gihatag ang mga pananglitan sa paggamit sa gisugyot nga mga dataset para sa pagbansay sa lainlaing mga klase sa neural network, lakip Neural-Bag-Of-Words, RNN, Pagtagad sa kaugalingon (BERT) ug 1D-CNN+Self-Attention Hybrid.

Aron mapalambo ang natural nga mga mekanismo sa pagpangita sa pinulongan, usa ka hugpong sa CodeSearchNet Challenge ang dugang giandam, lakip
99 kasagaran mga pangutana nga adunay mga 4 ka libo nga mga annotation sa eksperto nga naghulagway sa lagmit nga mga pagbugkos sa code sa dataset sa CodeSearchNet Corpus, nga naglangkob sa mga 6 ka milyon nga mga pamaagi ug mga gimbuhaton (gitakda ang gidak-on mga 20 GB). Ang CodeSearchNet Challenge mahimong magsilbi nga sukaranan sa pagtimbang-timbang sa pagkaepektibo sa pipila ka mga pamaagi sa pagpangita sa natural nga code sa pinulongan. Paggamit sa mga himan KubeFlow giandam
usa ka panig-ingnan search engine sa code.

Source: opennet.ru

Idugang sa usa ka comment