GitHub wis mbukak pangembangan babagan panggunaan machine learning kanggo panelusuran lan analisis kode

GitHub ngenalake konsep CodeSearchNet, sing wis nyiapake model pembelajaran mesin lan set data sing perlu kanggo parsing, klasifikasi lan nganalisa kode ing macem-macem basa program. CodeSearchNet, padha karo ImageNet, kalebu koleksi akeh potongan kode kanthi anotasi sing nggawe formalitas kode kasebut. Komponen kanggo model latihan lan conto nggunakake CodeSearchNet ditulis ing Python nggunakake framework Tensorflow lan disebarake dening miturut lisensi MIT.

Nalika nggawe CodeSearchNet, teknologi parsing teks basa alami digunakake, supaya sistem pembelajaran mesin ora mung nimbang fitur sintaksis, nanging uga makna saka tumindak sing ditindakake dening kode kasebut. Sistem GitHub ditrapake ing eksperimen babagan ngatur panelusuran kode semantik nggunakake pitakon ing basa alam (contone, nalika njaluk "ngurutake dhaptar strings", kode karo implementasine saka algoritma sing cocog ditampilake).

Dataset sing diusulake kalebu luwih saka 2 yuta tautan komentar-komentar, disiapake adhedhasar teks sumber perpustakaan mbukak sing ana. Kode kasebut nyakup teks sumber lengkap fungsi utawa metode individu, lan komentar kasebut nggambarake tumindak sing ditindakake dening fungsi kasebut (dokumentasi rinci diwenehake). Saiki, dataset disiapake kanggo Python, JavaScript, Ruby, Go, Java lan PHP. Conto diwenehake nggunakake set data sing diusulake kanggo nglatih macem-macem jinis jaringan saraf, kalebu Neural-Bag-Of-Words, RNN, Kawigatosan dhiri (BERT) lan 1D-CNN + Hibrid Perhatian Diri.

Kanggo ngembangake mekanisme panelusuran basa alami, sakumpulan CodeSearchNet Challenge wis disiapake, kalebu
99 khas pitakon kanthi kira-kira 4 ewu anotasi pakar sing njlèntrèhaké pengikatan kode sing paling mungkin ing kumpulan data CodeSearchNet Corpus, nyakup 6 yuta cara lan fungsi (ukuran set babagan 20 GB). Tantangan CodeSearchNet bisa dadi pathokan kanggo ngevaluasi efektifitas metode tartamtu kanggo nggoleki kode basa alami. Nggunakake alat KubeFlow disiapake
conto mesin telusur kode.

Source: opennet.ru

Add a comment