GitHub geus muka kamajuan dina pamakéan learning mesin keur pilarian kode jeung analisis

GitHub ngenalkeun proyékna CodeSearchNet, anu parantos nyiapkeun modél pembelajaran mesin sareng set data anu dipikabutuh pikeun nga-parsing, ngaklasifikasikeun sareng nganalisis kode dina sababaraha basa program. CodeSearchNet, sarupa jeung IMAGEnet, ngawengku kumpulan badag snippét kode kalawan annotations nu formalize naon kode teu. Komponén pikeun modél latihan jeung conto ngagunakeun CodeSearchNet ditulis dina Python ngagunakeun kerangka Tensorflow na disebarkeun ku handapeun lisénsi MIT.

Nalika nyieun CodeSearchNet, téknologi parsing téks basa alami dipaké, ngamungkinkeun sistem pembelajaran mesin merhatikeun henteu ngan fitur sintaksis, tapi ogé harti tindakan anu dilakukeun ku kode éta. Sistim GitHub dilarapkeun dina percobaan dina pangatur pilarian kode semantik ngagunakeun queries on basa alam (Contona, nalika nyuhunkeun "nyortir daptar senar", kode sareng palaksanaan algoritma anu saluyu ditampilkeun).

Dataset anu diusulkeun kalebet langkung ti 2 juta tautan koméntar kode, disusun dumasar kana téks sumber tina perpustakaan kabuka anu tos aya. Kode nyertakeun téks sumber lengkep fungsi atawa métode individu, sarta komentar ngajelaskeun lampah dipigawé ku fungsi (dokuméntasi lengkep disadiakeun). Ayeuna, susunan data disiapkeun pikeun Python, JavaScript, Ruby, Go, Java sareng PHP. Conto anu disayogikeun ngeunaan ngagunakeun set data anu diusulkeun pikeun ngalatih sababaraha jinis jaringan saraf, kalebet Neural-Bag-Of-Words, RNN, Perhatian diri (BERT) jeung 1D-CNN + Hibrid Perhatian Diri.

Pikeun ngamekarkeun mékanisme pilarian basa alam, sakumpulan CodeSearchNet Challenge geus disiapkeun tambahan, kaasup
99 tipikal patarosan ngeunaan 4 sarébu annotations ahli ngajéntrékeun beungkeutan kode paling dipikaresep dina dataset CodeSearchNet Corpus, ngawengku ngeunaan 6 juta métode jeung fungsi (ukuran set ngeunaan 20 GB). The CodeSearchNet Challenge bisa dijadikeun patokan pikeun meunteun efektivitas metode nu tangtu pikeun neangan kode basa alam. Ngagunakeun parabot KubeFlow disiapkeun
conto mesin pencari kode.

sumber: opennet.ru

Tambahkeun komentar