GitHub te louvri devlopman nan itilizasyon aprantisaj machin pou rechèch ak analiz kòd

GitHub entwodwi pwojè CodeSearchNet, ki te prepare modèl aprantisaj machin ak seri done ki nesesè pou analize, klasifye ak analize kòd nan divès langaj pwogramasyon. CodeSearchNet, menm jan ak IMAGEnet, gen ladann yon gwo koleksyon fragman kòd ak anotasyon ki fòmalize sa kòd la fè. Konpozan pou modèl fòmasyon ak egzanp itilizasyon CodeSearchNet yo ekri nan Python lè l sèvi avèk fondasyon Tensorflow la ak distribiye pa anba lisans MIT.

Lè kreye CodeSearchNet, yo te itilize teknoloji analyse tèks lang natirèl, ki pèmèt sistèm aprantisaj machin yo pran an kont non sèlman karakteristik sentaktik, men tou siyifikasyon aksyon kòd la fè. Sistèm GitHub la aplike nan eksperyans sou òganize rechèch kòd semantik lè l sèvi avèk demann sou lang natirèl (pou egzanp, lè w ap mande "klasye yon lis fisèl", kòd ak aplikasyon an nan algoritm ki koresponn yo parèt).

Ansanm done yo pwopoze a gen ladan plis pase 2 milyon lyen kòd-kòmantè, ki prepare dapre tèks sous bibliyotèk ki egziste deja yo. Kòd la kouvri tèks sous konplè a nan fonksyon endividyèl oswa metòd, ak kòmantè a dekri aksyon yo fèt pa fonksyon an (yo bay dokiman detaye). Kounye a, done yo prepare pou Python, JavaScript, Ruby, Go, Java ak PHP. Egzanp yo bay sou itilizasyon done yo pwopoze pou fòmasyon divès kalite rezo neral, ki gen ladan Neural-sak-de-mo, RNN, Oto-atansyon (BERT) ak 1D-CNN + Oto-Atansyon Hybrid.

Pou devlope mekanis rechèch nan lang natirèl, yo te prepare yon seri defi CodeSearchNet anplis, tankou
99 tipik demann ak apeprè 4 mil anons ekspè ki dekri kòd ki gen plis chans nan seri done CodeSearchNet Corpus, ki kouvri apeprè 6 milyon metòd ak fonksyon (mete gwosè apeprè 20 GB). CodeSearchNet Challenge la kapab sèvi kòm yon referans pou evalye efikasite sèten metòd pou chèche kòd lang natirèl. Sèvi ak zouti KubeFlow prepare
egzanp motè rechèch kòd.

Sous: opennet.ru

Add nouvo kòmantè