GitHub ti ṣii awọn idagbasoke ni lilo ẹkọ ẹrọ fun wiwa koodu ati itupalẹ

GitHub ṣafihan igbiyanju CodeSearchNet, eyiti o ti pese awọn awoṣe ikẹkọ ẹrọ ati awọn ipilẹ data pataki fun sisọ, pinpin ati itupalẹ koodu ni ọpọlọpọ awọn ede siseto. CodeSearchNet, iru si IMAGEnet, pẹlu akojọpọ nla ti awọn snippets koodu pẹlu awọn asọye ti o ṣe agbekalẹ ohun ti koodu naa ṣe. Awọn paati fun awọn awoṣe ikẹkọ ati awọn apẹẹrẹ ti lilo CodeSearchNet ni a kọ sinu Python nipa lilo ilana Tensorflow ati pin nipasẹ labẹ iwe-aṣẹ MIT.

Nigbati o ba ṣẹda CodeSearchNet, awọn imọ-ẹrọ ṣiṣayẹwo ọrọ ede adayeba ni a lo, ṣiṣe awọn eto ikẹkọ ẹrọ lati ṣe akiyesi kii ṣe awọn ẹya syntactic nikan, ṣugbọn itumọ awọn iṣe ti o ṣe nipasẹ koodu naa. Eto GitHub loo ninu awọn adanwo lori siseto wiwa koodu atunmọ nipa lilo awọn ibeere lori ede adayeba (fun apẹẹrẹ, nigba ti o ba beere fun "to akojọ kan ti awọn okun", koodu pẹlu imuse ti awọn algoridimu ti o baamu ti han).

Eto data ti a dabaa pẹlu diẹ sii ju awọn ọna asopọ asọye koodu miliọnu 2, ti a pese sile da lori awọn ọrọ orisun ti awọn ile-ikawe ṣiṣi ti o wa tẹlẹ. Koodu naa ni wiwa ọrọ orisun pipe ti awọn iṣẹ kọọkan tabi awọn ọna, ati asọye ṣe apejuwe awọn iṣe ti iṣẹ naa ṣe (awọn iwe alaye ti pese). Lọwọlọwọ, awọn ipilẹ data ti pese sile fun Python, JavaScript, Ruby, Go, Java ati PHP. Awọn apẹẹrẹ ni a pese ti lilo awọn ipilẹ data ti a dabaa fun ikẹkọ awọn oriṣi ti awọn nẹtiwọọki nkankikan, pẹlu Neural-Bag-of-Words, RNN, Ifojusi Ara-ẹni (BERT) ati 1D-CNN + Ara-Ifiyesi arabara.

Lati ṣe agbekalẹ awọn ọna ṣiṣe wiwa ede adayeba, ṣeto ti CodeSearchNet Ipenija ti ni afikun ni afikun, pẹlu
99 aṣoju awọn ibeere pẹlu bii awọn alaye alamọja 4 ẹgbẹrun ti n ṣapejuwe awọn asopọ koodu ti o ṣeeṣe julọ ninu dataset CodeSearchNet Corpus, ti o bo nipa awọn ọna ati awọn iṣẹ miliọnu 6 (ṣeto iwọn nipa 20 GB). Ipenija CodeSearchNet le ṣiṣẹ bi ala-ilẹ fun iṣiro imunadoko ti awọn ọna kan fun wiwa koodu ede adayeba. Lilo awọn irinṣẹ KubeFlow gbaradi
apẹẹrẹ koodu search engine.

orisun: opennet.ru

Fi ọrọìwòye kun