GitHub hefur opnað fyrir þróun í notkun vélanáms fyrir kóðaleit og greiningu

GitHub kynnt verkefni CodeSearchNet, sem hefur útbúið vélanámslíkön og gagnasöfn sem eru nauðsynleg til að flokka, flokka og greina kóða á ýmsum forritunarmálum. CodeSearchNet, svipað og ImageNet, inniheldur mikið safn af kóðabútum með athugasemdum sem formfesta það sem kóðinn gerir. Íhlutir fyrir þjálfunarlíkön og dæmi um notkun CodeSearchNet eru skrifaðir í Python með Tensorflow ramma og dreift af undir MIT leyfi.

Þegar CodeSearchNet var búið til var notuð náttúruleg textagreiningartækni, sem gerði vélanámskerfum kleift að taka ekki aðeins tillit til setningafræðilegra eiginleika, heldur einnig merkingu aðgerða sem kóðinn framkvæmir. GitHub kerfið gildir í tilraunum um að skipuleggja merkingarkóðaleit með því að nota fyrirspurnir á náttúrulegt tungumál (til dæmis, þegar beðið er um að „raða lista yfir strengi“ birtist kóði með útfærslu samsvarandi reiknirita).

Fyrirhugað gagnasafn inniheldur meira en 2 milljónir tengla fyrir athugasemdir með kóða, útbúnar á grundvelli frumtexta núverandi opinna bókasöfna. Kóðinn nær yfir allan frumtexta einstakra aðgerða eða aðferða og athugasemdin lýsir aðgerðum sem aðgerðin framkvæmir (nákvæm skjöl fylgja). Eins og er eru gagnasöfn útbúin fyrir Python, JavaScript, Ruby, Go, Java og PHP. Dæmi eru gefin um notkun fyrirhugaðra gagnapakka til að þjálfa ýmsar gerðir tauganeta, þ.m.t Tauga-Bag-Of-Orðs, RNN, Sjálfsathygli (BERT) og 1D-CNN+Self-Attention Hybrid.

Til að þróa náttúruleg tungumálaleitarkerfi hefur sett af CodeSearchNet Challenge verið útbúið til viðbótar, þar á meðal
99 dæmigert fyrirspurnir með um 4 þúsund athugasemdum sérfræðinga sem lýsa líklegast kóðabindingum í CodeSearchNet Corpus gagnasafninu, sem nær yfir um 6 milljónir aðferða og aðgerða (sett stærð um 20 GB). CodeSearchNet Challenge getur þjónað sem viðmið til að meta skilvirkni ákveðinna aðferða til að leita að náttúrulegum tungumálakóða. Að nota verkfæri KubeFlow undirbúinn
Dæmi kóða leitarvél.

Heimild: opennet.ru

Bæta við athugasemd