GitHub pêşveçûnên di karanîna fêrbûna makîneyê de ji bo lêgerîn û analîzkirina kodê vekiriye

GitHub danasîn projeyê CodeSearchNet, ku modelên fêrbûna makîneyê û berhevokên daneyê yên ku ji bo parskirin, dabeşkirin û analîzkirina kodê di zimanên cihêreng ên bernamekirinê de hewce ne amade kiriye. CodeSearchNet, mîna IMAGEnet, berhevokek mezin ji perçeyên kodê yên bi şîroveyên ku kodê dike fermî dike vedihewîne. Parçeyên ji bo modelên perwerdehiyê û nimûneyên karanîna CodeSearchNet di Python de bi karanîna çarçoveya Tensorflow ve têne nivîsandin û belav kirin ji hêla di bin lîsansa MIT.

Dema afirandina CodeSearchNet, teknolojiyên parkirina nivîsê ya zimanê xwezayî hate bikar anîn, ku pergalên fêrbûna makîneyê dihêle ku ne tenê taybetmendiyên hevoksaziyê, lê di heman demê de wateya kiryarên ku ji hêla kodê ve têne kirin jî bihesibînin. Sîstema GitHub sepandin di ceribandinên li ser organîzekirina lêgerîna koda semantîkî de bi karanîna pirsan li ser zimanê xwezayî (Mînakî, dema ku daxwaza "rêvekirina navnîşek rêzan" dike, koda bi pêkanîna algorîtmayên têkildar tê xuyang kirin).

Danûstendina pêşniyarkirî zêdetirî 2 mîlyon girêdanên kod-şirove vedihewîne, ku li ser bingeha metnên çavkanî yên pirtûkxaneyên vekirî yên heyî hatine amadekirin. Kod nivîsa çavkaniyê ya bêkêmasî ya fonksiyon an rêbazan vedihewîne, û şîrove kiryarên ku ji hêla fonksiyonê ve têne kirin vedibêje (belgeyên berfireh têne peyda kirin). Heya nuha, daneyên ji bo Python, JavaScript, Ruby, Go, Java û PHP têne amadekirin. Nimûneyên karanîna danehevên pêşniyarkirî ji bo perwerdekirina cûrbecûr torên neuralî, di nav de, têne peyda kirin Neural-Bag-Of-Words, RNN, Xweserî (BERT) û 1D-CNN+Hybrid-Hilgirtina Xwe.

Ji bo pêşdebirina mekanîzmayên lêgerîna zimanê xwezayî, komek CodeSearchNet Challenge jî tê de hatî amadekirin
99 tîpîk lêpirsînên ku bi qasî 4 hezar şîroveyên pispor ve girêdayî girêdanên kodê yên herî muhtemel ên di databasa CodeSearchNet Corpus de vedibêjin, bi qasî 6 mîlyon rêbaz û fonksiyonan vedihewîne (size set nêzîkî 20 GB). Pirsgirêka CodeSearchNet dikare wekî pîvanek ji bo nirxandina bandorkeriya hin awayan ji bo lêgerîna koda zimanê xwezayî xizmet bike. Amûrên bikar tînin KubeFlow amade kirin
nimûne motora lêgerînê ya kodê.

Source: opennet.ru

Add a comment