Mae GitHub wedi agor datblygiadau yn y defnydd o ddysgu peirianyddol ar gyfer chwilio a dadansoddi cod

GitHub cyflwyno y prosiect CodeSearchNet, sydd wedi paratoi modelau dysgu peirianyddol a setiau data sy'n angenrheidiol ar gyfer dosrannu, dosbarthu a dadansoddi cod mewn amrywiol ieithoedd rhaglennu. CodeSearchNet, tebyg i DelweddNet, yn cynnwys casgliad mawr o bytiau cod gydag anodiadau sy'n ffurfioli'r hyn y mae'r cod yn ei wneud. Mae cydrannau ar gyfer modelau hyfforddi ac enghreifftiau o ddefnyddio CodeSearchNet yn cael eu hysgrifennu yn Python gan ddefnyddio fframwaith Tensorflow a dosbarthu gan dan drwydded MIT.

Wrth greu CodeSearchNet, defnyddiwyd technolegau dosrannu testun iaith naturiol, gan alluogi systemau dysgu peirianyddol i ystyried nid yn unig nodweddion cystrawennol, ond hefyd ystyr y gweithredoedd a gyflawnir gan y cod. Y system GitHub wedi'i gymhwyso mewn arbrofion ar drefnu chwiliad cod semantig gan ddefnyddio ymholiadau ar iaith naturiol (er enghraifft, wrth ofyn am β€œddidoli rhestr o linynnau”, dangosir cod gyda gweithrediad yr algorithmau cyfatebol).

Mae'r set ddata arfaethedig yn cynnwys mwy na 2 filiwn o ddolenni cod-sylwadau, a baratowyd yn seiliedig ar destunau ffynhonnell y llyfrgelloedd agored presennol. Mae'r cod yn ymdrin Γ’ thestun ffynhonnell cyflawn swyddogaethau neu ddulliau unigol, ac mae'r sylw'n disgrifio'r gweithredoedd a gyflawnir gan y swyddogaeth (darperir dogfennaeth fanwl). Ar hyn o bryd, mae setiau data yn cael eu paratoi ar gyfer Python, JavaScript, Ruby, Go, Java a PHP. Darperir enghreifftiau o ddefnyddio'r setiau data arfaethedig ar gyfer hyfforddi gwahanol fathau o rwydweithiau niwral, gan gynnwys Nerfol-Bag-O-Geiriau, RNN, Hunan-Sylw (BERT) a Hybrid 1D-CNN+Hunansylw.

Er mwyn datblygu mecanweithiau chwilio iaith naturiol, mae set o Her CodeSearchNet wedi'i pharatoi hefyd, gan gynnwys
99 nodweddiadol ymholiadau gyda thua 4 mil o anodiadau arbenigol yn disgrifio'r rhwymiadau cod mwyaf tebygol yn set ddata CodeSearchNet Corpus, yn cwmpasu tua 6 miliwn o ddulliau a swyddogaethau (maint gosod tua 20 GB). Gall Her CodeSearchNet fod yn feincnod ar gyfer gwerthuso effeithiolrwydd rhai dulliau ar gyfer chwilio cod iaith naturiol. Defnyddio offer Ciwblif wedi'i baratoi
enghraifft peiriant chwilio cod.

Ffynhonnell: opennet.ru

Ychwanegu sylw