GitHub fetaħ żviluppi fl-użu tat-tagħlim tal-magni għat-tfittxija u l-analiżi tal-kodiċi

GitHub daħħal proġett CodeSearchNet, li ħejjiet mudelli ta 'tagħlim tal-magni u settijiet ta' dejta meħtieġa għall-parsing, il-klassifikazzjoni u l-analiżi tal-kodiċi f'diversi lingwi ta 'programmar. CodeSearchNet, simili għal ImageNet, jinkludi kollezzjoni kbira ta' snippets ta' kodiċi b'annotazzjonijiet li jifformalizzaw dak li jagħmel il-kodiċi. Komponenti għal mudelli ta’ taħriġ u eżempji ta’ użu ta’ CodeSearchNet huma miktuba f’Python bl-użu tal-qafas Tensorflow u imqassma minn taħt il-liċenzja MIT.

Meta ħoloq CodeSearchNet, intużaw teknoloġiji tal-parsing tat-test bil-lingwa naturali, li ppermettew lis-sistemi tat-tagħlim tal-magni jqisu mhux biss il-karatteristiċi sintattiċi, iżda wkoll it-tifsira tal-azzjonijiet imwettqa mill-kodiċi. Is-sistema GitHub applikati f'esperimenti dwar l-organizzazzjoni tat-tfittxija tal-kodiċi semantiku bl-użu ta' mistoqsijiet fuq lingwa naturali (pereżempju, meta titlob "l-għażla ta 'lista ta' kordi", jintwera kodiċi bl-implimentazzjoni tal-algoritmi korrispondenti).

Is-sett tad-dejta propost jinkludi aktar minn 2 miljun link ta’ kodiċi-kumment, ippreparati abbażi tat-testi sors ta’ libreriji miftuħa eżistenti. Il-kodiċi jkopri t-test sors sħiħ ta 'funzjonijiet jew metodi individwali, u l-kumment jiddeskrivi l-azzjonijiet imwettqa mill-funzjoni (dokumentazzjoni dettaljata hija pprovduta). Bħalissa, settijiet tad-dejta huma ppreparati għal Python, JavaScript, Ruby, Go, Java u PHP. Huma pprovduti eżempji tal-użu tas-settijiet tad-dejta proposti għat-taħriġ ta’ diversi tipi ta’ netwerks newrali, inkluż Neural-Bag-Of-Words, RNN, Attenzjoni għal rasha (BERT) u 1D-CNN+Attenzjoni Ibrida.

Biex jiġu żviluppati mekkaniżmi ta’ tfittxija tal-lingwa naturali, ġie mħejji wkoll sett ta’ CodeSearchNet Challenge, inkluż
99 tipiku mistoqsijiet b'madwar 4 elf annotazzjoni esperta li jiddeskrivu l-irbit tal-kodiċi l-aktar probabbli fis-sett tad-dejta CodeSearchNet Corpus, li jkopri madwar 6 miljun metodu u funzjonijiet (issettja daqs madwar 20 GB). L-Isfida CodeSearchNet tista' taġixxi bħala punt ta' referenza għall-evalwazzjoni tal-effettività ta' ċerti metodi għat-tiftix tal-kodiċi tal-lingwa naturali. Jużaw għodod KubeFlow ippreparat
eżempju magna tat-tiftix tal-kodiċi.

Sors: opennet.ru

Żid kumment