GitHub కోడ్ శోధన మరియు విశ్లేషణ కోసం మెషిన్ లెర్నింగ్ ఉపయోగంలో అభివృద్ధిని ప్రారంభించింది

గ్యాలరీలు సమర్పించిన ప్రాజెక్ట్ CodeSearchNet, ఇది వివిధ ప్రోగ్రామింగ్ భాషలలో కోడ్‌ను అన్వయించడం, వర్గీకరించడం మరియు విశ్లేషించడం కోసం అవసరమైన యంత్ర అభ్యాస నమూనాలు మరియు డేటా సెట్‌లను సిద్ధం చేసింది. CodeSearchNet, పోలి IMAGEnet, కోడ్ ఏమి చేస్తుందో అధికారికీకరించే ఉల్లేఖనాలతో కూడిన కోడ్ స్నిప్పెట్‌ల యొక్క పెద్ద సేకరణను కలిగి ఉంటుంది. శిక్షణ నమూనాల కోసం భాగాలు మరియు కోడ్‌సెర్చ్‌నెట్‌ను ఉపయోగించడం యొక్క ఉదాహరణలు Tensorflow ఫ్రేమ్‌వర్క్‌ని ఉపయోగించి పైథాన్‌లో వ్రాయబడ్డాయి మరియు ద్వారా పంపిణీ చేయబడింది MIT లైసెన్స్ కింద.

కోడ్‌సెర్చ్‌నెట్‌ను సృష్టించేటప్పుడు, సహజ భాషా టెక్స్ట్ పార్సింగ్ సాంకేతికతలు ఉపయోగించబడ్డాయి, మెషీన్ లెర్నింగ్ సిస్టమ్‌లు వాక్యనిర్మాణ లక్షణాలను మాత్రమే కాకుండా, కోడ్ ద్వారా చేసే చర్యల అర్థాన్ని కూడా పరిగణనలోకి తీసుకునేలా చేస్తుంది. GitHub వ్యవస్థ వర్తిస్తుంది అనే ప్రశ్నలను ఉపయోగించి సెమాంటిక్ కోడ్ శోధనను నిర్వహించడంపై ప్రయోగాలలో సహజ భాష (ఉదాహరణకు, "తీగల జాబితాను క్రమబద్ధీకరించడం" అభ్యర్థించినప్పుడు, సంబంధిత అల్గారిథమ్‌ల అమలుతో కోడ్ ప్రదర్శించబడుతుంది).

ప్రతిపాదిత డేటాసెట్‌లో 2 మిలియన్ కంటే ఎక్కువ కోడ్-వ్యాఖ్య లింక్‌లు ఉన్నాయి, ఇది ఇప్పటికే ఉన్న ఓపెన్ లైబ్రరీల సోర్స్ టెక్స్ట్‌ల ఆధారంగా తయారు చేయబడింది. కోడ్ వ్యక్తిగత విధులు లేదా పద్ధతుల యొక్క పూర్తి మూల వచనాన్ని కవర్ చేస్తుంది మరియు వ్యాఖ్య ఫంక్షన్ ద్వారా చేసిన చర్యలను వివరిస్తుంది (వివరణాత్మక డాక్యుమెంటేషన్ అందించబడింది). ప్రస్తుతం, పైథాన్, జావాస్క్రిప్ట్, రూబీ, గో, జావా మరియు PHP కోసం డేటాసెట్‌లు సిద్ధం చేయబడ్డాయి. వివిధ రకాలైన న్యూరల్ నెట్‌వర్క్‌లకు శిక్షణ ఇవ్వడానికి ప్రతిపాదిత డేటాసెట్‌లను ఉపయోగించడం కోసం ఉదాహరణలు అందించబడ్డాయి న్యూరల్-బ్యాగ్-ఆఫ్-వర్డ్స్, RNN, స్వీయ-శ్రద్ధ (BERT) మరియు 1D-CNN+సెల్ఫ్ అటెన్షన్ హైబ్రిడ్.

సహజ భాషా శోధన మెకానిజమ్‌లను అభివృద్ధి చేయడానికి, కోడ్‌సెర్చ్‌నెట్ ఛాలెంజ్ సమితి అదనంగా తయారు చేయబడింది, వీటిలో
99 విలక్షణమైనది కోడ్‌సెర్చ్‌నెట్ కార్పస్ డేటాసెట్‌లోని అత్యంత సంభావ్య కోడ్ బైండింగ్‌లను వివరించే సుమారు 4 వేల నిపుణుల ఉల్లేఖనాలతో ప్రశ్నలు, సుమారు 6 మిలియన్ పద్ధతులు మరియు విధులను కవర్ చేస్తుంది (సెట్ పరిమాణం సుమారు 20 GB). కోడ్‌సెర్చ్ నెట్ ఛాలెంజ్ సహజ భాషా కోడ్‌ను శోధించడానికి కొన్ని పద్ధతుల ప్రభావాన్ని అంచనా వేయడానికి ఒక బెంచ్‌మార్క్‌గా ఉపయోగపడుతుంది. సాధనాలను ఉపయోగించడం కుబేఫ్లో సిద్ధం
ఒక ఉదాహరణ కోడ్ శోధన ఇంజిన్.

మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి