GitHub కోడ్ శోధన మరియు విశ్లేషణ కోసం మెషిన్ లెర్నింగ్ ఉపయోగంలో అభివృద్ధిని ప్రారంభించింది
గ్యాలరీలు సమర్పించిన ప్రాజెక్ట్ CodeSearchNet, ఇది వివిధ ప్రోగ్రామింగ్ భాషలలో కోడ్ను అన్వయించడం, వర్గీకరించడం మరియు విశ్లేషించడం కోసం అవసరమైన యంత్ర అభ్యాస నమూనాలు మరియు డేటా సెట్లను సిద్ధం చేసింది. CodeSearchNet, పోలి IMAGEnet, కోడ్ ఏమి చేస్తుందో అధికారికీకరించే ఉల్లేఖనాలతో కూడిన కోడ్ స్నిప్పెట్ల యొక్క పెద్ద సేకరణను కలిగి ఉంటుంది. శిక్షణ నమూనాల కోసం భాగాలు మరియు కోడ్సెర్చ్నెట్ను ఉపయోగించడం యొక్క ఉదాహరణలు Tensorflow ఫ్రేమ్వర్క్ని ఉపయోగించి పైథాన్లో వ్రాయబడ్డాయి మరియు ద్వారా పంపిణీ చేయబడింది MIT లైసెన్స్ కింద.
కోడ్సెర్చ్నెట్ను సృష్టించేటప్పుడు, సహజ భాషా టెక్స్ట్ పార్సింగ్ సాంకేతికతలు ఉపయోగించబడ్డాయి, మెషీన్ లెర్నింగ్ సిస్టమ్లు వాక్యనిర్మాణ లక్షణాలను మాత్రమే కాకుండా, కోడ్ ద్వారా చేసే చర్యల అర్థాన్ని కూడా పరిగణనలోకి తీసుకునేలా చేస్తుంది. GitHub వ్యవస్థ వర్తిస్తుంది అనే ప్రశ్నలను ఉపయోగించి సెమాంటిక్ కోడ్ శోధనను నిర్వహించడంపై ప్రయోగాలలో సహజ భాష (ఉదాహరణకు, "తీగల జాబితాను క్రమబద్ధీకరించడం" అభ్యర్థించినప్పుడు, సంబంధిత అల్గారిథమ్ల అమలుతో కోడ్ ప్రదర్శించబడుతుంది).
ప్రతిపాదిత డేటాసెట్లో 2 మిలియన్ కంటే ఎక్కువ కోడ్-వ్యాఖ్య లింక్లు ఉన్నాయి, ఇది ఇప్పటికే ఉన్న ఓపెన్ లైబ్రరీల సోర్స్ టెక్స్ట్ల ఆధారంగా తయారు చేయబడింది. కోడ్ వ్యక్తిగత విధులు లేదా పద్ధతుల యొక్క పూర్తి మూల వచనాన్ని కవర్ చేస్తుంది మరియు వ్యాఖ్య ఫంక్షన్ ద్వారా చేసిన చర్యలను వివరిస్తుంది (వివరణాత్మక డాక్యుమెంటేషన్ అందించబడింది). ప్రస్తుతం, పైథాన్, జావాస్క్రిప్ట్, రూబీ, గో, జావా మరియు PHP కోసం డేటాసెట్లు సిద్ధం చేయబడ్డాయి. వివిధ రకాలైన న్యూరల్ నెట్వర్క్లకు శిక్షణ ఇవ్వడానికి ప్రతిపాదిత డేటాసెట్లను ఉపయోగించడం కోసం ఉదాహరణలు అందించబడ్డాయి న్యూరల్-బ్యాగ్-ఆఫ్-వర్డ్స్, RNN, స్వీయ-శ్రద్ధ (BERT) మరియు 1D-CNN+సెల్ఫ్ అటెన్షన్ హైబ్రిడ్.
సహజ భాషా శోధన మెకానిజమ్లను అభివృద్ధి చేయడానికి, కోడ్సెర్చ్నెట్ ఛాలెంజ్ సమితి అదనంగా తయారు చేయబడింది, వీటిలో 99 విలక్షణమైనది కోడ్సెర్చ్నెట్ కార్పస్ డేటాసెట్లోని అత్యంత సంభావ్య కోడ్ బైండింగ్లను వివరించే సుమారు 4 వేల నిపుణుల ఉల్లేఖనాలతో ప్రశ్నలు, సుమారు 6 మిలియన్ పద్ధతులు మరియు విధులను కవర్ చేస్తుంది (సెట్ పరిమాణం సుమారు 20 GB). కోడ్సెర్చ్ నెట్ ఛాలెంజ్ సహజ భాషా కోడ్ను శోధించడానికి కొన్ని పద్ధతుల ప్రభావాన్ని అంచనా వేయడానికి ఒక బెంచ్మార్క్గా ఉపయోగపడుతుంది. సాధనాలను ఉపయోగించడం కుబేఫ్లో సిద్ధం ఒక ఉదాహరణ కోడ్ శోధన ఇంజిన్.