குறியீடு தேடல் மற்றும் பகுப்பாய்விற்கான இயந்திர கற்றலின் பயன்பாட்டில் GitHub மேம்பாடுகளைத் திறந்துள்ளது

மகிழ்ச்சியா சமர்ப்பிக்க திட்டம் CodeSearchNet, இது பல்வேறு நிரலாக்க மொழிகளில் குறியீட்டைப் பாகுபடுத்துதல், வகைப்படுத்துதல் மற்றும் பகுப்பாய்வு செய்வதற்குத் தேவையான இயந்திர கற்றல் மாதிரிகள் மற்றும் தரவுத் தொகுப்புகளைத் தயாரித்துள்ளது. CodeSearchNet, போன்றது இமேஜ்நெட், குறியீடு என்ன செய்கிறது என்பதை முறைப்படுத்தும் சிறுகுறிப்புகளுடன் கூடிய குறியீடு துணுக்குகளின் பெரிய தொகுப்பை உள்ளடக்கியது. பயிற்சி மாதிரிகளுக்கான கூறுகள் மற்றும் CodeSearchNet ஐப் பயன்படுத்துவதற்கான எடுத்துக்காட்டுகள் Python இல் Tensorflow கட்டமைப்பைப் பயன்படுத்தி எழுதப்பட்டுள்ளன. வழங்கியது MIT உரிமத்தின் கீழ்.

CodeSearchNet ஐ உருவாக்கும் போது, ​​இயற்கையான மொழி உரை பாகுபடுத்தும் தொழில்நுட்பங்கள் பயன்படுத்தப்பட்டன, இது இயந்திர கற்றல் அமைப்புகளை தொடரியல் அம்சங்களை மட்டும் கணக்கில் கொள்ளாமல், குறியீட்டின் செயல்களின் அர்த்தத்தையும் கணக்கில் எடுத்துக்கொள்ள உதவுகிறது. கிட்ஹப் அமைப்பு பயன்படுத்தப்பட்டது வினவல்களைப் பயன்படுத்தி சொற்பொருள் குறியீட்டு தேடலை ஒழுங்கமைப்பதற்கான சோதனைகளில் இயற்கை மொழி (உதாரணமாக, "சரங்களின் பட்டியலை வரிசைப்படுத்துதல்" என்று கோரும்போது, ​​தொடர்புடைய வழிமுறைகளை செயல்படுத்தும் குறியீடு காட்டப்படும்).

முன்மொழியப்பட்ட தரவுத்தொகுப்பில் 2 மில்லியனுக்கும் அதிகமான குறியீடு-கருத்து இணைப்புகள் உள்ளன, அவை ஏற்கனவே உள்ள திறந்த நூலகங்களின் மூல நூல்களின் அடிப்படையில் தயாரிக்கப்பட்டன. குறியீடு தனிப்பட்ட செயல்பாடுகள் அல்லது முறைகளின் முழுமையான மூல உரையை உள்ளடக்கியது, மேலும் கருத்து செயல்பாட்டினால் செய்யப்படும் செயல்களை விவரிக்கிறது (விரிவான ஆவணங்கள் வழங்கப்பட்டுள்ளன). தற்போது, ​​பைதான், ஜாவாஸ்கிரிப்ட், ரூபி, கோ, ஜாவா மற்றும் PHP ஆகியவற்றிற்கான தரவுத்தொகுப்புகள் தயாரிக்கப்படுகின்றன. பல்வேறு வகையான நரம்பியல் நெட்வொர்க்குகளுக்கு பயிற்சியளிக்க முன்மொழியப்பட்ட தரவுத்தொகுப்புகளைப் பயன்படுத்துவதற்கான எடுத்துக்காட்டுகள் வழங்கப்பட்டுள்ளன நியூரல்-பேக்-ஆஃப்-வார்ட்ஸ், ஆர்என்என், சுய கவனம் (BERT) மற்றும் 1டி-சிஎன்என்+சுய-கவனம் ஹைப்ரிட்.

இயற்கையான மொழி தேடல் வழிமுறைகளை உருவாக்க, CodeSearchNet Challenge ஒரு தொகுப்பு கூடுதலாக தயாரிக்கப்பட்டது, இதில் அடங்கும்
99 பொதுவானது சுமார் 4 மில்லியன் முறைகள் மற்றும் செயல்பாடுகளை உள்ளடக்கிய, CodeSearchNet கார்பஸ் தரவுத்தொகுப்பில் மிகவும் சாத்தியமான குறியீடு பிணைப்புகளை விவரிக்கும் சுமார் 6 ஆயிரம் நிபுணர் சிறுகுறிப்புகளுடன் வினவல்கள் (அளவு அமைக்க சுமார் 20 ஜிபி). இயற்கையான மொழிக் குறியீட்டைத் தேடுவதற்கான சில முறைகளின் செயல்திறனை மதிப்பிடுவதற்கான அளவுகோலாக CodeSearchNet சவால் செயல்படும். கருவிகளைப் பயன்படுத்துதல் குபேஃப்ளோ தயார்
உதாரணமாக குறியீடு தேடுபொறி.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்