GitHub ڪوڊ جي ڳولا ۽ تجزيو لاءِ مشين لرننگ جي استعمال ۾ ترقيات کي کوليو آهي

GitHub متعارف ڪرايو پروجيڪٽ CodeSearchNet، جنهن مختلف پروگرامنگ ٻولين ۾ ڪوڊ پارس ڪرڻ، درجه بندي ڪرڻ ۽ تجزيو ڪرڻ لاءِ ضروري مشين سکيا جا ماڊل ۽ ڊيٽا سيٽ تيار ڪيا آهن. CodeSearchNet، ملندڙ جلندڙ ImageNet, شامل آهي هڪ وڏو مجموعو ڪوڊ جي ٽڪڙن جي تشريح سان جيڪي رسمي ڪن ٿا ته ڪوڊ ڇا ڪندو آهي. ٽريننگ ماڊل جا اجزاء ۽ CodeSearchNet استعمال ڪرڻ جا مثال Python ۾ Tensorflow فريم ورڪ استعمال ڪندي لکيل آهن ۽ طرفان ورهايل MIT لائسنس تحت.

CodeSearchNet ٺاهڻ وقت، قدرتي ٻولي ٽيڪسٽ پارس ڪرڻ واريون ٽيڪنالاجيون استعمال ڪيون ويون، مشين لرننگ سسٽم کي فعال ڪرڻ لاءِ نه رڳو نحوي خصوصيتن کي، پر ڪوڊ پاران ڪيل عملن جي معنيٰ کي پڻ. GitHub سسٽم لاڳو ٿيل سوالن تي استعمال ڪندي سيمينٽڪ ڪوڊ جي ڳولا کي منظم ڪرڻ تي تجربن ۾ قدرتي ٻولي (مثال طور، جڏهن "اسٽرنگ جي فهرست کي ترتيب ڏيڻ" جي درخواست ڪئي وئي آهي، ڪوڊ سان لاڳاپيل الگورتھم جي عمل سان ڏيکاريل آهي).

تجويز ڪيل ڊيٽا سيٽ ۾ 2 ملين کان وڌيڪ ڪوڊ-ڪمينٽ لنڪس شامل آهن جيڪي موجوده اوپن لائبريرين جي سورس ڪوڊ جي بنياد تي تيار ڪيا ويا آهن. ڪوڊ انفرادي افعال يا طريقن جي مڪمل ماخذ ٽيڪسٽ کي ڍڪيندو آهي، ۽ تبصرو بيان ڪري ٿو فنڪشن پاران ڪيل عملن (تفصيلي دستاويز مهيا ڪئي وئي آهي). في الحال، ڊيٽا سيٽ تيار ڪيا ويا آهن پٿون، جاوا اسڪرپٽ، روبي، گو، جاوا ۽ پي ايڇ پي. مختلف قسم جي نيورل نيٽ ورڪن جي تربيت لاءِ تجويز ڪيل ڊيٽا سيٽ استعمال ڪرڻ جا مثال مهيا ڪيا ويا آهن، بشمول عصبي بيگ آف ورڊس, آر اين اين, پاڻمرادو ڌيان ڏيڻ (BERT) ۽ 1D-CNN + خود ڌيان ھائبرڊ.

قدرتي ٻولي جي ڳولا واري ميڪانيزم کي ترقي ڪرڻ لاء، CodeSearchNet Challenge جو هڪ سيٽ پڻ تيار ڪيو ويو آهي، جنهن ۾ شامل آهن
99 عام اٽڪل 4 هزار ماهر اينوٽيشنز سان گڏ سوال جيڪي CodeSearchNet Corpus dataset ۾ سڀ کان وڌيڪ امڪاني ڪوڊ بائنڊنگ کي بيان ڪن ٿا، اٽڪل 6 ملين طريقن ۽ افعال کي ڍڪي ٿو (ماپ مقرر ڪريو اٽڪل 20 GB). CodeSearchNet چيلنج قدرتي ٻوليءَ جي ڪوڊ کي ڳولهڻ لاءِ ڪجهه طريقن جي اثرائيت کي جانچڻ لاءِ هڪ معيار جي طور تي ڪم ڪري سگهي ٿو. اوزار استعمال ڪندي ڪبيلو تيار
مثال ڪوڊ سرچ انجڻ.

جو ذريعو: opennet.ru

تبصرو شامل ڪريو