GitHub د کوډ لټون او تحلیل لپاره د ماشین زده کړې کارولو کې پرمختګونه خلاص کړي

GitHub معرفي شوی مسوده CodeSearchNet، کوم چې د ماشین زده کړې ماډلونه او ډیټا سیټونه چمتو کړي چې د مختلف پروګرامینګ ژبو کې کوډ پارس کولو ، ډلبندۍ او تحلیل لپاره اړین دي. CodeSearchNet، ورته ورته ImageNet، د تشریحاتو سره د کوډ ټوټو لوی ټولګه شامله ده چې رسمي کوي چې کوډ څه کوي. د روزنې ماډلونو برخې او د CodeSearchNet کارولو مثالونه په Python کې د Tensorflow چوکاټ په کارولو سره لیکل شوي او لخوا توزیع شوی د MIT جواز لاندې.

کله چې د CodeSearchNet رامینځته کول ، د طبیعي ژبې متن پارس کولو ټیکنالوژي کارول شوې وه ، د ماشین زده کړې سیسټمونو ته وړتیا ورکوي چې نه یوازې ترکیبي ځانګړتیاوې په پام کې ونیسي ، بلکه د کوډ لخوا ترسره شوي عملونو معنی هم په پام کې ونیسي. د GitHub سیسټم کارول شوی د پوښتنو په کارولو سره د سیمانټیک کوډ لټون تنظیم کولو تجربو کې طبیعي ژبه (د مثال په توګه، کله چې د "د تارونو لیست ترتیب کول" غوښتنه وکړئ، د اړونده الګوریتم پلي کولو سره کوډ ښکاره کیږي).

وړاندیز شوي ډیټاسیټ کې له 2 ملیون څخه ډیر د کوډ - تبصرې لینکونه شامل دي چې د موجوده خلاص کتابتونونو سرچینې متنونو پراساس چمتو شوي. کوډ د انفرادي دندو یا میتودونو بشپړ سرچینې متن پوښي، او تبصره د فعالیت لخوا ترسره شوي عملونه بیانوي (تفصیل اسناد چمتو شوي). اوس مهال، ډاټا سیټونه د Python، JavaScript، Ruby، Go، Java او PHP لپاره چمتو شوي. د مختلف ډوله عصبي شبکو روزنې لپاره د وړاندیز شوي ډیټاسیټونو کارولو مثالونه چمتو شوي ، پشمول عصبي-بیګ-د-کلمو, آر این این, ځان ته پاملرنه (BERT) او 1D-CNN + د ځان پاملرنې هایبرډ.

د طبیعي ژبې د لټون میکانیزمونو د پراختیا لپاره، د CodeSearchNet ننګونې یوه سیټ اضافي چمتو شوی، په شمول
99 عادي د شاوخوا 4 زره متخصص تشریحاتو سره پوښتنې چې د CodeSearchNet Corpus ډیټاسیټ کې خورا احتمالي کوډ پابندۍ تشریح کوي ، شاوخوا 6 ملیون میتودونه او دندې پوښي (اندازه ټاکل شاوخوا 20 GB). د CodeSearchNet ننګونه کولی شي د طبیعي ژبې کوډ لټون لپاره د ځینې میتودونو اغیزمنتوب ارزولو لپاره د معیار په توګه کار وکړي. د وسایلو کارول کیوب فلو چمتو شوی
مثال د کوډ لټون انجن.

سرچینه: opennet.ru

Add a comment