GitHub කේත සෙවීම සහ විශ්ලේෂණය සඳහා යන්ත්‍ර ඉගෙනීමේ භාවිතයේ වර්ධනයන් විවෘත කර ඇත

GitHub හඳුන්වා දී ඇත ව්‍යාපෘතිය CodeSearchNet, විවිධ ක්‍රමලේඛන භාෂාවලින් කේත විග්‍රහ කිරීම, වර්ගීකරණය කිරීම සහ විශ්ලේෂණය කිරීම සඳහා අවශ්‍ය යන්ත්‍ර ඉගෙනුම් ආකෘති සහ දත්ත කට්ටල සකස් කර ඇත. CodeSearchNet, සමාන ImageNet, කේතය කරන දේ විධිමත් කරන විවරණ සහිත විශාල කේත කොටස් එකතුවක් ඇතුළත් වේ. පුහුණු ආකෘති සඳහා සංරචක සහ CodeSearchNet භාවිතා කිරීමේ උදාහරණ Tensorflow රාමුව භාවිතයෙන් Python හි ලියා ඇත. විසින් බෙදා හරිනු ලැබේ MIT බලපත්‍රය යටතේ.

CodeSearchNet නිර්මාණය කිරීමේදී, ස්වාභාවික භාෂා පෙළ විග්‍රහ කිරීමේ තාක්ෂණයන් භාවිතා කරන ලද අතර, යන්ත්‍ර ඉගෙනුම් පද්ධති වලට වාක්‍ය ඛණ්ඩ ලක්ෂණ පමණක් නොව, කේතය මගින් සිදු කරන ක්‍රියාවන්හි අර්ථයද සැලකිල්ලට ගත හැකිය. GitHub පද්ධතිය අදාළ වේ මත විමසුම් භාවිතා කරමින් අර්ථ කේත සෙවීම සංවිධානය කිරීම පිළිබඳ අත්හදා බැලීම් වලදී ස්වභාවික භාෂාව (උදාහරණයක් ලෙස, "තන්තු ලැයිස්තුවක් වර්ග කිරීම" ඉල්ලා සිටින විට, අනුරූප ඇල්ගොරිතම ක්රියාත්මක කිරීම සමඟ කේතය පෙන්වනු ලැබේ).

යෝජිත දත්ත කට්ටලයට දැනට පවතින විවෘත පුස්තකාලවල මූලාශ්‍ර පාඨ මත පදනම්ව සකස් කරන ලද කේත-විවරණ සබැඳි මිලියන 2කට වඩා ඇතුළත් වේ. කේතය තනි ශ්‍රිතවල හෝ ක්‍රමවල සම්පූර්ණ මූලාශ්‍ර පාඨය ආවරණය කරයි, සහ විවරණ ශ්‍රිතය මඟින් සිදු කරන ක්‍රියා විස්තර කරයි (විස්තරාත්මක ලේඛන සපයා ඇත). දැනට Python, JavaScript, Ruby, Go, Java සහ PHP සඳහා දත්ත කට්ටල සකස් කර ඇත. ඇතුළුව විවිධ වර්ගයේ ස්නායුක ජාල පුහුණු කිරීම සඳහා යෝජිත දත්ත කට්ටල භාවිතා කිරීම සඳහා උදාහරණ සපයනු ලැබේ Neural-Bag-Of-words, RNN, ස්වයං අවධානය (BERT) සහ 1D-CNN+Self-Atention Hybrid.

ස්වභාවික භාෂා සෙවුම් යාන්ත්‍රණ සංවර්ධනය කිරීම සඳහා, CodeSearchNet Challenge මාලාවක් අතිරේකව සකස් කර ඇත.
99 සාමාන්ය මිලියන 4 ක් පමණ ක්‍රම සහ ක්‍රියාකාරකම් ආවරණය කරමින්, CodeSearchNet Corpus දත්ත කට්ටලයේ බොහෝ දුරට ඉඩ ඇති කේත බන්ධන විස්තර කරන විශේෂඥ විවරණ 6 ක් පමණ සහිත විමසුම් (සැකසූ ප්රමාණය 20 GB පමණ). CodeSearchNet Challenge ස්වභාවික භාෂා කේත සෙවීම සඳහා ඇතැම් ක්‍රමවල සඵලතාවය ඇගයීම සඳහා මිණුම් ලකුණක් ලෙස සේවය කළ හැක. මෙවලම් භාවිතා කිරීම කුබෙෆ්ලෝ සූදානම්
උදාහරණයකි කේත සෙවුම් යන්ත්‍රය.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න