GitHub ለኮድ ፍለጋ እና ትንተና የማሽን መማሪያ አጠቃቀምን ከፍቷል።

የፊልሙ አስተዋውቋል ረቂቅ CodeSearchNetበተለያዩ የፕሮግራም አወጣጥ ቋንቋዎች ኮድን ለመተንተን፣ ለመከፋፈል እና ለመተንተን አስፈላጊ የሆኑትን የማሽን መማሪያ ሞዴሎችን እና የመረጃ ስብስቦችን አዘጋጅቷል። CodeSearchNet፣ ተመሳሳይ ImageNet፣ ኮዱ የሚሰራውን መደበኛ የሚያደርጉ ብዙ የኮድ ቅንጣቢዎችን ከማብራሪያ ጋር ያካትታል። ለሥልጠና ሞዴሎች አካላት እና CodeSearchNetን የመጠቀም ምሳሌዎች የ Tensorflow ማዕቀፍ እና በመጠቀም በ Python ውስጥ ተጽፈዋል የተሰራጨው በ በ MIT ፍቃድ.

CodeSearchNetን በሚፈጥሩበት ጊዜ የማሽን መማሪያ ስርዓቶች አገባብ ባህሪያትን ብቻ ሳይሆን በኮዱ የተከናወኑ ድርጊቶችን ትርጉም እንዲያስቡ የሚያስችል የተፈጥሮ ቋንቋ የፅሁፍ ትንተና ቴክኖሎጂዎች ጥቅም ላይ ውለዋል። የ GitHub ስርዓት ተተግብሯል በ ላይ ጥያቄዎችን በመጠቀም የትርጉም ኮድ ፍለጋን በማደራጀት ሙከራዎች ውስጥ የተፈጥሮ ቋንቋ (ለምሳሌ “የሕብረቁምፊዎች ዝርዝር መደርደር”ን በሚጠይቁበት ጊዜ ተጓዳኝ ስልተ ቀመሮች አተገባበር ያለው ኮድ ይታያል)።

የታቀደው የውሂብ ስብስብ ከ2 ሚሊዮን በላይ የኮድ-አስተያየት አገናኞችን ያካትታል፣ በነባር ክፍት ቤተ-መጻሕፍት ምንጭ ጽሑፎች ላይ ተመስርቶ የተዘጋጀ። ኮዱ የግለሰብ ተግባራትን ወይም ዘዴዎችን የተሟላ ምንጭ ጽሑፍን ይሸፍናል, እና አስተያየቱ በተግባሩ የተከናወኑ ድርጊቶችን ይገልፃል (ዝርዝር ሰነዶች ቀርበዋል). በአሁኑ ጊዜ የውሂብ ስብስቦች ለ Python፣ JavaScript፣ Ruby፣ Go፣ Java እና PHP ተዘጋጅተዋል። የተለያዩ የነርቭ ኔትወርኮችን ለማሰልጠን የታቀደውን የመረጃ ስብስቦችን ስለመጠቀም ምሳሌዎች ተሰጥተዋል። የነርቭ-የቃላት ቦርሳ, አርኤንኤን, ራስን ትኩረት (BERT) እና 1D-CNN+የራስ ትኩረት ድብልቅ.

የተፈጥሮ ቋንቋ መፈለጊያ ዘዴዎችን ለማዳበር የ CodeSearchNet Challenge ስብስብ ተዘጋጅቷል ይህም ጨምሮ
99 የተለመደ በ CodeSearchNet Corpus ዳታ ስብስብ ውስጥ 4 ሚሊዮን የሚሆኑ ዘዴዎችን እና ተግባራትን የሚሸፍኑ ሊሆኑ የሚችሉ የኮድ ማሰሪያዎችን የሚገልጹ ወደ 6 ሺህ የሚጠጉ የባለሙያ ማብራሪያዎች (ጥያቄዎች)መጠን አዘጋጅ ወደ 20 ጊባ ገደማ)። የ CodeSearchNet Challenge የተፈጥሮ ቋንቋ ኮድን ለመፈለግ የተወሰኑ ዘዴዎችን ውጤታማነት ለመገምገም እንደ መለኪያ ሆኖ ሊያገለግል ይችላል። መሳሪያዎችን መጠቀም ኩበሮጅ ተዘጋጅቷል
ምሳሌ ኮድ የፍለጋ ሞተር.

ምንጭ: opennet.ru

አስተያየት ያክሉ