GitHub-ը մշակումներ է բացել մեքենայական ուսուցման օգտագործման ոլորտում կոդի որոնման և վերլուծության համար

GitHub ներկայացրեց նախագիծ CodeSearchNet, որը պատրաստել է մեքենայական ուսուցման մոդելներ և տվյալների հավաքածուներ, որոնք անհրաժեշտ են ծրագրավորման տարբեր լեզուներով կոդի վերլուծության, դասակարգման և վերլուծության համար։ CodeSearchNet, նման է ImageNet, ներառում է կոդի հատվածների մեծ հավաքածու՝ ծանոթագրություններով, որոնք պաշտոնականացնում են այն, ինչ անում է կոդը: Ուսուցման մոդելների բաղադրիչները և CodeSearchNet-ի օգտագործման օրինակները գրված են Python-ում՝ օգտագործելով Tensorflow շրջանակը և տարածվում է MIT լիցենզիայի ներքո:

CodeSearchNet-ի ստեղծման ժամանակ օգտագործվել են բնական լեզվով տեքստի վերլուծման տեխնոլոգիաներ, որոնք հնարավորություն են տալիս մեքենայական ուսուցման համակարգերին հաշվի առնել ոչ միայն շարահյուսական առանձնահատկությունները, այլև կոդի կողմից կատարվող գործողությունների իմաստը: GitHub համակարգը կիրառվում է հարցումների միջոցով իմաստային կոդի որոնման կազմակերպման փորձերում բնական լեզու (օրինակ՝ «տողերի ցուցակի տեսակավորում» պահանջելիս ցուցադրվում է համապատասխան ալգորիթմների ներդրմամբ կոդը):

Առաջարկվող տվյալների շտեմարանը ներառում է ավելի քան 2 միլիոն կոդային մեկնաբանությունների հղումներ, որոնք պատրաստված են գոյություն ունեցող բաց գրադարանների սկզբնաղբյուր տեքստերի հիման վրա: Կոդն ընդգրկում է առանձին գործառույթների կամ մեթոդների ամբողջական սկզբնաղբյուր տեքստը, իսկ մեկնաբանությունը նկարագրում է ֆունկցիայի կատարած գործողությունները (տրամադրված է մանրամասն փաստաթղթեր): Ներկայումս տվյալների հավաքածուները պատրաստված են Python-ի, JavaScript-ի, Ruby-ի, Go-ի, Java-ի և PHP-ի համար: Ներկայացված են առաջարկվող տվյալների հավաքածուների օգտագործման օրինակներ տարբեր տեսակի նեյրոնային ցանցերի վերապատրաստման համար, այդ թվում Նյարդային-Բառերի պայուսակ, RNN, Ինքն ուշադրություն (ԲԵՐՏ) և 1D-CNN+Self-Attention Hybrid.

Բնական լեզվի որոնման մեխանիզմներ մշակելու համար լրացուցիչ պատրաստվել է CodeSearchNet Challenge-ի մի շարք, ներառյալ
99 բնորոշ հարցումներ շուրջ 4 հազար փորձագիտական ​​ծանոթագրություններով, որոնք նկարագրում են CodeSearchNet Corpus տվյալների հավաքածուի ամենահավանական կոդի կապերը, որոնք ընդգրկում են մոտ 6 միլիոն մեթոդներ և գործառույթներ (սահմանել չափը մոտ 20 ԳԲ): CodeSearchNet Challenge-ը կարող է հենանիշ ծառայել բնական լեզվի ծածկագրի որոնման որոշակի մեթոդների արդյունավետությունը գնահատելու համար: Օգտագործելով գործիքներ Կուբեֆլոու պատրաստված
օրինակ կոդի որոնման համակարգ:

Source: opennet.ru

Добавить комментарий