GitHub huet Entwécklungen am Gebrauch vu Maschinnléiere fir Code Sich an Analyse opgemaach

GitHub agefouert Projet CodeSearchNet, déi Maschinn Léiermodeller an Datesets virbereet huet, déi néideg sinn fir Coden a verschiddene Programméierungssproochen ze analyséieren, ze klassifizéieren an ze analyséieren. CodeSearchNet, ähnlech wéi IMAGEnet, enthält eng grouss Sammlung vu Code Snippets mat Annotatiounen, déi formaliséieren wat de Code mécht. Komponente fir Trainingsmodeller a Beispiller fir CodeSearchNet ze benotzen ginn am Python geschriwwe mam Tensorflow Kader an verdeelt duerch ënner der MIT Lizenz.

Wann Dir CodeSearchNet erstellt, goufen natierlech Sproochen Text Parsing Technologien benotzt, déi Maschinnléiere Systemer erlaabt net nëmmen syntaktesch Features ze berücksichtegen, awer och d'Bedeitung vun den Aktiounen, déi vum Code ausgefouert goufen. De GitHub System applizéiert an Experimenter iwwer d'Organisatioun vun semantesche Code Sich mat Ufroen op natierlech Sprooch (zum Beispill, wann Dir "eng Lëscht vu Strings sortéieren", gëtt de Code mat der Ëmsetzung vun den entspriechende Algorithmen ugewisen).

Déi proposéiert Dataset enthält méi wéi 2 Millioune Code-Kommentarlinks, virbereet op Basis vun de Quelltexter vun existente oppene Bibliothéiken. De Code deckt de komplette Quelltext vun eenzelne Funktiounen oder Methoden, an de Kommentar beschreift d'Aktioune vun der Funktioun (detailléiert Dokumentatioun gëtt zur Verfügung gestallt). De Moment sinn Datesätz fir Python, JavaScript, Ruby, Go, Java a PHP virbereet. Beispiller gi geliwwert fir déi proposéiert Datesätz ze benotzen fir verschidden Aarte vun neurale Netzwierker ze trainéieren, inklusiv Neural-Bag-Vun-Wierder, RNN, Self-Opmierksamkeet (BERT) et 1D-CNN + Self-Opmierksamkeet Hybrid.

Fir natierlech Sprooch Sich Mechanismen z'entwéckelen, eng Rei vun CodeSearchNet Challenge gouf zousätzlech virbereet, dorënner
99 typesch Ufroe mat ongeféier 4 Tausend Expertennotatiounen déi déi wahrscheinlechste Codebindungen am CodeSearchNet Corpus Dataset beschreiwen, déi ongeféier 6 Millioune Methoden a Funktiounen ofdecken (Formatioun Gréisst ongeféier 20 GB). De CodeSearchNet Challenge kann als Benchmark handelen fir d'Effizienz vu bestëmmte Methoden ze evaluéieren fir natierlech Sproochcode ze sichen. Benotzt Tools KubeFlow preparéiert
Beispill Code Sich-Moteur.

Source: opennet.ru

Setzt e Commentaire