IBM opnar CodeNet fyrir vélanámskerfi sem þýða og sannreyna kóða

IBM hefur kynnt CodeNet frumkvæði sitt, sem miðar að því að veita rannsakendum gagnapakka sem gerir þeim kleift að gera tilraunir með notkun vélanámstækni til að búa til forritunarmálsþýðendur, kóðarafla og greiningartæki. CodeNet inniheldur safn 14 milljóna kóðadæma sem leysa 4053 algeng forritunarvandamál. Alls inniheldur safnið um 500 milljón línur af kóða og nær yfir 55 forritunarmál, bæði nútímamál eins og C++, Java, Python og Go, og eldri tungumál þar á meðal COBOL, Pascal og FORTRAN. Þróun verkefnisins er dreift undir Apache 2.0 leyfinu og áætlað er að gagnasettin verði dreift í formi almenningseignar.

Dæmin eru með athugasemdum og útfæra eins reiknirit á mismunandi forritunarmálum. Gert er ráð fyrir að fyrirhugað sett muni hjálpa til við að þjálfa vélanámskerfi og þróa nýjungar á sviði þýðinga og flokkunar vélakóða, svipað og ImageNet-myndagagnagrunnurinn með athugasemdum hjálpaði til við þróun mynsturgreiningar- og tölvusjónkerfa. Ýmsar forritunarkeppnir eru nefndar sem ein helsta uppspretta safnmyndunar.

Ólíkt hefðbundnum þýðendum, sem eru útfærðir út frá umbreytingarreglum, geta vélanámskerfi fanga og tekið tillit til samhengis kóðanotkunar. Þegar verið er að breyta úr einu forritunarmáli í annað er samhengið jafn mikilvægt og þegar verið er að þýða úr einu mannamáli yfir á annað. Þessi skortur á samhengi er það sem kemur í veg fyrir að kóða sé breytt úr eldri tungumálum eins og COBOL.

Að hafa stóran gagnagrunn yfir reikniritútfærslur á mismunandi tungumálum mun hjálpa til við að búa til alhliða vélanámskerfi sem, í stað þess að beina þýðingu á milli tiltekinna tungumála, vinna abstrakt framsetningu kóðans, óháð sérstökum forritunarmálum. Slíkt kerfi er hægt að nota sem þýðanda og þýða sendur kóðann á hvaða tungumáli sem er studd yfir í innri óhlutbundinn framsetningu þess, sem síðan er hægt að búa til kóða á mörgum tungumálum.

Kerfið mun einnig geta framkvæmt tvíátta umbreytingu. Til dæmis halda bankar og ríkisstofnanir áfram að nota verkefni á úreltu COBOL tungumáli. Þýðandi sem byggir á vélanámi mun geta umbreytt COBOL kóða í Java framsetningu og, ef nauðsyn krefur, þýtt Java brotið aftur í COBOL kóða.

Auk þýðinga á milli tungumála er minnst á notkunarsvið CodeNet eins og sköpun snjallkóðaleitarkerfa og sjálfvirkni klónagreiningar, svo og þróun fínstillingar og sjálfvirkra kóðaleiðréttingakerfa. Einkum eru dæmin sem kynnt eru í CodeNet búin lýsigögnum sem lýsa niðurstöðum afkastaprófunar, forritastærð, minnisnotkun og ástandi, sem gerir okkur kleift að greina réttan kóða frá kóða með villum (til að greina réttan kóða frá röngum kóða, Í safninu eru sérstaklega dæmi með villum, en hlutfall þeirra er 29.5%). Vélnámskerfi getur tekið mið af þessum lýsigögnum til að búa til besta kóðann eða til að bera kennsl á aðhvarf í greinda kóðanum (kerfið getur skilið að reikniritið í innsendum kóða er ekki útfært sem best eða inniheldur villur).

Heimild: opennet.ru

Bæta við athugasemd