GitHub hà apertu sviluppi in l'usu di l'apprendimentu machine per a ricerca è l'analisi di codice

GitHub introduttu scrive CodeSearchNet, chì hà preparatu mudelli d'apprendimentu automaticu è insemi di dati necessarii per l'analisi, classificazione è analisi di codice in diverse lingue di prugrammazione. CodeSearchNet, simile à IMAGEnet, include una grande cullizzioni di snippets di codice cù annotazioni chì formalizanu ciò chì face u codice. I cumpunenti per i mudelli di furmazione è l'esempi di l'usu di CodeSearchNet sò scritti in Python utilizendu u framework Tensorflow è distribuitu da sottu a licenza MIT.

Quandu crea CodeSearchNet, sò state aduprate tecnulugii di analisi di testu in lingua naturale, chì permettenu à i sistemi di apprendimentu di machine à piglià in contu micca solu e caratteristiche sintattiche, ma ancu u significatu di l'azzioni realizati da u codice. U sistema GitHub appiicatu in esperimenti nantu à l'urganizazione di a ricerca di codice semanticu usendu dumande nantu lingua naturale (per esempiu, quandu dumandate "selezzione di una lista di stringhe", u codice cù l'implementazione di l'algoritmi currispondenti hè visualizatu).

U dataset prupostu include più di 2 milioni di ligami di codice-cumentu, preparatu basatu annantu à i testi fonte di e biblioteche aperte esistenti. U codice copre u testu fonte cumpletu di funzioni individuali o metudi, è u cumentu descrive l'azzioni realizati da a funzione (documentazione dettagliata hè furnita). Attualmente, i datasets sò preparati per Python, JavaScript, Ruby, Go, Java è PHP. Esempii sò furniti di l'usu di i datasets pruposti per a furmazione di diversi tipi di rete neurali, cumprese Neural-Bag-of-Words, RNN, Auto-attenzione (BERT) è 1D-CNN + Auto-attenzione Hybrid.

Per sviluppà meccanismi di ricerca in lingua naturale, un inseme di CodeSearchNet Challenge hè statu ancu preparatu, cumprese
99 tipicu dumande cù circa 4 mila annotazioni esperte chì descrizanu l'associazioni di codice più probabili in u dataset CodeSearchNet Corpus, chì copre circa 6 milioni di metudi è funzioni (set size circa 20 GB). U CodeSearchNet Challenge pò serve cum'è un benchmark per evaluà l'efficacità di certi metudi per a ricerca di codice di lingua naturale. Utilizà arnesi KubeFlow preparatu
esempiu mutore di ricerca di codice.

Source: opennet.ru

Add a comment