GitHub 開啟了使用機器學習進行程式碼搜尋和分析的開發

GitHub上 引進 項目 代碼搜索網,準備了解析、分類和分析各種程式語言程式碼所需的機器學習模型和資料集。 CodeSearchNet,類似 影像網,包括大量帶有註釋的程式碼片段,這些註釋正式化了程式碼的功能。訓練模型的元件和使用 CodeSearchNet 的範例是使用 Tensorflow 框架用 Python 編寫的, 分發者 在麻省理工學院的許可下。

在創建 CodeSearchNet 時,使用了自然語言文字解析技術,使機器學習系統不僅能夠考慮語法特徵,還能夠考慮程式碼執行的操作的含義。 GitHub系統 適用 在使用查詢組織語意程式碼搜尋的實驗中 自然語言 (例如,當請求「對字串清單進行排序」時,會顯示對應演算法的實作代碼)。

擬議的數據集包括超過 2 萬個代碼註釋鏈接,這些鏈接是根據現有開放庫的源文本準備的。程式碼涵蓋了各個函數或方法的完整來源文本,註釋描述了函數執行的操作(提供了詳細文件)。目前,資料集已為 Python、JavaScript、Ruby、Go、Java 和 PHP 準備。提供了使用所提出的資料集來訓練各種類型的神經網路的範例,包括 神經詞袋法, 神經網絡, 自我關注 (伯特)和 1D-CNN+自註意力混合.

為了開發自然語言搜尋機制,也額外準備了一套CodeSearchNet Challenge,包括
99 典型值 包含約 4 個專家註解的查詢,描述了 CodeSearchNet 語料庫資料集中最有可能的程式碼綁定,涵蓋約 6 萬個方法和函數(設定尺寸 約 20 GB)。 CodeSearchNet 挑戰賽可以作為評估某些自然語言程式碼搜尋方法成效的基準。使用工具 庫伯流 準備好了
例子 代碼搜尋引擎。

來源: opennet.ru

添加評論