GitHub ಕೋಡ್ ಹುಡುಕಾಟ ಮತ್ತು ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಯಂತ್ರ ಕಲಿಕೆಯ ಬಳಕೆಯಲ್ಲಿ ಬೆಳವಣಿಗೆಗಳನ್ನು ತೆರೆದಿದೆ

GitHub ಪರಿಚಯಿಸಲಾಗಿದೆ ಡ್ರಾಫ್ಟ್ ಕೋಡ್‌ಸರ್ಚ್‌ನೆಟ್, ಇದು ವಿವಿಧ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಗಳಲ್ಲಿ ಕೋಡ್ ಅನ್ನು ಪಾರ್ಸಿಂಗ್ ಮಾಡಲು, ವರ್ಗೀಕರಿಸಲು ಮತ್ತು ವಿಶ್ಲೇಷಿಸಲು ಅಗತ್ಯವಿರುವ ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳು ಮತ್ತು ಡೇಟಾ ಸೆಟ್‌ಗಳನ್ನು ಸಿದ್ಧಪಡಿಸಿದೆ. CodeSearchNet, ಹೋಲುತ್ತದೆ ಇಮೇಜ್ ನೆಟ್, ಕೋಡ್ ಏನು ಮಾಡುತ್ತದೆ ಎಂಬುದನ್ನು ಔಪಚಾರಿಕಗೊಳಿಸುವ ಟಿಪ್ಪಣಿಗಳೊಂದಿಗೆ ಕೋಡ್ ತುಣುಕುಗಳ ದೊಡ್ಡ ಸಂಗ್ರಹವನ್ನು ಒಳಗೊಂಡಿದೆ. ತರಬೇತಿ ಮಾದರಿಗಳ ಘಟಕಗಳು ಮತ್ತು CodeSearchNet ಅನ್ನು ಬಳಸುವ ಉದಾಹರಣೆಗಳನ್ನು Python ನಲ್ಲಿ Tensorflow ಫ್ರೇಮ್‌ವರ್ಕ್ ಬಳಸಿ ಬರೆಯಲಾಗಿದೆ ಮತ್ತು ವಿತರಿಸುವವರು MIT ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ.

CodeSearchNet ಅನ್ನು ರಚಿಸುವಾಗ, ನೈಸರ್ಗಿಕ ಭಾಷಾ ಪಠ್ಯ ಪಾರ್ಸಿಂಗ್ ತಂತ್ರಜ್ಞಾನಗಳನ್ನು ಬಳಸಲಾಯಿತು, ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳು ಕೇವಲ ವಾಕ್ಯರಚನೆಯ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಮಾತ್ರವಲ್ಲದೆ ಕೋಡ್ ನಿರ್ವಹಿಸುವ ಕ್ರಿಯೆಗಳ ಅರ್ಥವನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. GitHub ವ್ಯವಸ್ಥೆ ಅನ್ವಯಿಸಲಾಗಿದೆ ಎಂಬ ಪ್ರಶ್ನೆಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಶಬ್ದಾರ್ಥದ ಕೋಡ್ ಹುಡುಕಾಟವನ್ನು ಸಂಘಟಿಸುವ ಪ್ರಯೋಗಗಳಲ್ಲಿ ನೈಸರ್ಗಿಕ ಭಾಷೆ (ಉದಾಹರಣೆಗೆ, "ಸ್ಟ್ರಿಂಗ್‌ಗಳ ಪಟ್ಟಿಯನ್ನು ವಿಂಗಡಿಸಲು" ವಿನಂತಿಸುವಾಗ, ಅನುಗುಣವಾದ ಕ್ರಮಾವಳಿಗಳ ಅನುಷ್ಠಾನದೊಂದಿಗೆ ಕೋಡ್ ಅನ್ನು ಪ್ರದರ್ಶಿಸಲಾಗುತ್ತದೆ).

ಪ್ರಸ್ತಾವಿತ ಡೇಟಾಸೆಟ್ 2 ಮಿಲಿಯನ್‌ಗಿಂತಲೂ ಹೆಚ್ಚು ಕೋಡ್-ಕಾಮೆಂಟ್ ಲಿಂಕ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ತೆರೆದ ಗ್ರಂಥಾಲಯಗಳ ಮೂಲ ಪಠ್ಯಗಳನ್ನು ಆಧರಿಸಿ ತಯಾರಿಸಲಾಗುತ್ತದೆ. ಕೋಡ್ ವೈಯಕ್ತಿಕ ಕಾರ್ಯಗಳು ಅಥವಾ ವಿಧಾನಗಳ ಸಂಪೂರ್ಣ ಮೂಲ ಪಠ್ಯವನ್ನು ಒಳಗೊಳ್ಳುತ್ತದೆ, ಮತ್ತು ಕಾಮೆಂಟ್ ಕಾರ್ಯದಿಂದ ನಿರ್ವಹಿಸಲಾದ ಕ್ರಿಯೆಗಳನ್ನು ವಿವರಿಸುತ್ತದೆ (ವಿವರವಾದ ದಸ್ತಾವೇಜನ್ನು ಒದಗಿಸಲಾಗಿದೆ). ಪ್ರಸ್ತುತ, ಪೈಥಾನ್, ಜಾವಾಸ್ಕ್ರಿಪ್ಟ್, ರೂಬಿ, ಗೋ, ಜಾವಾ ಮತ್ತು PHP ಗಾಗಿ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಸಿದ್ಧಪಡಿಸಲಾಗಿದೆ. ಸೇರಿದಂತೆ ವಿವಿಧ ರೀತಿಯ ನರ ನೆಟ್‌ವರ್ಕ್‌ಗಳಿಗೆ ತರಬೇತಿ ನೀಡಲು ಪ್ರಸ್ತಾವಿತ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಬಳಸುವ ಉದಾಹರಣೆಗಳನ್ನು ಒದಗಿಸಲಾಗಿದೆ ನ್ಯೂರಲ್-ಬ್ಯಾಗ್-ಆಫ್-ವರ್ಡ್ಸ್, ಆರ್.ಎನ್.ಎನ್, ಸ್ವಯಂ ಗಮನ (BERT) ಮತ್ತು 1D-CNN+ಸ್ವಯಂ-ಗಮನ ಹೈಬ್ರಿಡ್.

ನೈಸರ್ಗಿಕ ಭಾಷಾ ಹುಡುಕಾಟ ಕಾರ್ಯವಿಧಾನಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು, ಕೋಡ್‌ಸರ್ಚ್‌ನೆಟ್ ಚಾಲೆಂಜ್‌ನ ಒಂದು ಸೆಟ್ ಅನ್ನು ಹೆಚ್ಚುವರಿಯಾಗಿ ಸಿದ್ಧಪಡಿಸಲಾಗಿದೆ.
99 ವಿಶಿಷ್ಟ ಸುಮಾರು 4 ಮಿಲಿಯನ್ ವಿಧಾನಗಳು ಮತ್ತು ಕಾರ್ಯಗಳನ್ನು ಒಳಗೊಂಡಿರುವ CodeSearchNet ಕಾರ್ಪಸ್ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಹೆಚ್ಚಾಗಿ ಕೋಡ್ ಬೈಂಡಿಂಗ್‌ಗಳನ್ನು ವಿವರಿಸುವ ಸುಮಾರು 6 ಸಾವಿರ ತಜ್ಞರ ಟಿಪ್ಪಣಿಗಳೊಂದಿಗೆ ಪ್ರಶ್ನೆಗಳು (ಸೆಟ್ ಗಾತ್ರ ಸುಮಾರು 20 ಜಿಬಿ). ಕೋಡ್‌ಸರ್ಚ್‌ನೆಟ್ ಚಾಲೆಂಜ್ ನೈಸರ್ಗಿಕ ಭಾಷಾ ಕೋಡ್ ಅನ್ನು ಹುಡುಕಲು ಕೆಲವು ವಿಧಾನಗಳ ಪರಿಣಾಮಕಾರಿತ್ವವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಮಾನದಂಡವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಉಪಕರಣಗಳನ್ನು ಬಳಸುವುದು ಕುಬೆಫ್ಲೋ ತಯಾರಾದ
ಉದಾಹರಣೆ ಕೋಡ್ ಹುಡುಕಾಟ ಎಂಜಿನ್.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ