ಜಿನಾ ಎಂಬೆಡಿಂಗ್‌ಗಾಗಿ ಓಪನ್ ಸೋರ್ಸ್ ಕೋಡ್, ಪಠ್ಯ ಅರ್ಥದ ವೆಕ್ಟರ್ ಪ್ರಾತಿನಿಧ್ಯದ ಮಾದರಿ

ಅಪಾಚೆ 2.0 ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ವೆಕ್ಟರ್ ಪಠ್ಯ ಪ್ರಾತಿನಿಧ್ಯಕ್ಕಾಗಿ ಜಿನಾ-ಎಂಬೆಡ್ಡಿಂಗ್ಸ್-v2, ಮೆಷಿನ್ ಲರ್ನಿಂಗ್ ಮಾದರಿಯನ್ನು ಜಿನಾ ಓಪನ್ ಸೋರ್ಸ್ ಮಾಡಿದ್ದಾರೆ. 8192 ಅಕ್ಷರಗಳನ್ನು ಒಳಗೊಂಡಂತೆ ಅನಿಯಂತ್ರಿತ ಪಠ್ಯವನ್ನು ನೈಜ ಸಂಖ್ಯೆಗಳ ಸಣ್ಣ ಅನುಕ್ರಮವಾಗಿ ಪರಿವರ್ತಿಸಲು ಮಾದರಿಯು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ, ಅದು ವೆಕ್ಟರ್ ಅನ್ನು ಮೂಲ ಪಠ್ಯದೊಂದಿಗೆ ಹೋಲಿಸುತ್ತದೆ ಮತ್ತು ಅದರ ಶಬ್ದಾರ್ಥವನ್ನು (ಅರ್ಥ) ಪುನರುತ್ಪಾದಿಸುತ್ತದೆ. ಜಿನಾ ಎಂಬೆಡಿಂಗ್ ಓಪನ್ ಎಐ ಪ್ರಾಜೆಕ್ಟ್‌ನಿಂದ (ಟೆಕ್ಸ್ಟ್-ಎಂಬೆಡಿಂಗ್-ಅಡಾ-002) ಸ್ವಾಮ್ಯದ ಪಠ್ಯ ವೆಕ್ಟರೈಸೇಶನ್ ಮಾದರಿಯಂತೆಯೇ ಅದೇ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಹೊಂದಿರುವ ಮೊದಲ ತೆರೆದ ಯಂತ್ರ ಕಲಿಕೆ ಮಾದರಿಯಾಗಿದೆ, ಇದು 8192 ಟೋಕನ್‌ಗಳೊಂದಿಗೆ ಪಠ್ಯವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿದೆ.

ಎರಡು ಉತ್ಪತ್ತಿಯಾದ ವೆಕ್ಟರ್‌ಗಳ ನಡುವಿನ ಅಂತರವನ್ನು ಮೂಲ ಪಠ್ಯಗಳ ಶಬ್ದಾರ್ಥದ ಸಂಬಂಧವನ್ನು ನಿರ್ಧರಿಸಲು ಬಳಸಬಹುದು. ಪ್ರಾಯೋಗಿಕವಾಗಿ, ರಚಿಸಲಾದ ವೆಕ್ಟರ್‌ಗಳನ್ನು ಪಠ್ಯಗಳ ಹೋಲಿಕೆಯನ್ನು ವಿಶ್ಲೇಷಿಸಲು, ವಿಷಯಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ವಸ್ತುಗಳ ಹುಡುಕಾಟವನ್ನು ಸಂಘಟಿಸಲು (ಶಬ್ದಾರ್ಥದ ಸಾಮೀಪ್ಯದಿಂದ ಶ್ರೇಯಾಂಕದ ಫಲಿತಾಂಶಗಳು), ಅರ್ಥದ ಮೂಲಕ ಗುಂಪು ಪಠ್ಯಗಳು, ಶಿಫಾರಸುಗಳನ್ನು ರಚಿಸಲು (ಒಂದೇ ರೀತಿಯ ಪಠ್ಯ ತಂತಿಗಳ ಪಟ್ಟಿಯನ್ನು ನೀಡಲು) ಬಳಸಬಹುದು. ವೈಪರೀತ್ಯಗಳನ್ನು ಗುರುತಿಸಿ, ಕೃತಿಚೌರ್ಯವನ್ನು ಪತ್ತೆ ಮಾಡಿ ಮತ್ತು ಪರೀಕ್ಷೆಗಳನ್ನು ವರ್ಗೀಕರಿಸಿ. ಬಳಕೆಯ ಕ್ಷೇತ್ರಗಳ ಉದಾಹರಣೆಗಳಲ್ಲಿ ಕಾನೂನು ದಾಖಲೆಗಳ ವಿಶ್ಲೇಷಣೆಗಾಗಿ, ವ್ಯವಹಾರ ವಿಶ್ಲೇಷಣೆಗಾಗಿ, ವೈದ್ಯಕೀಯ ಸಂಶೋಧನೆಯಲ್ಲಿ ವೈಜ್ಞಾನಿಕ ಲೇಖನಗಳನ್ನು ಸಂಸ್ಕರಿಸಲು, ಸಾಹಿತ್ಯ ವಿಮರ್ಶೆಯಲ್ಲಿ, ಹಣಕಾಸು ವರದಿಗಳನ್ನು ಪಾರ್ಸಿಂಗ್ ಮಾಡಲು ಮತ್ತು ಸಂಕೀರ್ಣ ಸಮಸ್ಯೆಗಳ ಚಾಟ್‌ಬಾಟ್ ಸಂಸ್ಕರಣೆಯ ಗುಣಮಟ್ಟವನ್ನು ಸುಧಾರಿಸಲು ಮಾದರಿಯ ಬಳಕೆಯನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ.

ಜಿನಾ-ಎಂಬೆಡ್ಡಿಂಗ್ಸ್ ಮಾದರಿಯ ಎರಡು ಆವೃತ್ತಿಗಳು ಡೌನ್‌ಲೋಡ್‌ಗೆ ಲಭ್ಯವಿವೆ (ಮೂಲ - 0.27 GB ಮತ್ತು ಕಡಿಮೆ - 0.07 GB), ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ 400 ಮಿಲಿಯನ್ ಜೋಡಿ ಪಠ್ಯ ಅನುಕ್ರಮಗಳ ಮೇಲೆ ತರಬೇತಿ ನೀಡಲಾಗುತ್ತದೆ, ಜ್ಞಾನದ ವಿವಿಧ ಕ್ಷೇತ್ರಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ತರಬೇತಿಯ ಸಮಯದಲ್ಲಿ, 512 ಟೋಕನ್‌ಗಳ ಗಾತ್ರದೊಂದಿಗೆ ಅನುಕ್ರಮಗಳನ್ನು ಬಳಸಲಾಯಿತು, ಇದನ್ನು ALiBi (ಲೀನಿಯರ್ ಪಕ್ಷಪಾತಗಳೊಂದಿಗೆ ಗಮನ) ವಿಧಾನವನ್ನು ಬಳಸಿಕೊಂಡು 8192 ಗಾತ್ರಕ್ಕೆ ವಿಸ್ತರಿಸಲಾಯಿತು.

ಮೂಲ ಮಾದರಿಯು 137 ಮಿಲಿಯನ್ ನಿಯತಾಂಕಗಳನ್ನು ಒಳಗೊಂಡಿದೆ ಮತ್ತು GPU ನೊಂದಿಗೆ ಸ್ಥಾಯಿ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಬಳಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. ಕಡಿಮೆ ಮಾಡಲಾದ ಮಾದರಿಯು 33 ಮಿಲಿಯನ್ ನಿಯತಾಂಕಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, ಕಡಿಮೆ ನಿಖರತೆಯನ್ನು ಒದಗಿಸುತ್ತದೆ ಮತ್ತು ಸಣ್ಣ ಪ್ರಮಾಣದ ಮೆಮೊರಿಯೊಂದಿಗೆ ಮೊಬೈಲ್ ಸಾಧನಗಳು ಮತ್ತು ಸಿಸ್ಟಮ್ಗಳಲ್ಲಿ ಬಳಕೆಗೆ ಗುರಿಯನ್ನು ಹೊಂದಿದೆ. ಮುಂದಿನ ದಿನಗಳಲ್ಲಿ ಅವರು 435 ಮಿಲಿಯನ್ ನಿಯತಾಂಕಗಳನ್ನು ಒಳಗೊಂಡಿರುವ ದೊಡ್ಡ ಮಾದರಿಯನ್ನು ಪ್ರಕಟಿಸಲು ಯೋಜಿಸಿದ್ದಾರೆ. ಮಾದರಿಯ ಬಹುಭಾಷಾ ಆವೃತ್ತಿಯು ಅಭಿವೃದ್ಧಿಯಲ್ಲಿದೆ, ಪ್ರಸ್ತುತ ಜರ್ಮನ್ ಮತ್ತು ಸ್ಪ್ಯಾನಿಷ್‌ಗೆ ಬೆಂಬಲವನ್ನು ಕೇಂದ್ರೀಕರಿಸಿದೆ. LLM ಟೂಲ್ಕಿಟ್ ಮೂಲಕ ಜಿನಾ-ಎಂಬೆಡಿಂಗ್ಸ್ ಮಾದರಿಯನ್ನು ಬಳಸಲು ಪ್ರತ್ಯೇಕವಾಗಿ ಪ್ಲಗಿನ್ ಅನ್ನು ಸಿದ್ಧಪಡಿಸಲಾಗಿದೆ.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ