ಅಮೆಜಾನ್ 51 ಭಾಷೆಗಳಲ್ಲಿ ಭಾಷಣವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಡೇಟಾಸೆಟ್ ಅನ್ನು ಪ್ರಕಟಿಸಿದೆ

Amazon CC BY 4.0 ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ "MASSIVE" (ಸ್ಲಾಟ್ ಫಿಲ್ಲಿಂಗ್, ಇಂಟೆಂಟ್ ವರ್ಗೀಕರಣ ಮತ್ತು ವರ್ಚುವಲ್-ಅಸಿಸ್ಟೆಂಟ್ ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ಬಹುಭಾಷಾ Amazon SLURP) ಡೇಟಾಸೆಟ್, ಯಂತ್ರ ಕಲಿಕಾ ವ್ಯವಸ್ಥೆಗಳಿಗೆ ಮಾದರಿಗಳು ಮತ್ತು ನಿಮ್ಮ ಸ್ವಂತ ಮಾದರಿಗಳಿಗೆ ತರಬೇತಿ ನೀಡುವ ಸಾಧನಗಳನ್ನು ಪ್ರಕಟಿಸಿದೆ. ನೈಸರ್ಗಿಕ ಭಾಷೆಯ ಮಾಹಿತಿಯನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಿ (NLU, ನ್ಯಾಚುರಲ್ ಲ್ಯಾಂಗ್ವೇಜ್ ಅಂಡರ್ಸ್ಟ್ಯಾಂಡಿಂಗ್). ಈ ಸೆಟ್ 51 ಭಾಷೆಗಳಿಗೆ ಸಿದ್ಧಪಡಿಸಲಾದ ಒಂದು ಮಿಲಿಯನ್‌ಗಿಂತಲೂ ಹೆಚ್ಚು ಟಿಪ್ಪಣಿ ಮತ್ತು ವರ್ಗೀಕೃತ ಪಠ್ಯ ಉಕ್ತಿಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.

ಮೂಲತಃ ಇಂಗ್ಲಿಷ್‌ಗೆ ಲಭ್ಯವಿರುವ SLURP ಸಂಗ್ರಹವನ್ನು ಬೃಹತ್ ಸೆಟ್ ಅನ್ನು ನಿರ್ಮಿಸಲು ಉಲ್ಲೇಖವಾಗಿ ಬಳಸಲಾಗುತ್ತಿತ್ತು, ಇದನ್ನು ವೃತ್ತಿಪರ ಭಾಷಾಂತರಕಾರರನ್ನು ಬಳಸಿಕೊಂಡು 50 ಇತರ ಭಾಷೆಗಳಲ್ಲಿ ಸ್ಥಳೀಕರಿಸಲಾಗಿದೆ. ಅಲೆಕ್ಸಾದ ನೈಸರ್ಗಿಕ ಭಾಷಾ ತಿಳುವಳಿಕೆ (NLU) ತಂತ್ರಜ್ಞಾನವು ಮೊದಲು ಭಾಷಣವನ್ನು ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ, ನಂತರ ಬಳಕೆದಾರರ ಪ್ರಶ್ನೆಯ ಸಾರವನ್ನು ನಿರ್ಧರಿಸಲು ಕೀವರ್ಡ್‌ಗಳ ಉಪಸ್ಥಿತಿಯನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಪಠ್ಯಕ್ಕೆ ಬಹು NLU ಮಾದರಿಗಳನ್ನು ಅನ್ವಯಿಸುತ್ತದೆ.

ಹಲವಾರು ಭಾಷೆಗಳಲ್ಲಿ ಮಾಹಿತಿಯನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಧ್ವನಿ ಸಹಾಯಕರನ್ನು ಅಳವಡಿಸಿಕೊಳ್ಳುವುದು ಮತ್ತು ಧ್ವನಿ ಸಹಾಯಕರ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ವಿಸ್ತರಿಸುವ ಅಪ್ಲಿಕೇಶನ್‌ಗಳು ಮತ್ತು ಸೇವೆಗಳನ್ನು ರಚಿಸಲು ಮೂರನೇ ವ್ಯಕ್ತಿಯ ಡೆವಲಪರ್‌ಗಳನ್ನು ಉತ್ತೇಜಿಸುವುದು ಸೆಟ್ ಅನ್ನು ರಚಿಸುವ ಮತ್ತು ಪ್ರಕಟಿಸುವ ಗುರಿಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ. ಡೆವಲಪರ್‌ಗಳ ಗಮನವನ್ನು ಸೆಳೆಯಲು, ಪ್ರಕಟಿಸಿದ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಅತ್ಯುತ್ತಮ ಜೆನೆರಿಕ್ ಮಾದರಿಯನ್ನು ರಚಿಸಲು Amazon ಸ್ಪರ್ಧೆಯನ್ನು ಪ್ರಾರಂಭಿಸಿತು.

ಪ್ರಸ್ತುತ, ಧ್ವನಿ ಸಹಾಯಕರು ಕೆಲವೇ ಭಾಷೆಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತಾರೆ ಮತ್ತು ನಿರ್ದಿಷ್ಟ ಭಾಷೆಗೆ ಸಂಬಂಧಿಸಿದ ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳನ್ನು ಬಳಸುತ್ತಾರೆ. MASSIVE ಯೋಜನೆಯು ಸಾರ್ವತ್ರಿಕ ಮಾದರಿಗಳು ಮತ್ತು ವಿವಿಧ ಭಾಷೆಗಳಲ್ಲಿ ಮಾಹಿತಿಯನ್ನು ಪಾರ್ಸಿಂಗ್ ಮತ್ತು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು ಸಮರ್ಥವಾಗಿರುವ ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳನ್ನು ರಚಿಸುವ ಮೂಲಕ ಈ ನ್ಯೂನತೆಯನ್ನು ನಿವಾರಿಸುವ ಗುರಿಯನ್ನು ಹೊಂದಿದೆ.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ