NVIDIA ಮೊಜಿಲ್ಲಾ ಕಾಮನ್ ವಾಯ್ಸ್ ಯೋಜನೆಯಲ್ಲಿ $1.5 ಮಿಲಿಯನ್ ಹೂಡಿಕೆ ಮಾಡುತ್ತದೆ

NVIDIA Mozilla Common Voice ಯೋಜನೆಯಲ್ಲಿ $1.5 ಮಿಲಿಯನ್ ಹೂಡಿಕೆ ಮಾಡುತ್ತಿದೆ. ಮುಂದಿನ ಹತ್ತು ವರ್ಷಗಳಲ್ಲಿ, ಧ್ವನಿ ತಂತ್ರಜ್ಞಾನವು ಕಂಪ್ಯೂಟರ್‌ಗಳು ಮತ್ತು ಫೋನ್‌ಗಳಿಂದ ಹಿಡಿದು ಡಿಜಿಟಲ್ ಸಹಾಯಕರು ಮತ್ತು ಕಿಯೋಸ್ಕ್‌ಗಳವರೆಗಿನ ಸಾಧನಗಳೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸುವ ಪ್ರಮುಖ ವಿಧಾನಗಳಲ್ಲಿ ಒಂದಾಗಲಿದೆ ಎಂಬ ಮುನ್ಸೂಚನೆಯಿಂದ ಸ್ಪೀಚ್ ರೆಕಗ್ನಿಷನ್ ಸಿಸ್ಟಮ್‌ಗಳಲ್ಲಿನ ಆಸಕ್ತಿಯು ಹುಟ್ಟಿಕೊಂಡಿದೆ.

ಧ್ವನಿ ವ್ಯವಸ್ಥೆಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯು ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳಿಗೆ ತರಬೇತಿ ನೀಡಲು ಲಭ್ಯವಿರುವ ಧ್ವನಿ ಡೇಟಾದ ಪರಿಮಾಣ ಮತ್ತು ವೈವಿಧ್ಯತೆಯ ಮೇಲೆ ಹೆಚ್ಚು ಅವಲಂಬಿತವಾಗಿದೆ. ಇಂದಿನ ಧ್ವನಿ ತಂತ್ರಜ್ಞಾನವು ಪ್ರಾಥಮಿಕವಾಗಿ ಇಂಗ್ಲಿಷ್ ಭಾಷೆಯ ಗುರುತಿಸುವಿಕೆಯ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ ಮತ್ತು ಭಾಷೆಗಳು, ಉಚ್ಚಾರಣೆಗಳು ಮತ್ತು ಮಾತಿನ ಮಾದರಿಗಳ ವ್ಯಾಪಕ ಶ್ರೇಣಿಯನ್ನು ಒಳಗೊಂಡಿರುವುದಿಲ್ಲ. ಹೂಡಿಕೆಯು ಸಾರ್ವಜನಿಕ ಧ್ವನಿ ಡೇಟಾದ ಬೆಳವಣಿಗೆಯನ್ನು ವೇಗಗೊಳಿಸಲು, ಹೆಚ್ಚಿನ ಸಮುದಾಯಗಳು ಮತ್ತು ಸ್ವಯಂಸೇವಕರನ್ನು ತೊಡಗಿಸಿಕೊಳ್ಳಲು ಮತ್ತು ಪೂರ್ಣ ಸಮಯದ ಯೋಜನಾ ಸಿಬ್ಬಂದಿಯ ಸಂಖ್ಯೆಯನ್ನು ವಿಸ್ತರಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.

ಧ್ವನಿಗಳು ಮತ್ತು ಮಾತಿನ ಶೈಲಿಗಳ ವೈವಿಧ್ಯತೆಯನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವ ಧ್ವನಿ ಮಾದರಿಗಳ ಡೇಟಾಬೇಸ್ ಅನ್ನು ಸಂಗ್ರಹಿಸಲು ಜಂಟಿ ಕೆಲಸವನ್ನು ಸಂಘಟಿಸುವ ಗುರಿಯನ್ನು ಸಾಮಾನ್ಯ ಧ್ವನಿ ಯೋಜನೆಯು ನಿಮಗೆ ನೆನಪಿಸೋಣ. ಪರದೆಯ ಮೇಲೆ ಪ್ರದರ್ಶಿಸಲಾದ ಧ್ವನಿ ಪದಗುಚ್ಛಗಳಿಗೆ ಬಳಕೆದಾರರನ್ನು ಆಹ್ವಾನಿಸಲಾಗುತ್ತದೆ ಅಥವಾ ಇತರ ಬಳಕೆದಾರರಿಂದ ಸೇರಿಸಲಾದ ಡೇಟಾದ ಗುಣಮಟ್ಟವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗುತ್ತದೆ. ಮಾನವ ಭಾಷಣದ ವಿಶಿಷ್ಟ ನುಡಿಗಟ್ಟುಗಳ ವಿವಿಧ ಉಚ್ಚಾರಣೆಗಳ ದಾಖಲೆಗಳೊಂದಿಗೆ ಸಂಗ್ರಹವಾದ ಡೇಟಾಬೇಸ್ ಅನ್ನು ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಮತ್ತು ಸಂಶೋಧನಾ ಯೋಜನೆಗಳಲ್ಲಿ ನಿರ್ಬಂಧಗಳಿಲ್ಲದೆ ಬಳಸಬಹುದು.

ಕಾಮನ್ ವಾಯ್ಸ್ ಸೆಟ್ ಪ್ರಸ್ತುತ 164 ಜನರಿಂದ ಉಚ್ಚಾರಣೆ ಉದಾಹರಣೆಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. 9 ವಿವಿಧ ಭಾಷೆಗಳಲ್ಲಿ ಸುಮಾರು 60 ಸಾವಿರ ಗಂಟೆಗಳ ಧ್ವನಿ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲಾಗಿದೆ. ರಷ್ಯಾದ ಭಾಷೆಯ ಸೆಟ್ 1412 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 111 ಗಂಟೆಗಳ ಭಾಷಣ ಸಾಮಗ್ರಿಗಳನ್ನು ಮತ್ತು ಉಕ್ರೇನಿಯನ್ ಭಾಷೆಗೆ - 459 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 30 ಗಂಟೆಗಳ ಕಾಲ ಒಳಗೊಂಡಿದೆ. ಹೋಲಿಕೆಗಾಗಿ, 66 ಸಾವಿರಕ್ಕೂ ಹೆಚ್ಚು ಜನರು ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ವಸ್ತುಗಳ ತಯಾರಿಕೆಯಲ್ಲಿ ಭಾಗವಹಿಸಿದರು, 1686 ಗಂಟೆಗಳ ಪರಿಶೀಲಿಸಿದ ಭಾಷಣವನ್ನು ನಿರ್ದೇಶಿಸಿದರು. ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಮತ್ತು ಸಂಶ್ಲೇಷಣೆಯ ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸಲು ಉದ್ದೇಶಿತ ಸೆಟ್‌ಗಳನ್ನು ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಬಳಸಬಹುದು. ಡೇಟಾವನ್ನು ಸಾರ್ವಜನಿಕ ಡೊಮೇನ್ (CC0) ಎಂದು ಪ್ರಕಟಿಸಲಾಗಿದೆ.

ವೋಸ್ಕ್ ನಿರಂತರ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಗ್ರಂಥಾಲಯದ ಲೇಖಕರ ಪ್ರಕಾರ, ಸಾಮಾನ್ಯ ಧ್ವನಿ ಸೆಟ್‌ನ ಅನಾನುಕೂಲಗಳು ಧ್ವನಿ ವಸ್ತುವಿನ ಏಕಪಕ್ಷೀಯತೆ (20-30 ವರ್ಷ ವಯಸ್ಸಿನ ಪುರುಷ ಜನರ ಪ್ರಾಬಲ್ಯ ಮತ್ತು ಮಹಿಳೆಯರ ಧ್ವನಿಯೊಂದಿಗೆ ವಸ್ತುಗಳ ಕೊರತೆ , ಮಕ್ಕಳು ಮತ್ತು ಹಿರಿಯರು), ನಿಘಂಟಿನಲ್ಲಿ ವ್ಯತ್ಯಾಸದ ಕೊರತೆ (ಅದೇ ನುಡಿಗಟ್ಟುಗಳ ಪುನರಾವರ್ತನೆ) ಮತ್ತು ವಿರೂಪಗೊಳಿಸುವ MP3 ಸ್ವರೂಪದಲ್ಲಿ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳನ್ನು ವಿತರಿಸುವುದು.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ