NVIDIA ಮೊಜಿಲ್ಲಾ ಕಾಮನ್ ವಾಯ್ಸ್ ಯೋಜನೆಯಲ್ಲಿ $1.5 ಮಿಲಿಯನ್ ಹೂಡಿಕೆ ಮಾಡುತ್ತಿದೆ. ಮುಂದಿನ ಹತ್ತು ವರ್ಷಗಳಲ್ಲಿ, ಧ್ವನಿ ತಂತ್ರಜ್ಞಾನವು ಜನರು ಕಂಪ್ಯೂಟರ್ಗಳು ಮತ್ತು ಫೋನ್ಗಳಿಂದ ಹಿಡಿದು ಡಿಜಿಟಲ್ ಸಹಾಯಕರು ಮತ್ತು ವೆಂಡಿಂಗ್ ಯಂತ್ರಗಳವರೆಗೆ ವಿವಿಧ ಸಾಧನಗಳೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸುವ ಪ್ರಾಥಮಿಕ ಮಾರ್ಗಗಳಲ್ಲಿ ಒಂದಾಗುತ್ತದೆ ಎಂಬ ಭವಿಷ್ಯವಾಣಿಯಿಂದ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಆಸಕ್ತಿ ಹುಟ್ಟಿಕೊಂಡಿದೆ.
ಧ್ವನಿ ವ್ಯವಸ್ಥೆಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯು ತರಬೇತಿ ಯಂತ್ರ ಕಲಿಕೆ ಮಾದರಿಗಳಿಗೆ ಲಭ್ಯವಿರುವ ಧ್ವನಿ ಡೇಟಾದ ಪ್ರಮಾಣ ಮತ್ತು ವೈವಿಧ್ಯತೆಯ ಮೇಲೆ ಹೆಚ್ಚು ಅವಲಂಬಿತವಾಗಿದೆ. ಪ್ರಸ್ತುತ ಧ್ವನಿ ತಂತ್ರಜ್ಞಾನಗಳು ಪ್ರಾಥಮಿಕವಾಗಿ ಇಂಗ್ಲಿಷ್ ಭಾಷಾ ಗುರುತಿಸುವಿಕೆಯ ಮೇಲೆ ಕೇಂದ್ರೀಕೃತವಾಗಿವೆ ಮತ್ತು ವ್ಯಾಪಕ ಶ್ರೇಣಿಯ ಭಾಷೆಗಳು, ಉಚ್ಚಾರಣೆಗಳು ಮತ್ತು ಮಾತಿನ ಮಾದರಿಗಳನ್ನು ಒಳಗೊಂಡಿರುವುದಿಲ್ಲ. ಹೂಡಿಕೆಗಳು ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿರುವ ಧ್ವನಿ ಡೇಟಾದ ಬೆಳವಣಿಗೆಯನ್ನು ವೇಗಗೊಳಿಸಲು, ಹೆಚ್ಚಿನ ಸಮುದಾಯಗಳು ಮತ್ತು ಸ್ವಯಂಸೇವಕರನ್ನು ತೊಡಗಿಸಿಕೊಳ್ಳಲು ಮತ್ತು ಪೂರ್ಣ ಸಮಯದ ಯೋಜನಾ ಸಿಬ್ಬಂದಿಯ ಸಂಖ್ಯೆಯನ್ನು ವಿಸ್ತರಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
ಧ್ವನಿಗಳು ಮತ್ತು ಮಾತಿನ ಶೈಲಿಗಳ ವೈವಿಧ್ಯತೆಯನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವ ಧ್ವನಿ ಮಾದರಿಗಳ ಡೇಟಾಬೇಸ್ ಅನ್ನು ಸಂಗ್ರಹಿಸಲು ಜಂಟಿ ಕೆಲಸವನ್ನು ಸಂಘಟಿಸುವ ಗುರಿಯನ್ನು ಸಾಮಾನ್ಯ ಧ್ವನಿ ಯೋಜನೆಯು ನಿಮಗೆ ನೆನಪಿಸೋಣ. ಪರದೆಯ ಮೇಲೆ ಪ್ರದರ್ಶಿಸಲಾದ ಧ್ವನಿ ಪದಗುಚ್ಛಗಳಿಗೆ ಬಳಕೆದಾರರನ್ನು ಆಹ್ವಾನಿಸಲಾಗುತ್ತದೆ ಅಥವಾ ಇತರ ಬಳಕೆದಾರರಿಂದ ಸೇರಿಸಲಾದ ಡೇಟಾದ ಗುಣಮಟ್ಟವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗುತ್ತದೆ. ಮಾನವ ಭಾಷಣದ ವಿಶಿಷ್ಟ ನುಡಿಗಟ್ಟುಗಳ ವಿವಿಧ ಉಚ್ಚಾರಣೆಗಳ ದಾಖಲೆಗಳೊಂದಿಗೆ ಸಂಗ್ರಹವಾದ ಡೇಟಾಬೇಸ್ ಅನ್ನು ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಮತ್ತು ಸಂಶೋಧನಾ ಯೋಜನೆಗಳಲ್ಲಿ ನಿರ್ಬಂಧಗಳಿಲ್ಲದೆ ಬಳಸಬಹುದು.
ಕಾಮನ್ ವಾಯ್ಸ್ ಡೇಟಾಸೆಟ್ ಪ್ರಸ್ತುತ 164 ಕ್ಕೂ ಹೆಚ್ಚು ಜನರಿಂದ ಉಚ್ಚಾರಣಾ ಮಾದರಿಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, ಇದು 60 ವಿವಿಧ ಭಾಷೆಗಳಲ್ಲಿ ಸುಮಾರು 9 ಗಂಟೆಗಳ ಧ್ವನಿ ಡೇಟಾವನ್ನು ಒಳಗೊಂಡಿದೆ. ರಷ್ಯನ್ ಡೇಟಾಸೆಟ್ 1412 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 111 ಗಂಟೆಗಳ ಭಾಷಣ ಸಾಮಗ್ರಿಯನ್ನು ಒಳಗೊಂಡಿದೆ, ಆದರೆ ಉಕ್ರೇನಿಯನ್ ಡೇಟಾಸೆಟ್ 459 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 30 ಗಂಟೆಗಳ ಭಾಷಣ ಸಾಮಗ್ರಿಯನ್ನು ಒಳಗೊಂಡಿದೆ. ಹೋಲಿಕೆಗಾಗಿ, 66 ಕ್ಕೂ ಹೆಚ್ಚು ಜನರು ಇಂಗ್ಲಿಷ್ ಡೇಟಾಸೆಟ್ಗೆ 1686 ಗಂಟೆಗಳ ಪರಿಶೀಲಿಸಿದ ಭಾಷಣವನ್ನು ಕೊಡುಗೆ ನೀಡಿದ್ದಾರೆ. ಈ ಡೇಟಾಸೆಟ್ಗಳನ್ನು ಯಂತ್ರ ಕಲಿಕಾ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಮತ್ತು ಸಂಶ್ಲೇಷಣೆ ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸಲು ಬಳಸಬಹುದು. ಡೇಟಾವನ್ನು ಸಾರ್ವಜನಿಕ ಡೊಮೇನ್ನಲ್ಲಿ (CC0) ಪ್ರಕಟಿಸಲಾಗಿದೆ.
ವೋಸ್ಕ್ ನಿರಂತರ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಗ್ರಂಥಾಲಯದ ಲೇಖಕರ ಪ್ರಕಾರ, ಸಾಮಾನ್ಯ ಧ್ವನಿ ಸೆಟ್ನ ಅನಾನುಕೂಲಗಳು ಧ್ವನಿ ವಸ್ತುವಿನ ಏಕಪಕ್ಷೀಯತೆ (20-30 ವರ್ಷ ವಯಸ್ಸಿನ ಪುರುಷ ಜನರ ಪ್ರಾಬಲ್ಯ ಮತ್ತು ಮಹಿಳೆಯರ ಧ್ವನಿಯೊಂದಿಗೆ ವಸ್ತುಗಳ ಕೊರತೆ , ಮಕ್ಕಳು ಮತ್ತು ಹಿರಿಯರು), ನಿಘಂಟಿನಲ್ಲಿ ವ್ಯತ್ಯಾಸದ ಕೊರತೆ (ಅದೇ ನುಡಿಗಟ್ಟುಗಳ ಪುನರಾವರ್ತನೆ) ಮತ್ತು ವಿರೂಪಗೊಳಿಸುವ MP3 ಸ್ವರೂಪದಲ್ಲಿ ರೆಕಾರ್ಡಿಂಗ್ಗಳನ್ನು ವಿತರಿಸುವುದು.
ಮೂಲ: opennet.ru
