ಮೊಜಿಲ್ಲಾ ಕಾಮನ್ ವಾಯ್ಸ್ 12.0 ವಾಯ್ಸ್ ಅಪ್‌ಡೇಟ್

200 ಕ್ಕೂ ಹೆಚ್ಚು ಜನರಿಂದ ಉಚ್ಚಾರಣೆ ಮಾದರಿಗಳನ್ನು ಸೇರಿಸಲು Mozilla ತನ್ನ ಸಾಮಾನ್ಯ ಧ್ವನಿ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ನವೀಕರಿಸಿದೆ. ಡೇಟಾವನ್ನು ಸಾರ್ವಜನಿಕ ಡೊಮೇನ್ (CC0) ಎಂದು ಪ್ರಕಟಿಸಲಾಗಿದೆ. ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಮತ್ತು ಸಂಶ್ಲೇಷಣೆಯ ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸಲು ಉದ್ದೇಶಿತ ಸೆಟ್‌ಗಳನ್ನು ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಬಳಸಬಹುದು.

ಹಿಂದಿನ ಅಪ್‌ಡೇಟ್‌ಗೆ ಹೋಲಿಸಿದರೆ, ಸಂಗ್ರಹಣೆಯಲ್ಲಿನ ಭಾಷಣ ವಸ್ತುಗಳ ಪರಿಮಾಣವು 23.8 ರಿಂದ 25.8 ಸಾವಿರ ಗಂಟೆಗಳ ಭಾಷಣಕ್ಕೆ ಹೆಚ್ಚಿದೆ. 88 ಸಾವಿರಕ್ಕೂ ಹೆಚ್ಚು ಜನರು ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ವಸ್ತುಗಳ ತಯಾರಿಕೆಯಲ್ಲಿ ಭಾಗವಹಿಸಿದರು, 3161 ಗಂಟೆಗಳ ಭಾಷಣವನ್ನು ನಿರ್ದೇಶಿಸಿದರು (84 ಸಾವಿರ ಭಾಗವಹಿಸುವವರು ಮತ್ತು 3098 ಗಂಟೆಗಳು). ಬೆಲರೂಸಿಯನ್ ಭಾಷೆಯ ಸೆಟ್ 7903 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 1419 ಗಂಟೆಗಳ ಭಾಷಣ ಸಾಮಗ್ರಿಗಳನ್ನು ಒಳಗೊಂಡಿದೆ (6965 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 1217 ಗಂಟೆಗಳು), ರಷ್ಯನ್ - 2815 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 229 ಗಂಟೆಗಳು (2731 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 215 ಗಂಟೆಗಳು), ಉಜ್ಬೆಕ್ - 2092 ಗಂಟೆಗಳ ಮತ್ತು 262 ಭಾಗ 2025 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 258 ಗಂಟೆಗಳು), ಉಕ್ರೇನಿಯನ್ ಭಾಷೆ - 780 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 87 ಗಂಟೆಗಳು (759 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 87 ಗಂಟೆಗಳಿದ್ದರು).

ಸಾಮಾನ್ಯ ಧ್ವನಿ ಯೋಜನೆಯು ಧ್ವನಿ ಮಾದರಿಗಳ ಡೇಟಾಬೇಸ್ ಅನ್ನು ಸಂಗ್ರಹಿಸಲು ಜಂಟಿ ಕೆಲಸವನ್ನು ಸಂಘಟಿಸುವ ಗುರಿಯನ್ನು ಹೊಂದಿದೆ, ಅದು ಧ್ವನಿಗಳು ಮತ್ತು ಭಾಷಣ ಶೈಲಿಗಳ ವೈವಿಧ್ಯತೆಯನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ಪರದೆಯ ಮೇಲೆ ಪ್ರದರ್ಶಿಸಲಾದ ಧ್ವನಿ ಪದಗುಚ್ಛಗಳಿಗೆ ಬಳಕೆದಾರರನ್ನು ಆಹ್ವಾನಿಸಲಾಗುತ್ತದೆ ಅಥವಾ ಇತರ ಬಳಕೆದಾರರಿಂದ ಸೇರಿಸಲಾದ ಡೇಟಾದ ಗುಣಮಟ್ಟವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗುತ್ತದೆ. ಮಾನವ ಭಾಷಣದ ವಿಶಿಷ್ಟ ನುಡಿಗಟ್ಟುಗಳ ವಿವಿಧ ಉಚ್ಚಾರಣೆಗಳ ದಾಖಲೆಗಳೊಂದಿಗೆ ಸಂಗ್ರಹವಾದ ಡೇಟಾಬೇಸ್ ಅನ್ನು ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಮತ್ತು ಸಂಶೋಧನಾ ಯೋಜನೆಗಳಲ್ಲಿ ನಿರ್ಬಂಧಗಳಿಲ್ಲದೆ ಬಳಸಬಹುದು.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ