ಮೊಜಿಲ್ಲಾ ಕಾಮನ್ ವಾಯ್ಸ್ 8.0 ವಾಯ್ಸ್ ಅಪ್‌ಡೇಟ್

Mozilla ತನ್ನ ಸಾಮಾನ್ಯ ಧ್ವನಿ ಡೇಟಾಸೆಟ್‌ಗಳಿಗೆ ನವೀಕರಣವನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ, ಇದು ಸುಮಾರು 200 ಜನರ ಉಚ್ಚಾರಣೆ ಮಾದರಿಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ಡೇಟಾವನ್ನು ಸಾರ್ವಜನಿಕ ಡೊಮೇನ್ (CC0) ಎಂದು ಪ್ರಕಟಿಸಲಾಗಿದೆ. ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಮತ್ತು ಸಂಶ್ಲೇಷಣೆಯ ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸಲು ಉದ್ದೇಶಿತ ಸೆಟ್‌ಗಳನ್ನು ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಬಳಸಬಹುದು. ಹಿಂದಿನ ಅಪ್‌ಡೇಟ್‌ಗೆ ಹೋಲಿಸಿದರೆ, ಸಂಗ್ರಹಣೆಯಲ್ಲಿನ ಮಾತಿನ ವಸ್ತುಗಳ ಪ್ರಮಾಣವು 30% ಹೆಚ್ಚಾಗಿದೆ - 13.9 ರಿಂದ 18.2 ಸಾವಿರ ಗಂಟೆಗಳ ಭಾಷಣಕ್ಕೆ. ಬೆಂಬಲಿತ ಭಾಷೆಗಳ ಸಂಖ್ಯೆ 67 ರಿಂದ 87 ಕ್ಕೆ ಏರಿದೆ.

ರಷ್ಯನ್ ಭಾಷೆಯ ಸೆಟ್ 2452 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 193 ಗಂಟೆಗಳ ಭಾಷಣ ಸಾಮಗ್ರಿಗಳನ್ನು ಒಳಗೊಂಡಿದೆ (2136 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 173 ಗಂಟೆಗಳು), ಬೆಲರೂಸಿಯನ್ ಭಾಷೆಗೆ - 6160 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 987 ಗಂಟೆಗಳು (3831 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 356 ಗಂಟೆಗಳು), ಉಕ್ರೇನಿಯನ್ ಭಾಷೆಗಾಗಿ - 684 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 76 ಗಂಟೆಗಳು (615 ಭಾಗವಹಿಸುವವರು ಮತ್ತು 66 ಗಂಟೆಗಳು). 79 ಸಾವಿರಕ್ಕೂ ಹೆಚ್ಚು ಜನರು ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ವಸ್ತುಗಳ ತಯಾರಿಕೆಯಲ್ಲಿ ಭಾಗವಹಿಸಿದರು, 2886 ಗಂಟೆಗಳ ದೃಢೀಕೃತ ಭಾಷಣವನ್ನು ನಿರ್ದೇಶಿಸಿದರು (75 ಸಾವಿರ ಭಾಗವಹಿಸುವವರು ಮತ್ತು 2637 ಗಂಟೆಗಳಿದ್ದರು).

ಧ್ವನಿಗಳು ಮತ್ತು ಮಾತಿನ ಶೈಲಿಗಳ ವೈವಿಧ್ಯತೆಯನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವ ಧ್ವನಿ ಮಾದರಿಗಳ ಡೇಟಾಬೇಸ್ ಅನ್ನು ಸಂಗ್ರಹಿಸಲು ಜಂಟಿ ಕೆಲಸವನ್ನು ಸಂಘಟಿಸುವ ಗುರಿಯನ್ನು ಸಾಮಾನ್ಯ ಧ್ವನಿ ಯೋಜನೆಯು ನಿಮಗೆ ನೆನಪಿಸೋಣ. ಪರದೆಯ ಮೇಲೆ ಪ್ರದರ್ಶಿಸಲಾದ ಧ್ವನಿ ಪದಗುಚ್ಛಗಳಿಗೆ ಬಳಕೆದಾರರನ್ನು ಆಹ್ವಾನಿಸಲಾಗುತ್ತದೆ ಅಥವಾ ಇತರ ಬಳಕೆದಾರರಿಂದ ಸೇರಿಸಲಾದ ಡೇಟಾದ ಗುಣಮಟ್ಟವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗುತ್ತದೆ. ಮಾನವ ಭಾಷಣದ ವಿಶಿಷ್ಟ ನುಡಿಗಟ್ಟುಗಳ ವಿವಿಧ ಉಚ್ಚಾರಣೆಗಳ ದಾಖಲೆಗಳೊಂದಿಗೆ ಸಂಗ್ರಹವಾದ ಡೇಟಾಬೇಸ್ ಅನ್ನು ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಮತ್ತು ಸಂಶೋಧನಾ ಯೋಜನೆಗಳಲ್ಲಿ ನಿರ್ಬಂಧಗಳಿಲ್ಲದೆ ಬಳಸಬಹುದು. ವೋಸ್ಕ್ ನಿರಂತರ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಗ್ರಂಥಾಲಯದ ಲೇಖಕರ ಪ್ರಕಾರ, ಸಾಮಾನ್ಯ ಧ್ವನಿ ಸೆಟ್‌ನ ಅನಾನುಕೂಲಗಳು ಧ್ವನಿ ವಸ್ತುವಿನ ಏಕಪಕ್ಷೀಯತೆ (20-30 ವರ್ಷ ವಯಸ್ಸಿನ ಪುರುಷ ಜನರ ಪ್ರಾಬಲ್ಯ ಮತ್ತು ಮಹಿಳೆಯರ ಧ್ವನಿಯೊಂದಿಗೆ ವಸ್ತುಗಳ ಕೊರತೆ , ಮಕ್ಕಳು ಮತ್ತು ಹಿರಿಯರು), ನಿಘಂಟಿನಲ್ಲಿನ ವ್ಯತ್ಯಾಸದ ಕೊರತೆ (ಅದೇ ನುಡಿಗಟ್ಟುಗಳ ಪುನರಾವರ್ತನೆ) ಮತ್ತು ವಿರೂಪಗೊಳಿಸುವ MP3 ಸ್ವರೂಪದಲ್ಲಿ ರೆಕಾರ್ಡಿಂಗ್ಗಳ ವಿತರಣೆ.

ಹೆಚ್ಚುವರಿಯಾಗಿ, NVIDIA NeMo 1.6 ಟೂಲ್‌ಕಿಟ್‌ನ ಬಿಡುಗಡೆಯನ್ನು ನಾವು ಗಮನಿಸಬಹುದು, ಇದು ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಗಳು, ಭಾಷಣ ಸಂಶ್ಲೇಷಣೆ ಮತ್ತು ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣೆಯನ್ನು ರಚಿಸಲು ಯಂತ್ರ ಕಲಿಕೆಯ ವಿಧಾನಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. PyTorch ಚೌಕಟ್ಟಿನ ಆಧಾರದ ಮೇಲೆ ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳಿಗೆ ಬಳಸಲು ಸಿದ್ಧವಾದ ತರಬೇತಿ ಮಾದರಿಗಳನ್ನು NeMo ಒಳಗೊಂಡಿದೆ, ಇದನ್ನು NVIDIA ಸಾಮಾನ್ಯ ಧ್ವನಿ ಭಾಷಣ ಡೇಟಾವನ್ನು ಬಳಸಿಕೊಂಡು ಮತ್ತು ವಿವಿಧ ಭಾಷೆಗಳು, ಉಚ್ಚಾರಣೆಗಳು ಮತ್ತು ಮಾತಿನ ಪ್ರಕಾರಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ಧ್ವನಿ-ಆಧಾರಿತ ಸಂವಾದ ವ್ಯವಸ್ಥೆಗಳು, ಪ್ರತಿಲೇಖನ ವೇದಿಕೆಗಳು ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ಕರೆ ಕೇಂದ್ರಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಸಂಶೋಧಕರಿಗೆ ಮಾದರಿಗಳು ಉಪಯುಕ್ತವಾಗಬಹುದು. ಉದಾಹರಣೆಗೆ, NVIDIA NeMo ಅನ್ನು MTS ಮತ್ತು Sberbank ನ ಸ್ವಯಂಚಾಲಿತ ಧ್ವನಿ ಸೇವೆಗಳಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ. NeMo ಕೋಡ್ ಅನ್ನು PyTorch ಬಳಸಿ ಪೈಥಾನ್‌ನಲ್ಲಿ ಬರೆಯಲಾಗಿದೆ ಮತ್ತು Apache 2.0 ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗಿದೆ.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ