ಮೊಜಿಲ್ಲಾ ಕಾಮನ್ ವಾಯ್ಸ್ 7.0 ವಾಯ್ಸ್ ಅಪ್‌ಡೇಟ್

Компании NVIDIA и Mozilla представили обновление наборов голосовых данных, собранных в результате инициативы Common Voice и включающих примеры произношения 182 тысяч людей, что на 25% больше, чем 6 месяцев назад. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи.

По сравнению с прошлым обновлением размер объём речевого материала в коллекции увеличился с 9 до 13.9 тысяч часов речи. Число поддерживаемых языков возросло с 60 до 76, в том числе впервые добавлена поддержка Белорусского, Казахского, Узбекского, Болгарского, Армянского, Азербайджанского и Башкирского языков. Набор для русского языка охватывает 2136 участников и 173 часа речевого материала (было 1412 участников и 111 часов), а для украинского языка — 615 участников и 66 часов (было 459 участников и 30 часов).

В подготовке материалов на английском языке приняли участие более 75 тысяч человек, надиктовавших 2637 часов подтверждённой речи (было 66 тысяч участников и 1686 часов). Интересно, что на втором месте по размеру накопленных данных язык руанда, для которого собрано 2260 часов. Затем следуют немецкий (1040), каталонский (920) и эсперанто (840). Из наиболее динамично наращивающих размер голосовых данных языков называются тайский язык (рост базы в 20 раз, с 12 до 250 часов), луганда (с 8 до 80 часов), эсперанто (со 100 до 840 часов) и тамильский язык (с 24 до 220 часов).

В рамках своего участия в проекте Common Voice компания NVIDIA подготовила на базе собранных данных готовые натренированные модели для систем машинного обучения (поддерживается PyTorch). Модели распространяются в составе бесплатного и открытого инструментария NVIDIA NeMo, который, например, уже используется в автоматизированных голосовых сервисах МТС и Сбербанка. Модели ориентированы на использование в системах распознавания речи, синтеза речи и обработки информации на естественном языке, и могут оказаться полезными для исследователей, занимающихся созданием голосовых диалоговых систем, платформ для транскрипции и автоматизированных колл-центров. В отличие от доступных ранее проектов, опубликованные модели не ограничиваются распознанием английского языка и охватывают различные языки, акценты и формы речи.

ಧ್ವನಿಗಳು ಮತ್ತು ಮಾತಿನ ಶೈಲಿಗಳ ವೈವಿಧ್ಯತೆಯನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವ ಧ್ವನಿ ಮಾದರಿಗಳ ಡೇಟಾಬೇಸ್ ಅನ್ನು ಸಂಗ್ರಹಿಸಲು ಜಂಟಿ ಕೆಲಸವನ್ನು ಸಂಘಟಿಸುವ ಗುರಿಯನ್ನು ಸಾಮಾನ್ಯ ಧ್ವನಿ ಯೋಜನೆಯು ನಿಮಗೆ ನೆನಪಿಸೋಣ. ಪರದೆಯ ಮೇಲೆ ಪ್ರದರ್ಶಿಸಲಾದ ಧ್ವನಿ ಪದಗುಚ್ಛಗಳಿಗೆ ಬಳಕೆದಾರರನ್ನು ಆಹ್ವಾನಿಸಲಾಗುತ್ತದೆ ಅಥವಾ ಇತರ ಬಳಕೆದಾರರಿಂದ ಸೇರಿಸಲಾದ ಡೇಟಾದ ಗುಣಮಟ್ಟವನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲಾಗುತ್ತದೆ. ಮಾನವ ಭಾಷಣದ ವಿಶಿಷ್ಟ ನುಡಿಗಟ್ಟುಗಳ ವಿವಿಧ ಉಚ್ಚಾರಣೆಗಳ ದಾಖಲೆಗಳೊಂದಿಗೆ ಸಂಗ್ರಹವಾದ ಡೇಟಾಬೇಸ್ ಅನ್ನು ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಮತ್ತು ಸಂಶೋಧನಾ ಯೋಜನೆಗಳಲ್ಲಿ ನಿರ್ಬಂಧಗಳಿಲ್ಲದೆ ಬಳಸಬಹುದು.

ವೋಸ್ಕ್ ನಿರಂತರ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಗ್ರಂಥಾಲಯದ ಲೇಖಕರ ಪ್ರಕಾರ, ಸಾಮಾನ್ಯ ಧ್ವನಿ ಸೆಟ್‌ನ ಅನಾನುಕೂಲಗಳು ಧ್ವನಿ ವಸ್ತುವಿನ ಏಕಪಕ್ಷೀಯತೆ (20-30 ವರ್ಷ ವಯಸ್ಸಿನ ಪುರುಷ ಜನರ ಪ್ರಾಬಲ್ಯ ಮತ್ತು ಮಹಿಳೆಯರ ಧ್ವನಿಯೊಂದಿಗೆ ವಸ್ತುಗಳ ಕೊರತೆ , ಮಕ್ಕಳು ಮತ್ತು ಹಿರಿಯರು), ನಿಘಂಟಿನಲ್ಲಿ ವ್ಯತ್ಯಾಸದ ಕೊರತೆ (ಅದೇ ನುಡಿಗಟ್ಟುಗಳ ಪುನರಾವರ್ತನೆ) ಮತ್ತು ವಿರೂಪಗೊಳಿಸುವ MP3 ಸ್ವರೂಪದಲ್ಲಿ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳನ್ನು ವಿತರಿಸುವುದು.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ