موزیلا کامن وائس 9.0 وائس اپ ڈیٹ

Компания Mozilla представила обновление наборов голосовых данных Common Voice, включающих примеры произношения около 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи.

По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился на 10% — с 18.2 до 20.2 тысяч часов речи. Число поддерживаемых языков возросло с 87 до 93. Для 27 языков накоплено более 100 часов речевых данных, а для 9 — более 500 часов речевых данных. Для 9 языков также удалось добиться доли женской речи, составляющей как минимум 45%.

В подготовке материалов на английском языке приняли участие более 81 тысяч человек, надиктовавших 2953 часов речи (было 79 тысяч участников и 2886 часов). Набор для белорусского языка охватывает 6326 участников и 1054 часа речевого материала (было — 6160 участников и 987 часов), русского языка — 2585 участников и 201 час (было 2452 участника и 193 часа), узбекского — 1503 участника и 231 час (было 1355 участников и 227 часов), украинского языка — 696 участников и 79 часов (было 684 участника и 76 часов).

کامن وائس پروجیکٹ کا مقصد آواز کے نمونوں کا ڈیٹا بیس جمع کرنے کے لیے مشترکہ کام کو منظم کرنا ہے جو آوازوں اور تقریر کے انداز کے تنوع کو مدنظر رکھتا ہے۔ صارفین کو اسکرین پر دکھائے جانے والے صوتی فقروں کے لیے مدعو کیا جاتا ہے یا دوسرے صارفین کے ذریعے شامل کیے گئے ڈیٹا کے معیار کا جائزہ لیتے ہیں۔ انسانی تقریر کے مخصوص فقروں کے مختلف تلفظوں کے ریکارڈ کے ساتھ جمع شدہ ڈیٹا بیس کو مشین لرننگ سسٹم اور تحقیقی منصوبوں میں بغیر کسی پابندی کے استعمال کیا جا سکتا ہے۔

ماخذ: opennet.ru

نیا تبصرہ شامل کریں