موزیلا کامن وائس 12.0 وائس اپ ڈیٹ

موزیلا نے 200 سے زیادہ لوگوں کے تلفظ کے نمونے شامل کرنے کے لیے اپنے کامن وائس ڈیٹا سیٹس کو اپ ڈیٹ کیا ہے۔ ڈیٹا کو پبلک ڈومین (CC0) کے طور پر شائع کیا گیا ہے۔ مجوزہ سیٹوں کو مشین لرننگ سسٹم میں تقریر کی شناخت اور ترکیب کے ماڈل بنانے کے لیے استعمال کیا جا سکتا ہے۔

پچھلی تازہ کاری کے مقابلے، مجموعہ میں تقریری مواد کا حجم 23.8 سے بڑھ کر 25.8 ہزار گھنٹے تک پہنچ گیا۔ انگریزی میں مواد کی تیاری میں 88 ہزار سے زیادہ لوگوں نے حصہ لیا، 3161 گھنٹے کی تقریر (84 ہزار شرکاء اور 3098 گھنٹے تھے)۔ بیلاروسی زبان کے سیٹ میں 7903 شرکاء اور 1419 گھنٹے تقریری مواد شامل ہے (6965 شرکاء اور 1217 گھنٹے تھے)، روسی - 2815 شرکاء اور 229 گھنٹے (2731 شرکاء اور 215 گھنٹے تھے)، ازبک - شرکاء اور 2092 گھنٹے 262 شرکاء اور 2025 گھنٹے تھے)، یوکرائنی زبان - 258 شرکاء اور 780 گھنٹے (87 شرکاء اور 759 گھنٹے تھے)۔

کامن وائس پروجیکٹ کا مقصد آواز کے نمونوں کا ڈیٹا بیس جمع کرنے کے لیے مشترکہ کام کو منظم کرنا ہے جو آوازوں اور تقریر کے انداز کے تنوع کو مدنظر رکھتا ہے۔ صارفین کو اسکرین پر دکھائے جانے والے صوتی فقروں کے لیے مدعو کیا جاتا ہے یا دوسرے صارفین کے ذریعے شامل کیے گئے ڈیٹا کے معیار کا جائزہ لیتے ہیں۔ انسانی تقریر کے مخصوص فقروں کے مختلف تلفظوں کے ریکارڈ کے ساتھ جمع شدہ ڈیٹا بیس کو مشین لرننگ سسٹم اور تحقیقی منصوبوں میں بغیر کسی پابندی کے استعمال کیا جا سکتا ہے۔

ماخذ: opennet.ru

نیا تبصرہ شامل کریں