NVIDIA Mozilla Common Voice پروجیکٹ میں $1.5 ملین کی سرمایہ کاری کرتا ہے۔

NVIDIA Mozilla Common Voice پروجیکٹ میں $1.5 ملین کی سرمایہ کاری کر رہا ہے۔ اسپیچ ریکگنیشن سسٹمز میں دلچسپی اس پیشین گوئی سے پیدا ہوتی ہے کہ اگلے دس سالوں میں، صوتی ٹیکنالوجی لوگوں کے کمپیوٹر اور فون سے لے کر ڈیجیٹل اسسٹنٹس اور کیوسک تک کے آلات کے ساتھ تعامل کرنے کے اہم طریقوں میں سے ایک بن جائے گی۔

وائس سسٹمز کی کارکردگی کا انحصار مشین لرننگ ماڈلز کی تربیت کے لیے دستیاب وائس ڈیٹا کے حجم اور مختلف قسم پر ہے۔ آج کی صوتی ٹیکنالوجی بنیادی طور پر انگریزی زبان کی پہچان پر مرکوز ہے اور زبانوں، لہجوں اور تقریر کے نمونوں کی وسیع صف کا احاطہ نہیں کرتی ہے۔ اس سرمایہ کاری سے عوامی آواز کے ڈیٹا کی ترقی کو تیز کرنے، مزید کمیونٹیز اور رضاکاروں کو شامل کرنے اور کل وقتی پروجیکٹ کے عملے کی تعداد کو بڑھانے میں مدد ملے گی۔

ہم آپ کو یاد دلاتے ہیں کہ کامن وائس پروجیکٹ کا مقصد آواز کے نمونوں کا ڈیٹا بیس جمع کرنے کے لیے مشترکہ کام کو منظم کرنا ہے جو آوازوں اور تقریر کے انداز کے تنوع کو مدنظر رکھتا ہے۔ صارفین کو اسکرین پر دکھائے جانے والے صوتی فقروں کے لیے مدعو کیا جاتا ہے یا دوسرے صارفین کے ذریعے شامل کیے گئے ڈیٹا کے معیار کا جائزہ لیتے ہیں۔ انسانی تقریر کے مخصوص فقروں کے مختلف تلفظوں کے ریکارڈ کے ساتھ جمع شدہ ڈیٹا بیس کو مشین لرننگ سسٹم اور تحقیقی منصوبوں میں بغیر کسی پابندی کے استعمال کیا جا سکتا ہے۔

کامن وائس سیٹ میں فی الحال 164 سے زیادہ لوگوں کے تلفظ کی مثالیں شامل ہیں۔ 9 مختلف زبانوں میں تقریباً 60 ہزار گھنٹے کا وائس ڈیٹا جمع کیا گیا ہے۔ روسی زبان کے سیٹ میں 1412 شرکاء اور تقریری مواد کے 111 گھنٹے، اور یوکرائنی زبان کے لیے - 459 شرکاء اور 30 ​​گھنٹے۔ مقابلے کے لیے، 66 ہزار سے زیادہ لوگوں نے انگریزی میں مواد کی تیاری میں حصہ لیا، جس میں 1686 گھنٹے کی تصدیق شدہ تقریر کی گئی۔ مجوزہ سیٹوں کو مشین لرننگ سسٹم میں تقریر کی شناخت اور ترکیب کے ماڈل بنانے کے لیے استعمال کیا جا سکتا ہے۔ ڈیٹا کو پبلک ڈومین (CC0) کے طور پر شائع کیا گیا ہے۔

ووسک مسلسل اسپیچ ریکگنیشن لائبریری کے مصنف کے مطابق، کامن وائس سیٹ کے نقصانات صوتی مواد کا یک طرفہ ہونا (20-30 سال کی عمر کے مردوں کی برتری، اور خواتین کی آوازوں کے ساتھ مواد کی کمی) ، بچے اور بوڑھے)، لغت میں تغیر پذیری کی کمی (ایک ہی جملے کی تکرار) اور ریکارڈنگ کی تقسیم MP3 کی بگڑی ہوئی شکل میں۔

ماخذ: opennet.ru

نیا تبصرہ شامل کریں