موزیلا کامن وائس 8.0 وائس اپ ڈیٹ

موزیلا نے اپنے کامن وائس ڈیٹاسیٹس کے لیے ایک اپ ڈیٹ جاری کیا ہے، جس میں تقریباً 200 لوگوں کے تلفظ کے نمونے شامل ہیں۔ ڈیٹا کو پبلک ڈومین (CC0) کے طور پر شائع کیا گیا ہے۔ مجوزہ سیٹوں کو مشین لرننگ سسٹم میں تقریر کی شناخت اور ترکیب کے ماڈل بنانے کے لیے استعمال کیا جا سکتا ہے۔ پچھلی تازہ کاری کے مقابلے میں، مجموعہ میں تقریری مواد کے حجم میں 30% اضافہ ہوا ہے - 13.9 سے 18.2 ہزار گھنٹے کی تقریر۔ معاون زبانوں کی تعداد 67 سے بڑھ کر 87 ہو گئی ہے۔

روسی زبان کے سیٹ میں 2452 شرکاء اور 193 گھنٹے تقریری مواد شامل ہے (2136 شرکاء اور 173 گھنٹے تھے)، بیلاروسی زبان کے لیے - 6160 شرکاء اور 987 گھنٹے (وہاں 3831 شرکاء اور 356 گھنٹے تھے)، یوکرائنی زبان کے لیے - 684 شرکاء اور 76 گھنٹے (615 شرکاء اور 66 گھنٹے تھے)۔ انگریزی میں مواد کی تیاری میں 79 ہزار سے زیادہ لوگوں نے حصہ لیا، 2886 گھنٹے کی تصدیق شدہ تقریر (75 ہزار شرکاء اور 2637 گھنٹے تھے)۔

ہم آپ کو یاد دلاتے ہیں کہ کامن وائس پروجیکٹ کا مقصد آواز کے نمونوں کا ڈیٹا بیس جمع کرنے کے لیے مشترکہ کام کو منظم کرنا ہے جو آوازوں اور تقریر کے انداز کے تنوع کو مدنظر رکھتا ہے۔ صارفین کو اسکرین پر دکھائے جانے والے صوتی فقروں کے لیے مدعو کیا جاتا ہے یا دوسرے صارفین کے ذریعے شامل کیے گئے ڈیٹا کے معیار کا جائزہ لیتے ہیں۔ انسانی تقریر کے مخصوص فقروں کے مختلف تلفظوں کے ریکارڈ کے ساتھ جمع شدہ ڈیٹا بیس کو مشین لرننگ سسٹم اور تحقیقی منصوبوں میں بغیر کسی پابندی کے استعمال کیا جا سکتا ہے۔ ووسک مسلسل اسپیچ ریکگنیشن لائبریری کے مصنف کے مطابق، کامن وائس سیٹ کے نقصانات صوتی مواد کا یک طرفہ ہونا (20-30 سال کی عمر کے مردوں کی برتری، اور خواتین کی آوازوں کے ساتھ مواد کی کمی) ، بچے اور بوڑھے)، لغت میں تغیر پذیری کی کمی (ایک ہی جملے کی تکرار) اور ریکارڈنگ کی تقسیم MP3 کی بگڑی ہوئی شکل میں۔

مزید برآں، ہم NVIDIA NeMo 1.6 ٹول کٹ کے اجراء کو نوٹ کر سکتے ہیں، جو تقریر کی شناخت کے نظام، تقریر کی ترکیب اور قدرتی زبان کی پروسیسنگ بنانے کے لیے مشین لرننگ کے طریقے مہیا کرتی ہے۔ NeMo میں PyTorch فریم ورک پر مبنی مشین لرننگ سسٹمز کے لیے استعمال کے لیے تیار تربیت یافتہ ماڈلز شامل ہیں، جنہیں NVIDIA نے کامن وائس اسپیچ ڈیٹا کا استعمال کرتے ہوئے تیار کیا ہے اور مختلف زبانوں، لہجوں اور تقریر کی شکلوں کا احاطہ کیا ہے۔ یہ ماڈل آواز پر مبنی ڈائیلاگ سسٹم، ٹرانسکرپشن پلیٹ فارمز، اور خودکار کال سینٹرز تیار کرنے والے محققین کے لیے کارآمد ہو سکتے ہیں۔ مثال کے طور پر، NVIDIA NeMo MTS اور Sberbank کی خودکار صوتی خدمات میں استعمال ہوتا ہے۔ NeMo کوڈ PyTorch کا استعمال کرتے ہوئے Python میں لکھا جاتا ہے اور Apache 2.0 لائسنس کے تحت تقسیم کیا جاتا ہے۔

ماخذ: opennet.ru

نیا تبصرہ شامل کریں