موزیلا کامن وائس 7.0 وائس اپ ڈیٹ

NVIDIA اور Mozilla نے اپنے کامن وائس ڈیٹا سیٹس کے لیے ایک اپ ڈیٹ جاری کیا ہے، جس میں 182 لوگوں کی تقریر کے نمونے شامل ہیں، جو کہ 25 ماہ پہلے کے مقابلے میں 6% زیادہ ہیں۔ ڈیٹا کو پبلک ڈومین (CC0) کے طور پر شائع کیا گیا ہے۔ مجوزہ سیٹوں کو مشین لرننگ سسٹم میں تقریر کی شناخت اور ترکیب کے ماڈل بنانے کے لیے استعمال کیا جا سکتا ہے۔

پچھلی تازہ کاری کے مقابلے، مجموعہ میں تقریری مواد کا سائز 9 سے بڑھ کر 13.9 ہزار گھنٹے کی تقریر تک پہنچ گیا ہے۔ معاون زبانوں کی تعداد 60 سے بڑھ کر 76 ہو گئی ہے، بشمول پہلی بار بیلاروسی، قازق، ازبک، بلغاریائی، آرمینیائی، آذربائیجانی اور بشکیر زبانوں کی حمایت۔ روسی زبان کے سیٹ میں 2136 شرکاء اور 173 گھنٹے تقریری مواد شامل ہے (وہاں 1412 شرکاء اور 111 گھنٹے تھے)، اور یوکرائنی زبان کے لیے - 615 شرکاء اور 66 گھنٹے (وہاں 459 شرکاء اور 30 ​​گھنٹے تھے)۔

75 ہزار سے زیادہ لوگوں نے انگریزی میں مواد کی تیاری میں حصہ لیا، 2637 گھنٹے کی تصدیق شدہ تقریر (66 ہزار شرکاء اور 1686 گھنٹے تھے)۔ دلچسپ بات یہ ہے کہ جمع کیے گئے ڈیٹا کی مقدار کے لحاظ سے دوسرے نمبر پر موجود زبان روانڈا ہے، جس کے لیے 2260 گھنٹے جمع کیے گئے ہیں۔ اس کے بعد جرمن (1040)، کاتالان (920) اور ایسپرانٹو (840) کا نمبر آتا ہے۔ صوتی ڈیٹا کے سائز میں سب سے زیادہ متحرک طور پر اضافہ کرنے والوں میں تھائی زبان (بیس میں 20 گنا اضافہ، 12 سے 250 گھنٹے)، لوگنڈا (8 سے 80 گھنٹے تک)، ایسپرانٹو (100 سے 840 گھنٹے تک) اور تامل ( 24 سے 220 گھنٹے تک۔ گھنٹے)۔

کامن وائس پروجیکٹ میں اپنی شرکت کے حصے کے طور پر، NVIDIA نے جمع کیے گئے ڈیٹا کی بنیاد پر مشین لرننگ سسٹمز (PyTorch کے ذریعے تعاون یافتہ) کے لیے تیار تربیت یافتہ ماڈلز تیار کیے ہیں۔ ماڈلز کو مفت اور کھلی NVIDIA NeMo ٹول کٹ کے حصے کے طور پر تقسیم کیا گیا ہے، جو کہ، مثال کے طور پر، MTS اور Sberbank کی خودکار صوتی خدمات میں پہلے ہی استعمال کیا جاتا ہے۔ ماڈلز اسپیچ ریکگنیشن، اسپیچ سنتھیسز، اور قدرتی لینگویج پروسیسنگ سسٹمز میں استعمال کے لیے بنائے گئے ہیں، اور آواز سے چلنے والے ڈائیلاگ سسٹم، ٹرانسکرپشن پلیٹ فارمز، اور خودکار کال سینٹرز بنانے والے محققین کے لیے مفید ہو سکتے ہیں۔ پہلے دستیاب منصوبوں کے برعکس، شائع شدہ ماڈل انگریزی زبان کی پہچان تک محدود نہیں ہیں اور مختلف زبانوں، لہجوں اور تقریر کی شکلوں کا احاطہ کرتے ہیں۔

ہم آپ کو یاد دلاتے ہیں کہ کامن وائس پروجیکٹ کا مقصد آواز کے نمونوں کا ڈیٹا بیس جمع کرنے کے لیے مشترکہ کام کو منظم کرنا ہے جو آوازوں اور تقریر کے انداز کے تنوع کو مدنظر رکھتا ہے۔ صارفین کو اسکرین پر دکھائے جانے والے صوتی فقروں کے لیے مدعو کیا جاتا ہے یا دوسرے صارفین کے ذریعے شامل کیے گئے ڈیٹا کے معیار کا جائزہ لیتے ہیں۔ انسانی تقریر کے مخصوص فقروں کے مختلف تلفظوں کے ریکارڈ کے ساتھ جمع شدہ ڈیٹا بیس کو مشین لرننگ سسٹم اور تحقیقی منصوبوں میں بغیر کسی پابندی کے استعمال کیا جا سکتا ہے۔

ووسک مسلسل اسپیچ ریکگنیشن لائبریری کے مصنف کے مطابق، کامن وائس سیٹ کے نقصانات صوتی مواد کا یک طرفہ ہونا (20-30 سال کی عمر کے مردوں کی برتری، اور خواتین کی آوازوں کے ساتھ مواد کی کمی) ، بچے اور بوڑھے)، لغت میں تغیر پذیری کی کمی (ایک ہی جملے کی تکرار) اور ریکارڈنگ کی تقسیم MP3 کی بگڑی ہوئی شکل میں۔

ماخذ: opennet.ru

نیا تبصرہ شامل کریں