Mozilla Common Voice 8.0 اپڊيٽ

Mozilla پنهنجي ڪمن وائس ڊيٽا سيٽن لاءِ هڪ اپڊيٽ جاري ڪئي آهي، جنهن ۾ تقريبن 200 ماڻهن جا تلفظ جا نمونا شامل آهن. ڊيٽا عوامي ڊومين (CC0) طور شايع ٿيل آهي. تجويز ڪيل سيٽ مشين لرننگ سسٽم ۾ استعمال ڪري سگھجن ٿا تقرير جي سڃاڻپ ۽ سنٿيسس ماڊل ٺاهڻ لاءِ. پوئين تازه ڪاري جي مقابلي ۾، مجموعي ۾ تقرير جي مواد جو مقدار 30٪ وڌايو ويو - تقرير جي 13.9 کان 18.2 هزار ڪلاڪن تائين. سپورٽ ٿيل ٻولين جو تعداد 67 مان وڌي 87 ٿي ويو آھي.

روسي ٻولي لاء سيٽ 2452 شرڪت ڪندڙن ۽ 193 ڪلاڪ تقرير مواد تي مشتمل آهي (اتي 2136 شرڪت ۽ 173 ڪلاڪ هئا)، بيلاروسي ٻولي لاء - 6160 شرڪت ۽ 987 ڪلاڪ (اتي 3831 شرڪت ۽ 356 ڪلاڪ هئا)، يوڪريني ٻولي لاء - 684 شرڪت ۽ 76 ڪلاڪ (اتي 615 شرڪت ۽ 66 ڪلاڪ هئا). 79 هزار کان وڌيڪ ماڻهن انگريزيءَ ۾ مواد تيار ڪرڻ ۾ حصو ورتو، 2886 ڪلاڪن جي تصديق ٿيل تقرير (75 هزار شرڪت ڪندڙ ۽ 2637 ڪلاڪ هئا).

اچو ته توهان کي ياد ڏياريون ته Common Voice پروجيڪٽ جو مقصد گڏيل ڪم کي منظم ڪرڻ آهي ته جيئن آوازن جي نمونن جو هڪ ڊيٽابيس گڏ ٿئي جيڪو آوازن جي تنوع ۽ تقرير جي انداز کي مدنظر رکي. صارفين کي اسڪرين تي ڏيکاريل آواز جي جملن جي دعوت ڏني وئي آهي يا ٻين صارفين پاران شامل ڪيل ڊيٽا جي معيار جو جائزو وٺو. انساني تقرير جي عام جملن جي مختلف تلفظن جي رڪارڊ سان گڏ گڏ ڪيل ڊيٽابيس کي مشين لرننگ سسٽم ۽ تحقيقي منصوبن ۾ بغير ڪنهن پابندي جي استعمال ڪري سگهجي ٿو. ووسک مسلسل اسپيچ ريڪگنيشن لئبرريءَ جي مصنف جي مطابق، ڪمن وائس سيٽ جا نقصان آواز جي مواد جو هڪ طرفو هجڻ (20-30 سالن جي عمر وارن مردن جو غالب هجڻ، ۽ عورتن جي آوازن سان مواد جي کوٽ. ، ٻارن ۽ بزرگ)، ڊڪشنري ۾ تبديلي جي کوٽ (ساڳين جملن جي ورجائي) ۽ رڪارڊنگ جي تقسيم MP3 فارميٽ ۾ تحريف.

اضافي طور تي، اسان NVIDIA NeMo 1.6 ٽول ڪٽ جي رليز کي نوٽ ڪري سگهون ٿا، جيڪا تقرير جي سڃاڻپ سسٽم، تقرير جي جوڙجڪ ۽ قدرتي ٻولي پروسيسنگ ٺاهڻ لاء مشين سکيا جا طريقا مهيا ڪري ٿي. NeMo ۾ مشين لرننگ سسٽم لاءِ تيار ڪيل تيار ماڊل شامل آهن PyTorch فريم ورڪ جي بنياد تي، NVIDIA پاران تيار ڪيل ڪمن وائس اسپيچ ڊيٽا استعمال ڪندي ۽ مختلف ٻولين، تلفظن ۽ تقرير جي شڪلن کي ڍڪيندي. ماڊل آواز تي ٻڌل ڊائلاگ سسٽم، ٽرانسڪرپشن پليٽ فارمز، ۽ خودڪار ڪال سينٽرز کي ترقي ڪندڙ محققن لاءِ ڪارآمد ٿي سگهن ٿا. مثال طور، NVIDIA NeMo MTS ۽ Sberbank جي خودڪار آواز سروسز ۾ استعمال ٿيندو آهي. NeMo ڪوڊ Python ۾ PyTorch استعمال ڪندي لکيو ويو آهي ۽ Apache 2.0 لائسنس تحت ورهايو ويو آهي.

جو ذريعو: opennet.ru

تبصرو شامل ڪريو