Mozilla Common Voice 7.0 اپڊيٽ

NVIDIA ۽ Mozilla هڪ تازه ڪاري جاري ڪئي آهي انهن جي ڪمن وائس ڊيٽا سيٽن تي، جنهن ۾ 182 ماڻهن جي تقرير جا نمونا شامل آهن، 25 مهينا اڳ کان 6 سيڪڙو وڌيڪ. ڊيٽا عوامي ڊومين (CC0) طور شايع ٿيل آهي. تجويز ڪيل سيٽ مشين لرننگ سسٽم ۾ استعمال ڪري سگھجن ٿا تقرير جي سڃاڻپ ۽ سنٿيسس ماڊل ٺاهڻ لاءِ.

پوئين تازه ڪاري جي مقابلي ۾، مجموعي ۾ تقرير جي مواد جي سائيز 9 کان 13.9 هزار ڪلاڪ تقرير تائين وڌي وئي آهي. سپورٽ ٿيل ٻولين جو تعداد 60 کان 76 تائين وڌي ويو آھي، جنھن ۾ پھريون ڀيرو بيلاروسي، قزاق، ازبڪ، بلغاريا، آرمينيائي، آذربائيجاني ۽ بشڪي ٻولين جي سپورٽ شامل آھي. روسي ٻولي لاء سيٽ 2136 شرڪت ڪندڙن ۽ تقرير جي مواد جي 173 ڪلاڪ تي مشتمل آهي (اتي 1412 شرڪت ڪندڙ ۽ 111 ڪلاڪ هئا)، ۽ يوڪريني ٻوليء لاء - 615 شرڪت ۽ 66 ڪلاڪ (اتي 459 شرڪت ۽ 30 ڪلاڪ هئا).

75 هزار کان وڌيڪ ماڻهن انگريزيءَ ۾ مواد تيار ڪرڻ ۾ حصو ورتو، 2637 ڪلاڪن جي تصديق ٿيل تقرير (66 هزار شرڪت ڪندڙ ۽ 1686 ڪلاڪ هئا). دلچسپ ڳالهه اها آهي ته جمع ڪيل ڊيٽا جي مقدار جي لحاظ کان ٻئي نمبر تي ٻولي روانڊا آهي، جنهن لاءِ 2260 ڪلاڪ گڏ ڪيا ويا آهن. ان کان پوءِ جرمن (1040)، ڪيٽلان (920) ۽ ايسپرانٽو (840) نمبر تي اچي ٿو. سڀ کان وڌيڪ متحرڪ طور تي آواز جي ڊيٽا جي سائيز ۾ واڌارو آهي ٿائي ٻولي (بيس ۾ 20 گنا واڌ، 12 کان 250 ڪلاڪن تائين)، لوگنڊا (8 کان 80 ڪلاڪن تائين)، ايسپرانٽو (100 کان 840 ڪلاڪن تائين) ۽ تامل ( 24 کان 220 ڪلاڪن تائين).

ڪمن وائس پروجيڪٽ ۾ ان جي شموليت جي حصي جي طور تي، NVIDIA گڏ ڪيل ڊيٽا جي بنياد تي مشين لرننگ سسٽم (PyTorch جي مدد سان) لاءِ تيار ڪيل تربيتي ماڊل تيار ڪيا. ماڊلز کي مفت ۽ کليل NVIDIA NeMo ٽول ڪٽ جي حصي طور ورهايو ويو آهي، جيڪو، مثال طور، اڳ ۾ ئي MTS ۽ Sberbank جي خودڪار آواز سروسز ۾ استعمال ڪيو ويو آهي. ماڊلز اسپيچ ريڪگنيشن، اسپيچ سنٿيسس، ۽ قدرتي ٻولي پروسيسنگ سسٽم ۾ استعمال لاءِ آهن، ۽ ٿي سگهي ٿو محققن لاءِ ڪارائتو ٿي سگهي ٿو جيڪي آواز-فعال ڊائلاگ سسٽم، ٽرانسڪرپشن پليٽ فارم، ۽ خودڪار ڪال سينٽرن جي تعمير ڪن ٿا. اڳ ۾ موجود منصوبن جي برعڪس، شايع ٿيل ماڊل انگريزي ٻولي جي سڃاڻپ تائين محدود نه آهن ۽ مختلف ٻولين، تلفظ ۽ تقرير جي قسمن کي ڍڪيندا آهن.

اچو ته توهان کي ياد ڏياريون ته ڪمن وائس پروجيڪٽ جو مقصد گڏيل ڪم کي منظم ڪرڻ آهي ته جيئن آوازن جي نمونن جو هڪ ڊيٽابيس گڏ ٿئي جيڪو آوازن جي تنوع ۽ تقرير جي انداز کي مدنظر رکي. صارفين کي اسڪرين تي ڏيکاريل آواز جي جملن جي دعوت ڏني وئي آهي يا ٻين صارفين پاران شامل ڪيل ڊيٽا جي معيار جو جائزو وٺو. انساني تقرير جي عام جملن جي مختلف تلفظن جي رڪارڊ سان گڏ گڏ ڪيل ڊيٽابيس کي مشين لرننگ سسٽم ۽ تحقيقي منصوبن ۾ بغير ڪنهن پابندي جي استعمال ڪري سگهجي ٿو.

ووسک مسلسل اسپيچ ريڪگنيشن لئبرريءَ جي مصنف جي مطابق، ڪمن وائس سيٽ جا نقصان آواز جي مواد جو هڪ طرفو هجڻ (20-30 سالن جي عمر وارن مردن جو غالب هجڻ، ۽ عورتن جي آوازن سان مواد جي کوٽ. ، ٻارن ۽ بزرگ)، ڊڪشنري ۾ تبديلي جي کوٽ (ساڳين جملن جي ورجائي) ۽ رڪارڊنگ جي تقسيم MP3 فارميٽ ۾ تحريف.

جو ذريعو: opennet.ru

تبصرو شامل ڪريو