Mozilla Common Voice 12.0 اپڊيٽ

Mozilla 200 کان وڌيڪ ماڻهن کان تلفظ جا نمونا شامل ڪرڻ لاءِ پنهنجو ڪمن وائس ڊيٽا سيٽ اپ ڊيٽ ڪيو آهي. ڊيٽا عوامي ڊومين (CC0) طور شايع ٿيل آهي. تجويز ڪيل سيٽ مشين لرننگ سسٽم ۾ استعمال ڪري سگھجن ٿا تقرير جي سڃاڻپ ۽ سنٿيسس ماڊل ٺاهڻ لاءِ.

پوئين تازه ڪاري جي مقابلي ۾، مجموعي ۾ تقرير جي مواد جو حجم 23.8 کان 25.8 هزار ڪلاڪ تقرير تائين وڌي ويو. 88 هزار کان وڌيڪ ماڻهن انگريزي ۾ مواد تيار ڪرڻ ۾ حصو ورتو، تقرير جي 3161 ڪلاڪن کي ترتيب ڏنو (اتي 84 هزار شرڪت ۽ 3098 ڪلاڪ هئا). بيلاروسي ٻولي لاء سيٽ 7903 شرڪت ڪندڙن ۽ 1419 ڪلاڪ تقرير مواد تي مشتمل آهي (6965 شرڪت ڪندڙ ۽ 1217 ڪلاڪ هئا)، روسي - 2815 شرڪت ۽ 229 ڪلاڪ (اتي 2731 شرڪت ۽ 215 ڪلاڪ هئا)، ازبڪ - شرڪت ڪندڙ 2092 ڪلاڪ ۽ 262 ڪلاڪ اتي هئا 2025 شرڪت ڪندڙ ۽ 258 ڪلاڪ)، يوڪريني ٻولي - 780 شرڪت ڪندڙ ۽ 87 ڪلاڪ (اتي 759 شرڪت ۽ 87 ڪلاڪ هئا).

ڪمن وائس پروجيڪٽ جو مقصد آواز جي نمونن جو ڊيٽابيس گڏ ڪرڻ لاءِ گڏيل ڪم کي منظم ڪرڻ آهي جيڪو آوازن ۽ تقرير جي انداز جي تنوع کي مدنظر رکي ٿو. صارفين کي اسڪرين تي ڏيکاريل آواز جي جملن جي دعوت ڏني وئي آهي يا ٻين صارفين پاران شامل ڪيل ڊيٽا جي معيار جو جائزو وٺو. انساني تقرير جي عام جملن جي مختلف تلفظن جي رڪارڊ سان گڏ گڏ ڪيل ڊيٽابيس کي مشين لرننگ سسٽم ۽ تحقيقي منصوبن ۾ بغير ڪنهن پابندي جي استعمال ڪري سگهجي ٿو.

جو ذريعو: opennet.ru

تبصرو شامل ڪريو