🥇 موزيلا ڊيپ اسپيچ 0.6 اسپيچ ريڪگنيشن انجن متعارف ڪرايو

پاران پيش ڪيل Mozilla پاران تيار ڪيل اسپيچ ريڪگنيشن انجڻ جو رليز ڊيپ اسپيچ 0.6، جيڪو ساڳئي نالي جي تقرير جي سڃاڻپ جي فن تعمير کي لاڳو ڪري ٿو، تجويز ڪيل Baidu جي محققن طرفان. عملدرآمد Python ۾ TensorFlow مشين لرننگ پليٽ فارم استعمال ڪندي لکيو ويو آهي ۽ طرفان ورهايل مفت MPL 2.0 لائسنس تحت. ڪم ۾ سهڪار ڪيو ويندو آهي Linux, Android, macOS и Windowsڪارڪردگي لي پوٽاٽو، راسبي پائي 3، ۽ راسبي پائي 4 بورڊن تي انجن استعمال ڪرڻ لاءِ ڪافي آهي.

سيٽ ۾ پڻ شامل آهي پيش ڪيا ويا آهن تربيت يافته ماڊل، مثال ڪمانڊ لائن مان آواز فائلون ۽ سڃاڻپ جا اوزار. تقرير جي سڃاڻپ واري فنڪشن کي توهان جي پروگرامن ۾ ضم ڪرڻ لاءِ، Python، NodeJS، C++ ۽ .NET لاءِ استعمال لاءِ تيار ماڊلز پيش ڪيا ويا آهن (ٽين پارٽي ڊولپرز کي الڳ الڳ ماڊلز تيار ڪيا ويا آهن. زنگ и Go). مڪمل ٿيل ماڊل صرف انگريزيء لاء، پر ٻين ٻولين لاء مهيا ڪيل آهي جڙيل هدايتون توهان سسٽم کي پاڻ کي استعمال ڪندي ٽريننگ ڪري سگهو ٿا آواز ڊيٽا، گڏ ڪيل عام آواز پروجيڪٽ پاران.

DeepSpeech روايتي سسٽم جي ڀيٽ ۾ تمام آسان آهي ۽ ساڳئي وقت ٻاهرين شور جي موجودگي ۾ اعلي معيار جي سڃاڻپ فراهم ڪري ٿي. اهو روايتي صوتي ماڊلز ۽ فونيمز جي تصور کي نظرانداز ڪري ٿو، ان جي بدران هڪ انتهائي بهتر ڪيل نيورل نيٽ ورڪ تي ٻڌل مشين لرننگ سسٽم استعمال ڪري ٿو جيڪو مختلف بي ضابطگين جهڙوڪ شور، گونج، ۽ تقرير جي خاصيتن کي ماڊل ڪرڻ لاءِ الڳ اجزاء تيار ڪرڻ جي ضرورت کي ختم ڪري ٿو.

هن طريقي جو منفي پاسو اهو آهي ته نيورل نيٽ ورڪ جي اعليٰ معيار جي سڃاڻپ ۽ تربيت حاصل ڪرڻ لاءِ، ڊيپ اسپيچ انجڻ کي مختلف آوازن ۽ قدرتي شور جي موجودگيءَ ۾ حقيقي حالتن ۾ ترتيب ڏنل هيٽروجنيئس ڊيٽا جي وڏي مقدار جي ضرورت آهي.
Mozilla ۾ ٺهيل هڪ پروجيڪٽ اهڙي ڊيٽا گڏ ڪري ٿو. عام آواز780 ڪلاڪ سان گڏ هڪ تصديق ٿيل ڊيٽا سيٽ مهيا ڪرڻ انگريزي ٻولي، جرمن ۾ 325، فرينچ ۾ 173 ۽ روسي ۾ 27 ڪلاڪ.

ڪمن وائس پروجيڪٽ جو حتمي مقصد 10 هزار ڪلاڪن جي رڪارڊنگ کي گڏ ڪرڻ آهي مختلف تلفظن جي عام جملن جي انساني جملن جي، جيڪا تسليم ڪرڻ ۾ غلطين جي قابل قبول سطح حاصل ڪرڻ جي اجازت ڏئي ٿي. ان جي موجوده شڪل ۾، پروجيڪٽ شرڪت ڪندڙن اڳ ۾ ئي ڪل 4.3 هزار ڪلاڪ مقرر ڪيا آهن، جن مان 3.5 هزار آزمائشي ٿي چڪا آهن. جڏهن ڊيپ اسپيچ لاءِ فائنل انگريزي ٻوليءَ جي ماڊل کي تربيت ڏني وئي، 3816 ڪلاڪن جي تقرير استعمال ڪئي وئي، ان کان علاوه عام آواز کي ڍڪڻ واري ڊيٽا لائبرري اسپيچ، فشر ۽ سوئچ بورڊ پروجيڪٽس، ۽ پڻ شامل آهي تقريباً 1700 ڪلاڪن جي ٽرانسڪرائب ٿيل ريڊيو شو جي رڪارڊنگ.

جڏهن ڊائون لوڊ لاءِ پيش ڪيل تيار ٿيل انگريزي ٻوليءَ جو ماڊل استعمال ڪريو، ڊيپ اسپيچ ۾ سڃاڻپ جي غلطي جي شرح 7.5% آهي جڏهن ٽيسٽ سيٽ سان اندازو لڳايو وڃي لئبرري اسپيچ. مقابلي لاءِ، انساني سڃاڻپ لاءِ غلطي جي شرح ڪاٿو 5.83٪.

ڊيپ اسپيچ ٻن سب سسٽم تي مشتمل آهي - هڪ صوتي ماڊل ۽ هڪ ڊيڪوڊر. صوتي ماڊل ڊيپ مشين لرننگ طريقا استعمال ڪري ٿو ان پٽ سائونڊ ۾ موجود مخصوص اکرن جي امڪان کي ڳڻڻ لاءِ. ڊيڪوڊر هڪ ري سرچ الگورٿم استعمال ڪري ٿو ڪردار جي امڪاني ڊيٽا کي متن جي نمائندگي ۾ تبديل ڪرڻ لاءِ.

مکيه جدت DeepSpeech 0.6 (0.6 برانچ اڳئين رليز سان مطابقت نه رکي ٿي ۽ ڪوڊ ۽ ماڊل اپڊيٽ جي ضرورت آهي):

ھڪڙو نئون اسٽريمنگ ڊيڪوڊر تجويز ڪيو ويو آھي جيڪو اعليٰ ردعمل مهيا ڪري ٿو ۽ پروسيس ٿيل آڊيو ڊيٽا جي سائيز کان آزاد آھي. نتيجي طور، ڊيپ اسپيچ جو نئون ورزن 260 ايم ايس تائين تسليم ڪرڻ جي دير کي گھٽائڻ ۾ مدد ڪئي، جيڪا اڳ جي ڀيٽ ۾ 73٪ تيز آهي، ۽ ڊيپ اسپيچ کي پرواز تي تقرير جي سڃاڻپ جي حلن ۾ استعمال ڪرڻ جي اجازت ڏئي ٿي.
API ۾ تبديليون ڪيون ويون آھن ۽ ڪم ڪيو ويو آھي فنڪشن نالن کي متحد ڪرڻ لاءِ. هم وقت سازي جي باري ۾ اضافي ميٽا ڊيٽا حاصل ڪرڻ لاءِ فنڪشن شامل ڪيا ويا آهن، توهان کي نه صرف هڪ ٽيڪسٽ نمائندگي حاصل ڪرڻ جي اجازت ڏئي ٿي هڪ آئوٽ پُٽ طور، پر انفرادي ڪردارن ۽ جملن جي بائنڊنگ کي ٽريڪ ڪرڻ لاءِ آڊيو اسٽريم ۾ پوزيشن تي.
لائبريري استعمال ڪرڻ لاءِ سپورٽ ٽريننگ ماڊلز لاءِ ٽول ڪٽ ۾ شامل ڪئي وئي آهي CuDNN بار بار نيورل نيٽ ورڪن (RNN) سان ڪم کي بهتر ڪرڻ، جنهن اهو ممڪن ڪيو ته ماڊل ٽريننگ ڪارڪردگي ۾ هڪ اهم (تقريبن ٻه ڀيرا) اضافو حاصل ڪرڻ، پر ڪوڊ ۾ تبديلين جي ضرورت آهي جيڪا اڳ ۾ تيار ڪيل ماڊل سان مطابقت جي خلاف ورزي ڪئي.
گھٽ ۾ گھٽ TensorFlow ورزن جون گهرجون 1.13.1 کان 1.14.0 تائين وڌايو ويو آھي. TensorFlow Lite جي هلڪي وزن واري ايڊيشن لاءِ سپورٽ شامل ڪئي وئي، جيڪا ڊيپ اسپيچ پيڪيج جي سائيز کي 98 MB کان 3.7 MB تائين گھٽائي ٿي. ايمبيڊڊ ۽ موبائيل ڊيوائسز تي استعمال لاءِ، ماڊل سان ڀريل فائل جي سائيز پڻ 188 MB کان 47 MB تائين گھٽائي وئي آهي (ماڊل جي تربيت کان پوءِ ڪمپريشن لاءِ مقدار جو طريقو استعمال ڪيو ويندو آهي).
ٻوليءَ جي ماڊل کي مختلف ڊيٽا ڍانچي جي شڪل ۾ ترجمو ڪيو ويو آهي جيڪو لوڊ ٿيڻ وقت فائلن کي ميموري ۾ ميپ ڪرڻ جي اجازت ڏئي ٿو. پراڻي فارميٽ لاءِ سپورٽ بند ڪئي وئي آهي.
ٻوليء جي ماڊل سان فائل لوڊ ڪرڻ جو طريقو تبديل ڪيو ويو آهي، جنهن ۾ ميموري جي استعمال کي گھٽايو ويو آهي ۽ ماڊل ٺاهڻ کان پوء پهرين درخواست تي عمل ڪرڻ ۾ دير ٿي وئي آهي. آپريشن دوران، ڊيپ اسپيچ هاڻي 22 ڀيرا گھٽ ميموري استعمال ڪري ٿي ۽ 500 ڀيرا تيز شروع ٿئي ٿي.
ٻوليءَ جي ماڊل ۾ نادر لفظن کي فلٽر ڪيو ويو. لفظن جو ڪل تعداد گھٽجي ويو 500 ھزار مقبول ترين لفظن جو متن ۾ مليا آھن ماڊل کي تربيت ڏيڻ لاء استعمال ڪيو ويو. صفائيءَ ان کي ممڪن بڻايو ته ٻوليءَ جي ماڊل جي سائيز کي 1800MB کان 900MB تائين گھٽايو، حقيقت ۾ سڃاڻپ جي غلطي جي شرح تي ڪوبه اثر نه پيو.
شامل ڪيل سپورٽ مختلف لاء ٽيڪنيڪ ٽريننگ ۾ استعمال ٿيندڙ آڊيو ڊيٽا جي اضافي تبديليون (وڌائڻ) ٺاهڻ (مثال طور، اختيارن جي سيٽ ۾ تحريف يا شور شامل ڪرڻ).
.NET پليٽ فارم تي ٻڌل ايپليڪيشنن سان انضمام لاءِ پابندن سان گڏ لائبريري شامل ڪئي وئي.
دستاويز ٻيهر ڪم ڪيو ويو آهي ۽ هاڻي هڪ الڳ ويب سائيٽ تي گڏ ڪيو ويو آهي. deepspeech.readthedocs.io.

جو ذريعو: opennet.ru

Mozilla اسپيچ ريڪگنيشن انجڻ ڊيپ اسپيچ 0.6 متعارف ڪرايو