اوپن اي آءِ، جيڪو مصنوعي ذهانت ۾ اوپن سورس پروجيڪٽس تيار ڪرڻ وارو منصوبو آهي، ويسپر اسپيچ ريڪگنيشن سسٽم تي پنهنجو ڪم شايع ڪيو آهي. اهو دعويٰ ڪري ٿو ته انگريزي اسپيچ لاءِ، سسٽم انساني سڃاڻپ جي ويجهو اعتبار ۽ درستگي جي سطح فراهم ڪري ٿو. ريفرنس جي عملدرآمد لاءِ ڪوڊ، پائي ٽارچ فريم ورڪ جي بنياد تي، ۽ استعمال لاءِ تيار اڳ-تربيت يافته ماڊلز جو هڪ سيٽ جاري ڪيو ويو آهي. ڪوڊ ايم آءِ ٽي لائسنس تحت اوپن سورس ڪيو ويو آهي.
ماڊل کي مختلف ٻولين ۽ موضوعي علائقن کي ڍڪيندڙ ڪيترن ئي مجموعن مان گڏ ڪيل 680,000 ڪلاڪن جي تقرير ڊيٽا استعمال ڪندي تربيت ڏني وئي. تربيت لاءِ استعمال ٿيندڙ تقرير ڊيٽا جو تقريباً ٽيون حصو انگريزي کان سواءِ ٻين ٻولين مان هو. تجويز ڪيل نظام صحيح طور تي حالتن کي سنڀاليندو آهي جهڙوڪ تلفظ، پس منظر جو شور، ۽ ٽيڪنيڪل اصطلاح. تقرير کي متن ۾ نقل ڪرڻ کان علاوه، سسٽم ڪنهن به ٻولي مان تقرير کي انگريزي ۾ ترجمو ڪري سگهي ٿو ۽ آڊيو اسٽريم ۾ تقرير جي موجودگي کي ڳولي سگهي ٿو.
ماڊل ٻن نمائندگي ۾ پيدا ڪيا ويا آهن: هڪ انگريزي ٻولي وارو ماڊل ۽ هڪ گهڻ لساني ماڊل، جيڪو روسي، يوڪريني ۽ بيلاروسي کي پڻ سپورٽ ڪري ٿو. هر نمائندگي کي وڌيڪ پنجن قسمن ۾ ورهايو ويو آهي، سائيز ۽ ماڊل پاران ڍڪيل پيرا ميٽرز جي تعداد ۾ مختلف آهن. وڏا ماڊل وڌيڪ درستگي ۽ سڃاڻپ جي معيار جو نتيجو ڏين ٿا، پر GPU ميموري جي گهرجن ۽ گهٽ ڪارڪردگي پڻ. مثال طور، گهٽ ۾ گهٽ ماڊل ۾ 39 ملين پيرا ميٽر شامل آهن ۽ 1 GB وڊيو ميموري جي ضرورت آهي، جڏهن ته وڌ ۾ وڌ ماڊل ۾ 1550 ملين پيرا ميٽر شامل آهن ۽ 10 GB وڊيو ميموري جي ضرورت آهي. گهٽ ۾ گهٽ ماڊل وڌ ۾ وڌ ماڊل کان 32 ڀيرا تيز آهي.

هي نظام "ٽرانسفارمر" نيورل نيٽ ورڪ آرڪيٽيڪچر استعمال ڪري ٿو، جنهن ۾ هڪ انٽريڪٽنگ انڪوڊر ۽ ڊيڪوڊر شامل آهن. آڊيو کي 30 سيڪنڊن جي حصن ۾ ورهايو ويندو آهي، هڪ لاگ-ميل اسپيڪٽروگرام ۾ تبديل ڪيو ويندو آهي، ۽ انڪوڊر کي کارايو ويندو آهي. انڪوڊر جو آئوٽ پٽ ڊيڪوڊر ڏانهن موڪليو ويندو آهي، جيڪو خاص ٽوڪن سان مليل ٽيڪسٽ نمائندگي جي اڳڪٿي ڪري ٿو، هڪ واحد ماڊل کي ٻولي جي ڳولا، تاريخ جي تلفظ، مختلف ٻولين ۾ تقرير جي نقل، ۽ انگريزي ۾ ترجمو جهڙن ڪمن کي حل ڪرڻ جي اجازت ڏئي ٿو.
جو ذريعو: opennet.ru
