گوگل ناقص ڪنيڪشن جي معيار ۾ اسپيچ ٽرانسميشن لاءِ ليرا آڊيو ڪوڊيڪ شايع ڪيو آهي

گوگل هڪ نئون آڊيو ڪوڊيڪ متعارف ڪرايو آهي، ليرا، وڌ کان وڌ آواز جي معيار کي حاصل ڪرڻ لاءِ بهتر ڪيو ويو آهي جيتوڻيڪ تمام سست ڪميونيڪيشن چينلز استعمال ڪندي. ليرا پليپشن ڪوڊ C++ ۾ لکيل آهي ۽ Apache 2.0 لائسنس جي تحت کليل آهي، پر آپريشن لاءِ گهربل انحصار ۾ هڪ ملڪيتي لائبريري آهي libsparse_inference.so رياضياتي حسابن لاءِ ڪرنل لاڳو ڪرڻ سان. اهو نوٽ ڪيو وڃي ٿو ته ملڪيت جي لائبريري عارضي آهي - مستقبل ۾ گوگل واعدو ڪيو آهي ته هڪ کليل متبادل ٺاهي ۽ مختلف پليٽ فارمن لاءِ مدد فراهم ڪري.

گھٽ رفتار تي منتقل ٿيل آواز جي ڊيٽا جي معيار جي لحاظ کان، ليرا روايتي ڪوڊيڪس کان خاص طور تي اعلي آھي جيڪي ڊجيٽل سگنل پروسيسنگ طريقا استعمال ڪن ٿا. محدود مقدار ۾ منتقل ٿيل معلومات جي حالتن ۾ اعلي معيار جي آواز جي منتقلي کي حاصل ڪرڻ لاء، آڊيو ڪمپريشن ۽ سگنل جي تبديليء جي روايتي طريقن کان علاوه، ليرا هڪ اسپيچ ماڊل استعمال ڪري ٿو جيڪو مشين لرننگ سسٽم تي ٻڌل آهي، جيڪو توهان کي گم ٿيل معلومات جي بنياد تي ٻيهر ٺاهڻ جي اجازت ڏئي ٿو. عام ڳالهائڻ جون خاصيتون. آواز پيدا ڪرڻ لاءِ استعمال ٿيندڙ ماڊل کي 70 کان وڌيڪ ٻولين ۾ ڪيترن ئي هزار ڪلاڪن جي آواز جي رڪارڊنگ ذريعي تربيت ڏني وئي.

گوگل ناقص ڪنيڪشن جي معيار ۾ اسپيچ ٽرانسميشن لاءِ ليرا آڊيو ڪوڊيڪ شايع ڪيو آهي

ڪوڊيڪ ۾ هڪ انڪوڊر ۽ ڊيڪوڊر شامل آهن. انڪوڊر جو الگورتھم آواز ڊيٽا پيٽرولر کي ڪڍڻ لاءِ ھر 40 مليسيڪنڊن ۾ ھيٺ ڪري ٿو، انھن کي دٻائي ٿو، ۽ انھن کي نيٽ ورڪ تي وصول ڪندڙ ڏانھن منتقل ڪري ٿو. 3 ڪلوبٽ في سيڪنڊ جي رفتار سان هڪ ڪميونيڪيشن چينل ڊيٽا جي منتقلي لاءِ ڪافي آهي. ڪڍيل آڊيو پيرا ميٽرز ۾ شامل آهن logarithmic mel spectrograms جيڪي مختلف فريڪوئنسي رينجز ۾ تقرير جي توانائي جي خاصيتن کي مدنظر رکن ٿا ۽ انساني ٻڌڻ جي تصور جي ماڊل کي مدنظر رکندي تيار ڪيا ويا آهن.

گوگل ناقص ڪنيڪشن جي معيار ۾ اسپيچ ٽرانسميشن لاءِ ليرا آڊيو ڪوڊيڪ شايع ڪيو آهي

ڊيڪوڊر هڪ پيدا ڪندڙ ماڊل استعمال ڪري ٿو، جيڪو منتقل ٿيل آڊيو پيٽرولن جي بنياد تي، تقرير سگنل کي ٻيهر ٺاهي ٿو. حسابن جي پيچيدگي کي گھٽائڻ لاءِ، بار بار نيورل نيٽ ورڪ تي ٻڌل ھڪ ھلڪو وزن وارو ماڊل استعمال ڪيو ويو، جيڪو WaveRNN اسپيچ سنٿيسس ماڊل جو ھڪڙو قسم آھي، جيڪو گھٽ نموني جي فريڪوئنسي استعمال ڪري ٿو، پر متوازي طور تي مختلف فريڪئنسي رينجز ۾ ڪيترائي سگنل ٺاھي ٿو. نتيجي ۾ سگنلن کي پوءِ مقرر ڪيل نموني جي شرح سان ملندڙ هڪ واحد آئوٽ سگنل پيدا ڪرڻ لاءِ سپرمپوز ڪيو ويو آهي.

64-bit ARM پروسيسرز ۾ موجود خاص پروسيسر هدايتون پڻ تيزيءَ لاءِ استعمال ٿين ٿيون. نتيجي طور، مشين لرننگ جي استعمال جي باوجود، ليرا ڪوڊيڪ ريئل ٽائيم اسپيچ انڪوڊنگ لاءِ استعمال ڪري سگھجي ٿو ۽ وچين رينج جي اسمارٽ فونز تي ڊيڪوڊنگ، 90 ملي سيڪنڊن جي سگنل ٽرانسميشن جي دير جو مظاهرو ڪندي.

جو ذريعو: opennet.ru

تبصرو شامل ڪريو