په سیټ کې هم شامل دي
ډیپ سپیچ د دودیزو سیسټمونو په پرتله خورا ساده دی او په ورته وخت کې د بهرني شور په شتون کې د لوړ کیفیت پیژندنه چمتو کوي. دا د دودیز اکوسټیک ماډلونو او د فونیمونو مفهوم له مینځه وړي ، پرځای یې د خورا مطلوب عصبي شبکې پراساس ماشین زده کړې سیسټم کاروي چې د مختلف اختلالاتو ماډل کولو لپاره د جلا اجزاو رامینځته کولو اړتیا له مینځه وړي لکه شور ، گونج ، او د وینا ځانګړتیاوې.
د دې کړنلارې نیمګړتیا دا ده چې د عصبي شبکې د لوړ کیفیت پیژندلو او روزنې ترلاسه کولو لپاره ، ډیپ سپیچ انجن لوی مقدار متضاد ډیټا ته اړتیا لري چې په ریښتیني شرایطو کې د مختلف غږونو لخوا او د طبیعي شور په شتون کې ټاکل شوي.
په موزیلا کې رامینځته شوې پروژه دا ډول معلومات راټولوي.
د مشترک غږ پروژې وروستۍ موخه د انسان د وینا د عادي جملو د مختلفو تلفظونو 10 زره ساعته ریکارډونه راټولول دي، چې دا به اجازه ورکړي چې په پیژندلو کې د منلو وړ غلطی ترلاسه کړي. په اوسنۍ بڼه کې، د پروژې برخه اخیستونکو لا دمخه په ټولیز ډول 4.3 زره ساعتونه ترتیب کړي، چې 3.5 زره یې ازموینه شوي. کله چې د ډیپ سپیچ لپاره د انګلیسي ژبې وروستي ماډل ته روزنه ورکړل شوه، 3816 ساعته وینا کارول شوي، د ګډ غږ سربیره د LibriSpeech، فشر او سویچبورډ پروژو څخه د معلوماتو پوښښ، او همدارنګه د شاوخوا 1700 ساعتونو لیږد شوي راډیو شو ریکارډونه هم شامل دي.
کله چې د ډاونلوډ لپاره وړاندیز شوي چمتو شوي انګلیسي ژبې ماډل وکاروئ ، په ډیپ سپیچ کې د پیژندنې خطا کچه 7.5٪ ده کله چې د ازموینې سیټ سره ارزول کیږي
ډیپ سپیچ دوه فرعي سیسټمونه لري - یو اکوسټیک ماډل او یو کوډونکی. اکوسټیک ماډل د ماشین زده کړې ژورې میتودونه کاروي ترڅو د ان پټ غږ کې د ځینې حروفو شتون احتمال محاسبه کړي. ډیکوډر د کرن لټون الګوریتم کاروي ترڅو د کرکټر احتمالي ډیټا د متن نمایش ته بدل کړي.
اصلي
- یو نوی سټیمینګ ډیکوډر وړاندیز شوی چې لوړ غبرګون چمتو کوي او د پروسس شوي آډیو ډیټا اندازې څخه خپلواک دی. د پایلې په توګه، د ډیپ سپیچ نوې نسخه د 260 ms ته د پیژندنې لپاره ځنډ د کمولو توان لري، کوم چې د پخوا په پرتله 73٪ ګړندی دی، او ډیپ سپیچ ته اجازه ورکوي چې په الوتنه کې د وینا پیژندنې حلونو کې وکارول شي.
- په API کې بدلونونه رامینځته شوي او د فعالیت نومونو متحد کولو لپاره کار شوی. د همغږي کولو په اړه د اضافي میټاډاټا ترلاسه کولو لپاره دندې اضافه شوي ، تاسو ته اجازه درکوي نه یوازې د محصول په توګه د متن نمایندګي ترلاسه کړئ ، بلکه د آډیو جریان کې موقعیت ته د انفرادي کرکټرونو او جملو پابندۍ هم تعقیب کړئ.
- د کتابتون کارولو لپاره ملاتړ د روزنې ماډلونو لپاره په وسیله کټ کې اضافه شوی
CuDNN د تکراري عصبي شبکو (RNN) سره د کار غوره کولو لپاره ، کوم چې دا ممکنه کړې چې د ماډل روزنې فعالیت کې د پام وړ (نږدې دوه چنده) زیاتوالی ترلاسه کړي ، مګر په کوډ کې اړین بدلونونه چې د مخکینیو چمتو شوي ماډلونو سره مطابقت سرغړونه کوي. - د لږترلږه TensorFlow نسخه اړتیاوې له 1.13.1 څخه 1.14.0 ته پورته شوي. د TensorFlow Lite د سپک وزن نسخه لپاره ملاتړ اضافه شوی، کوم چې د ډیپ سپیچ کڅوړې اندازه له 98 MB څخه 3.7 MB ته راټیټوي. په ایمبیډ شوي او ګرځنده وسیلو کې د کارولو لپاره ، د ماډل سره د بسته شوي فایل اندازه هم له 188 MB څخه 47 MB ته راټیټه شوې (د ماډل روزل کیدو وروسته د کمپریشن لپاره د مقدار کولو میتود کارول کیږي).
- د ژبې ماډل د ډیټا جوړښت مختلف شکل ته ژباړل شوی چې فایلونو ته اجازه ورکوي چې په حافظه کې نقشه شي کله چې پورته شي. د زاړه شکل لپاره ملاتړ بند شوی دی.
- د ژبې ماډل سره د فایل پورته کولو حالت بدل شوی ، کوم چې د حافظې مصرف کم کړی او ځنډ یې کم کړی کله چې د ماډل رامینځته کولو وروسته لومړۍ غوښتنې پروسس کوي. د عملیاتو په جریان کې ، ډیپ سپیچ اوس 22 ځله کم حافظه مصرفوي او 500 ځله ګړندي پیل کوي.
- نادر کلمې د ژبې په ماډل کې فلټر شوي. د کلمو ټولټال شمیر 500 زرو ته راټیټ شوی چې په متن کې موندل شوي خورا مشهور کلمې د ماډل روزنې لپاره کارول کیږي. پاکولو دا ممکنه کړه چې د ژبې ماډل اندازه له 1800MB څخه 900MB ته راټیټ کړي، پرته له دې چې د پیژندنې غلطۍ کچه باندې هیڅ اغیزه ونلري.
- د مختلفو لپاره ملاتړ اضافه شوی
تکنيشن په روزنه کې کارول شوي آډیو ډیټا اضافي تغیرات (اضافه کول) رامینځته کول (د مثال په توګه ، د انتخابونو سیټ ته تحریف یا شور اضافه کول). - د .NET پلیټ فارم پراساس د غوښتنلیکونو سره ادغام لپاره د پابندۍ سره کتابتون اضافه شوی.
- اسناد بیا کار شوي او اوس په جلا ویب پاڼه کې راټول شوي.
deepspeech.readthedocs.io .
سرچینه: opennet.ru