موزیلا د وینا پیژندنې انجن ډیپ سپیچ 0.6 معرفي کړ

له خوا سپارل شوي د وینا پیژندنې انجن خوشې کول چې د موزیلا لخوا رامینځته شوی ژوره وینا 0.6, کوم چې د ورته نوم د وینا پیژندنې جوړښت پلي کوي، وړاندیز شوی د Baidu څخه د څیړونکو لخوا. تطبیق په Python کې د TensorFlow ماشین زده کړې پلیټ فارم په کارولو سره لیکل شوی او لخوا توزیع شوی د وړیا MPL 2.0 جواز لاندې. په لینکس، Android، MacOS او وینډوز کې د کار ملاتړ کوي. فعالیت په LePotato، Raspberry Pi 3 او Raspberry Pi 4 بورډونو کې د انجن کارولو لپاره کافي دی.

په سیټ کې هم شامل دي وړاندیز کیږي روزل شوي ماډلونه مثالونه د کمانډ لاین څخه د غږ فایلونه او د پیژندنې وسیلې. ستاسو په برنامو کې د وینا پیژندنې فعالیت مدغم کولو لپاره ، د Python, NodeJS, C++ او .NET لپاره د کارولو لپاره چمتو ماډلونه وړاندیز کیږي (د دریمې ډلې پراختیا کونکي په جلا توګه چمتو شوي ماډلونه لري. سوله и Go). بشپړ شوی ماډل یوازې د انګلیسي لپاره چمتو شوی ، مګر د نورو ژبو لپاره نښلول شوی لارښوونې تاسو کولی شئ پخپله سیسټم په کارولو سره روزنه ورکړئ غږیز معلوماتد ګډ غږ پروژې لخوا راټول شوي.

ډیپ سپیچ د دودیزو سیسټمونو په پرتله خورا ساده دی او په ورته وخت کې د بهرني شور په شتون کې د لوړ کیفیت پیژندنه چمتو کوي. دا د دودیز اکوسټیک ماډلونو او د فونیمونو مفهوم له مینځه وړي ، پرځای یې د خورا مطلوب عصبي شبکې پراساس ماشین زده کړې سیسټم کاروي چې د مختلف اختلالاتو ماډل کولو لپاره د جلا اجزاو رامینځته کولو اړتیا له مینځه وړي لکه شور ، گونج ، او د وینا ځانګړتیاوې.

د دې کړنلارې نیمګړتیا دا ده چې د عصبي شبکې د لوړ کیفیت پیژندلو او روزنې ترلاسه کولو لپاره ، ډیپ سپیچ انجن لوی مقدار متضاد ډیټا ته اړتیا لري چې په ریښتیني شرایطو کې د مختلف غږونو لخوا او د طبیعي شور په شتون کې ټاکل شوي.
په موزیلا کې رامینځته شوې پروژه دا ډول معلومات راټولوي. ګډ غږ، د 780 ساعتونو سره د تایید شوي ډیټا سیټ چمتو کول د انګلیسی ژبه۳۲۵ په جرمني، ۱۷۳ په فرانسوي او ۲۷ ساعته په روسي ژبه.

د مشترک غږ پروژې وروستۍ موخه د انسان د وینا د عادي جملو د مختلفو تلفظونو 10 زره ساعته ریکارډونه راټولول دي، چې دا به اجازه ورکړي چې په پیژندلو کې د منلو وړ غلطی ترلاسه کړي. په اوسنۍ بڼه کې، د پروژې برخه اخیستونکو لا دمخه په ټولیز ډول 4.3 زره ساعتونه ترتیب کړي، چې 3.5 زره یې ازموینه شوي. کله چې د ډیپ سپیچ لپاره د انګلیسي ژبې وروستي ماډل ته روزنه ورکړل شوه، 3816 ساعته وینا کارول شوي، د ګډ غږ سربیره د LibriSpeech، فشر او سویچبورډ پروژو څخه د معلوماتو پوښښ، او همدارنګه د شاوخوا 1700 ساعتونو لیږد شوي راډیو شو ریکارډونه هم شامل دي.

کله چې د ډاونلوډ لپاره وړاندیز شوي چمتو شوي انګلیسي ژبې ماډل وکاروئ ، په ډیپ سپیچ کې د پیژندنې خطا کچه 7.5٪ ده کله چې د ازموینې سیټ سره ارزول کیږي LibriSpeech. د پرتله کولو لپاره، د انساني پیژندنې لپاره د خطا کچه اټکل شوی په 5.83٪ کې.

ډیپ سپیچ دوه فرعي سیسټمونه لري - یو اکوسټیک ماډل او یو کوډونکی. اکوسټیک ماډل د ماشین زده کړې ژورې میتودونه کاروي ترڅو د ان پټ غږ کې د ځینې حروفو شتون احتمال محاسبه کړي. ډیکوډر د کرن لټون الګوریتم کاروي ترڅو د کرکټر احتمالي ډیټا د متن نمایش ته بدل کړي.

اصلي نوښتونه DeepSpeech 0.6 (0.6 څانګه د پخوانیو خپرونو سره مطابقت نلري او د کوډ او ماډل تازه معلوماتو ته اړتیا لري):

  • یو نوی سټیمینګ ډیکوډر وړاندیز شوی چې لوړ غبرګون چمتو کوي او د پروسس شوي آډیو ډیټا اندازې څخه خپلواک دی. د پایلې په توګه، د ډیپ سپیچ نوې نسخه د 260 ms ته د پیژندنې لپاره ځنډ د کمولو توان لري، کوم چې د پخوا په پرتله 73٪ ګړندی دی، او ډیپ سپیچ ته اجازه ورکوي چې په الوتنه کې د وینا پیژندنې حلونو کې وکارول شي.
  • په API کې بدلونونه رامینځته شوي او د فعالیت نومونو متحد کولو لپاره کار شوی. د همغږي کولو په اړه د اضافي میټاډاټا ترلاسه کولو لپاره دندې اضافه شوي ، تاسو ته اجازه درکوي نه یوازې د محصول په توګه د متن نمایندګي ترلاسه کړئ ، بلکه د آډیو جریان کې موقعیت ته د انفرادي کرکټرونو او جملو پابندۍ هم تعقیب کړئ.
  • د کتابتون کارولو لپاره ملاتړ د روزنې ماډلونو لپاره په وسیله کټ کې اضافه شوی CuDNN د تکراري عصبي شبکو (RNN) سره د کار غوره کولو لپاره ، کوم چې دا ممکنه کړې چې د ماډل روزنې فعالیت کې د پام وړ (نږدې دوه چنده) زیاتوالی ترلاسه کړي ، مګر په کوډ کې اړین بدلونونه چې د مخکینیو چمتو شوي ماډلونو سره مطابقت سرغړونه کوي.
  • د لږترلږه TensorFlow نسخه اړتیاوې له 1.13.1 څخه 1.14.0 ته پورته شوي. د TensorFlow Lite د سپک وزن نسخه لپاره ملاتړ اضافه شوی، کوم چې د ډیپ سپیچ کڅوړې اندازه له 98 MB څخه 3.7 MB ته راټیټوي. په ایمبیډ شوي او ګرځنده وسیلو کې د کارولو لپاره ، د ماډل سره د بسته شوي فایل اندازه هم له 188 MB څخه 47 MB ​​ته راټیټه شوې (د ماډل روزل کیدو وروسته د کمپریشن لپاره د مقدار کولو میتود کارول کیږي).
  • د ژبې ماډل د ډیټا جوړښت مختلف شکل ته ژباړل شوی چې فایلونو ته اجازه ورکوي چې په حافظه کې نقشه شي کله چې پورته شي. د زاړه شکل لپاره ملاتړ بند شوی دی.
  • د ژبې ماډل سره د فایل پورته کولو حالت بدل شوی ، کوم چې د حافظې مصرف کم کړی او ځنډ یې کم کړی کله چې د ماډل رامینځته کولو وروسته لومړۍ غوښتنې پروسس کوي. د عملیاتو په جریان کې ، ډیپ سپیچ اوس 22 ځله کم حافظه مصرفوي او 500 ځله ګړندي پیل کوي.

    موزیلا د وینا پیژندنې انجن ډیپ سپیچ 0.6 معرفي کړ

  • نادر کلمې د ژبې په ماډل کې فلټر شوي. د کلمو ټولټال شمیر 500 زرو ته راټیټ شوی چې په متن کې موندل شوي خورا مشهور کلمې د ماډل روزنې لپاره کارول کیږي. پاکولو دا ممکنه کړه چې د ژبې ماډل اندازه له 1800MB څخه 900MB ته راټیټ کړي، پرته له دې چې د پیژندنې غلطۍ کچه باندې هیڅ اغیزه ونلري.
  • د مختلفو لپاره ملاتړ اضافه شوی تکنيشن په روزنه کې کارول شوي آډیو ډیټا اضافي تغیرات (اضافه کول) رامینځته کول (د مثال په توګه ، د انتخابونو سیټ ته تحریف یا شور اضافه کول).
  • د .NET پلیټ فارم پراساس د غوښتنلیکونو سره ادغام لپاره د پابندۍ سره کتابتون اضافه شوی.
  • اسناد بیا کار شوي او اوس په جلا ویب پاڼه کې راټول شوي. deepspeech.readthedocs.io.

سرچینه: opennet.ru

Add a comment