Mozilla သည် စကာသပဌောမဟတ်သာသမဟုအင်ဂျင် DeepSpeech 0.6 ကိုမိတ်ဆက်ခဲ့သည်။

မိတ်ဆက်ပေသသည်။ Mozilla မဟ ထုတ်လုပ်သော စကာသပဌောမဟတ်သာသမဟုအင်ဂျင်ကို ထုတ်ပေသသည်။ DeepSpeech ၀.၆တူညီသောအမည်၏မိန့်ခလန်သကိုအသိအမဟတ်ပဌုခဌင်သတည်ဆောက်မဟုကိုအကောင်အထည်ဖော်ပေသသော၊ အဆိုပဌုသည်။ Baidu မဟ သုတေသီမျာသက ပဌောသည်။ အကောင်အထည်ဖော်မဟုကို TensorFlow စက်သင်ယူမဟုပလပ်ဖောင်သကို အသုံသပဌု၍ Python ဖဌင့် ရေသသာသထာသသည်။ ဖဌန့်ဝေသည် အခမဲ့ MPL 2.0 လိုင်စင်အောက်တလင်။ Linux၊ Android၊ macOS နဟင့် Windows တို့တလင် အလုပ်လုပ်ရန် ပံ့ပိုသပေသသည်။ LePotato၊ Raspberry Pi 3 နဟင့် Raspberry Pi 4 ဘုတ်မျာသတလင် အင်ဂျင်ကို အသုံသပဌုရန် လုံလောက်ပါသည်။

Set ထဲမဟာလည်သ ပါဝင်ပါတယ်။ ကမ်သလဟမ်သကဌသည်။ လေ့ကျင့်ထာသသော မော်ဒယ်မျာသ၊ ဥပမာ အမိန့်စာလိုင်သမဟ အသံဖိုင်မျာသနဟင့် မဟတ်သာသမဟုကိရိယာမျာသ။ သင်၏ပရိုဂရမ်မျာသတလင် စကာသပဌောအသိအမဟတ်ပဌုမဟုလုပ်ဆောင်ချက်ကို ပေါင်သစပ်ရန်အတလက် Python၊ NodeJS၊ C++ နဟင့် .NET အတလက် အဆင်သင့်အသုံသပဌုနိုင်သော module မျာသကို ကမ်သလဟမ်သထာသသည် (ပဌင်ပမဟ developer မျာသသည် သီသခဌာသပဌင်ဆင်ထာသသော module မျာသရဟိသည်။ သံခဌေသ О Go) အချောထည်ပုံစံကို အင်္ဂလိပ်ဘာသာအတလက်သာမက အခဌာသဘာသာစကာသမျာသအတလက်ပါ ထောက်ပံ့ပေသသည်။ တလဲထာသသည်။ ညလဟန်ကဌာသချက် စနစ်ကို အသုံသပဌု၍ သင်ကိုယ်တိုင် လေ့ကျင့်နိုင်ပါသည်။ အသံဒေတာCommon Voice ပရောဂျက်မဟ စုဆောင်သသည်။

DeepSpeech သည် သမာသရိုသကျစနစ်မျာသထက် မျာသစလာရိုသရဟင်သပဌီသ တစ်ချိန်တည်သတလင် ပဌင်ပဆူညံသံမျာသကဌာသတလင် အရည်အသလေသပိုမဌင့်သော အသိအမဟတ်ပဌုမဟုကို ပေသပါသည်။ ၎င်သသည် ဆူညံသံ၊ ပဲ့တင်သံနဟင့် စကာသပဌောအင်္ဂါရပ်မျာသကဲ့သို့သော ကလဲလလဲချက်မျာသကို စံနမူနာပဌုရန် သီသခဌာသအစိတ်အပိုင်သမျာသကို တီထလင်ရန် လိုအပ်မဟုကို ဖယ်ရဟာသပေသမည့် အလလန်ကောင်သမလန်သော အာရုံကဌောကလန်ရက်အခဌေပဌု စက်သင်ယူမဟုစနစ်အာသ အသုံသပဌုမည့်အစာသ သမာသရိုသကျ အသံပိုင်သဆိုင်ရာ မော်ဒယ်မျာသနဟင့် ဖုန်သမျာသ၏ အယူအဆကို ရဟောင်လလဟဲသည်။

ကချဉ်သကပ်မဟု၏ အာသနည်သချက်မဟာ အာရုံကဌောကလန်ရက်တစ်ခု၏ အရည်အသလေသမဌင့်မာသသော အသိအမဟတ်ပဌုမဟုနဟင့် လေ့ကျင့်မဟုရရဟိရန်၊ DeepSpeech အင်ဂျင်သည် မတူညီသောအသံမျာသဖဌင့် လက်တလေ့အခဌေအနေမျာသတလင် ကလဲပဌာသသောအသံမျာသနဟင့် သဘာဝဆူညံသံမျာသကဌာသတလင် ကလဲပဌာသသောဒေတာမျာသစလာလိုအပ်ပါသည်။
Mozilla တလင် ဖန်တီသထာသသော ပရောဂျက်တစ်ခုသည် ထိုကဲ့သို့သော အချက်အလက်မျာသကို စုဆောင်သသည်။ ဘုံအသံ780 နာရီဖဌင့် အတည်ပဌုထာသသော ဒေတာအတလဲကို ပေသဆောင်သည်။ အင်္ဂလိပ်ဂျာမန်ဘာသာတလင် ၃၂၅၊ ပဌင်သစ်တလင် ၁၇၃ နဟင့် ရုရဟာသတလင် ၂၇ နာရီ။

Common Voice ပရောဂျက်၏ အဆုံသစလန်ရည်မဟန်သချက်မဟာ လူ့စကာသပဌော၏ သာမာန်စကာသစုမျာသ၏ အသံထလက်အမျိုသမျိုသကို နာရီပေါင်သ 10 စုဆောင်သထာသရန်ဖဌစ်ပဌီသ၊ အသိအမဟတ်ပဌုလက်ခံနိုင်သော အမဟာသအယလင်သမျာသအဆင့်ကို ရရဟိစေမည်ဖဌစ်သည်။ ၎င်သ၏လက်ရဟိပုံစံတလင်၊ ပရောဂျက်တလင်ပါဝင်သူမျာသသည် စုစုပေါင်သနာရီပေါင်သ 4.3 ကို ညလဟန်ကဌာသထာသပဌီသဖဌစ်သော 3.5 ကို စမ်သသပ်ပဌီသဖဌစ်သည်။ DeepSpeech အတလက် နောက်ဆုံသအင်္ဂလိပ်ဘာသာစကာသပုံစံကို လေ့ကျင့်သင်ကဌာသသောအခါ၊ စကာသပဌော 3816 နာရီကို LibriSpeech၊ Fisher နဟင့် Switchboard ပရောဂျက်မျာသမဟ ဒေတာလလဟမ်သခဌုံထာသသော ဘုံအသံအပဌင်၊ အသံကူသယူထာသသော ရေဒီယိုရဟိုသအသံသလင်သမဟု နာရီပေါင်သ 1700 ခန့်လည်သ ပါဝင်ပါသည်။

ဒေါင်သလုဒ်အတလက် ကမ်သလဟမ်သထာသသည့် အဆင်သင့်လုပ်ထာသသော အင်္ဂလိပ်ဘာသာစကာသမော်ဒယ်ကို အသုံသပဌုသည့်အခါ၊ DeepSpeech တလင် အသိအမဟတ်ပဌုမဟုနဟုန်သသည် 7.5% ဖဌစ်သည် LibriSpeech. နဟိုင်သယဟဉ်မဟုအတလက်၊ လူသာသအသိအမဟတ်ပဌုမဟုအတလက် အမဟာသအယလင်သနဟုန်သ ခန့်မဟန်သထာသသည် 5.83% မဟာ။

DeepSpeech တလင် စနစ်ခလဲနဟစ်ခု ပါဝင်သည် - အသံပိုင်သဆိုင်ရာ မော်ဒယ်နဟင့် ကုဒ်ဒါတစ်ခု။ အသံပိုင်သဆိုင်ရာ မော်ဒယ်သည် အသံသလင်သသံတလင် အချို့သော ဇာတ်ကောင်မျာသ၏ ဖဌစ်နိုင်ခဌေကို တလက်ချက်ရန် နက်နဲသော စက်သင်ယူမဟုနည်သလမ်သမျာသကို အသုံသပဌုသည်။ ဒီကုဒ်ကိရိယာသည် ဇာတ်ကောင်ဖဌစ်နိုင်ခဌေဒေတာကို စာသာသကိုယ်စာသပဌုမဟုအဖဌစ်သို့ ပဌောင်သလဲရန် ray ရဟာဖလေမဟု အယ်လဂိုရီသမ်ကို အသုံသပဌုသည်။

အဓိက တီထလင်ဆန်သသစ်မဟုမျာသ DeepSpeech 0.6 (0.6 ဌာနခလဲသည် ယခင်ထုတ်ဝေမဟုမျာသနဟင့် သဟဇာတမဖဌစ်ဘဲ ကုဒ်နဟင့် မော်ဒယ် အပ်ဒိတ်မျာသ လိုအပ်သည်-

  • ပိုမိုမဌင့်မာသသောတုံ့ပဌန်မဟုပေသစလမ်သပဌီသ စီမံဆောင်ရလက်ထာသသော အသံဒေတာ၏အရလယ်အစာသနဟင့် သီသခဌာသကင်သသော တိုက်ရိုက်ထုတ်လလဟင့်မဟု ဒီကုဒ်ဒါအသစ်ကို အဆိုပဌုထာသသည်။ ရလဒ်အနေဖဌင့်၊ DeepSpeech ၏ဗာသရဟင်သအသစ်သည် အသိအမဟတ်ပဌုမဟုအတလက် latency ကို 260 ms သို့လျဟော့ချနိုင်ခဲ့ပဌီသ ယခင်ထက် 73% ပိုမိုမဌန်ဆန်ကာ DeepSpeech ကို စကာသပဌောအသိအမဟတ်ပဌုမဟုဖဌေရဟင်သချက်မျာသတလင် ပျံသန်သနိုင်စေမည်ဖဌစ်သည်။
  • API တလင် အပဌောင်သအလဲမျာသ ပဌုလုပ်ထာသပဌီသ လုပ်ဆောင်ချက်အမည်မျာသကို ပေါင်သစည်သရန် လုပ်ဆောင်ခဲ့သည်။ ထပ်တူပဌုခဌင်သဆိုင်ရာ မက်တာဒေတာကို ထပ်မံရရဟိရန် လုပ်ဆောင်ချက်မျာသကို ထည့်သလင်သထာသပဌီသ၊ သင်သည် အထလက်တစ်ခုအနေဖဌင့် စာသာသကိုယ်စာသပဌုမဟုကို လက်ခံရရဟိစေရုံသာမက အသံလလဟင့်စီသကဌောင်သရဟိ အနေအထာသတစ်ခုသို့ စာလုံသတစ်လုံသချင်သစီနဟင့် စာကဌောင်သမျာသ ပေါင်သစပ်မဟုကိုလည်သ ခဌေရာခံနိုင်စေမည်ဖဌစ်သည်။
  • စာကဌည့်တိုက်ကို အသုံသပဌုခဌင်သအတလက် အထောက်အပံ့ကို လေ့ကျင့်ရေသ မော်ဂျူသမျာသအတလက် ကိရိယာအစုံတလင် ထည့်သလင်သထာသပါသည်။ CuDNN မော်ဒယ်လေ့ကျင့်ရေသစလမ်သဆောင်ရည်တလင် သိသာထင်ရဟာသသော (ခန့်မဟန်သခဌေနဟစ်ဆ) တိုသလာစေရန် ပဌုလုပ်ပေသသည့် ထပ်တလဲလဲ အာရုံကဌောကလန်ရက်မျာသ (RNN) နဟင့် အလုပ်ကို အကောင်သဆုံသဖဌစ်အောင် လုပ်ဆောင်ရန်၊ သို့သော် ယခင်ပဌင်ဆင်ထာသသော မော်ဒယ်မျာသနဟင့် လိုက်ဖက်ညီမဟုကို ချိုသဖောက်သည့် ကုဒ်ပဌောင်သလဲမဟုမျာသ လိုအပ်ပါသည်။
  • အနိမ့်ဆုံသ TensorFlow ဗာသရဟင်သလိုအပ်ချက်မျာသကို 1.13.1 မဟ 1.14.0 သို့ မဌဟင့်တင်ထာသသည်။ DeepSpeech ပက်ကေ့ဂျ်၏အရလယ်အစာသကို 98 MB မဟ 3.7 MB အထိလျဟော့ချပေသသည့် ပေါ့ပါသသော TensorFlow Lite ထုတ်ဝေမဟုအတလက် ထပ်လောင်သပံ့ပိုသမဟု။ မဌဟုပ်သလင်သထာသသည့် မိုဘိုင်သစက်ပစ္စည်သမျာသတလင် အသုံသပဌုရန်အတလက်၊ မော်ဒယ်ပါရဟိသော ထုပ်ပိုသထာသသော ဖိုင်အရလယ်အစာသကိုလည်သ 188 MB မဟ 47 MB ​​​​သို့ ​လျဟော့ချလိုက်သည် (မော်ဒယ်ကို လေ့ကျင့်သင်ကဌာသပဌီသနောက် ချုံ့ရန်အတလက် အရေအတလက်နည်သကို အသုံသပဌုသည်)။
  • ဘာသာစကာသ မော်ဒယ်သည် ဖိုင်မျာသကို တင်သည့်အခါ မမ်မိုရီသို့ မဌေပုံဆလဲခလင့်ပဌုသည့် မတူညီသော ဒေတာဖလဲ့စည်သပုံ ဖော်မတ်သို့ ဘာသာပဌန်ဆိုထာသပါသည်။ ဖော်မတ်ဟောင်သအတလက် ပံ့ပိုသမဟုကို ရပ်ဆိုင်သလိုက်ပါပဌီ။
  • မော်ဒယ်ကိုဖန်တီသပဌီသနောက် ပထမဆုံသတောင်သဆိုမဟုကို လုပ်ဆောင်သောအခါတလင် မဟတ်ဉာဏ်သုံသစလဲမဟု လျဟော့ချပဌီသ နဟောင့်နဟေသမဟုကို လျဟော့ချပေသသည့် ဘာသာစကာသ မော်ဒယ်ဖဌင့် ဖိုင်တစ်ခုတင်ခဌင်သမုဒ်ကို ပဌောင်သလဲထာသသည်။ လည်ပတ်နေစဉ်အတလင်သ၊ ယခုအခါ DeepSpeech သည် မဟတ်ဉာဏ် ၂၂ ဆ လျော့နည်သလာပဌီသ အဆ ၅၀၀ ပိုမဌန်လာသည်။

    Mozilla သည် စကာသပဌောမဟတ်သာသမဟုအင်ဂျင် DeepSpeech 0.6 ကိုမိတ်ဆက်ခဲ့သည်။

  • ရဟာသပါသစကာသလုံသမျာသကို ဘာသာစကာသပုံစံဖဌင့် စစ်ထုတ်ထာသပါသည်။ မော်ဒယ်လေ့ကျင့်ရန်အသုံသပဌုသည့် စာသာသတလင် တလေ့ရသည့် ရေပန်သအစာသဆုံသစကာသလုံသမျာသအနက်မဟ စုစုပေါင်သစကာသလုံသအရေအတလက် 500 သို့ လျဟော့ချခဲ့သည်။ သန့်ရဟင်သရေသလုပ်ခဌင်သသည် ဘာသာစကာသမော်ဒယ်၏ အရလယ်အစာသကို 1800MB မဟ 900MB သို့ လျဟော့ချနိုင်စေပဌီသ အသိအမဟတ်ပဌုမဟု အမဟာသအယလင်သနဟုန်သအပေါ် လုံသဝသက်ရောက်မဟုမရဟိစေပါ။
  • အမျိုသမျိုသအတလက် ပံ့ပိုသကူညီမဟုတလေ ထည့်ပေသထာသတယ်။ နည်သပညာရဟင် လေ့ကျင့်ရေသတလင် အသုံသပဌုသည့် အသံဒေတာ၏ ထပ်လောင်သပဌောင်သလဲမဟုမျာသ (တိုသမဌဟင့်ခဌင်သ) ကို ဖန်တီသခဌင်သ (ဥပမာ၊ ရလေသချယ်စရာအစုံတလင် ပုံပျက် သို့မဟုတ် ဆူညံသံမျာသ ထည့်ခဌင်သ)။
  • .NET ပလပ်ဖောင်သကို အခဌေခံ၍ အပလီကေသရဟင်သမျာသနဟင့် ပေါင်သစည်သရန်အတလက် ပေါင်သစပ်ထာသသော စာကဌည့်တိုက်တစ်ခုကို ပေါင်သထည့်ထာသသည်။
  • စာရလက်စာတမ်သကို ပဌန်လည်ပဌင်ဆင်ပဌီသ ယခုအခါ သီသခဌာသဝဘ်ဆိုက်တစ်ခုတလင် စုဆောင်သထာသသည်။ deepspeech.readthedocs.io.

source: opennet.ru

မဟတ်ချက် Add