NVIDIA သည် Mozilla Common Voice ပရောဂျက်တွင် ဒေါ်လာ ၁.၅ သန်း ရင်းနှီးမြှုပ်နှံထားသည်။

NVIDIA သည် Mozilla Common Voice ပရောဂျက်တွင် ဒေါ်လာ ၁.၅ သန်း ရင်းနှီးမြှုပ်နှံထားသည်။ စကားပြောမှတ်သားမှုစနစ်များကို စိတ်ဝင်စားမှုသည် လာမည့်ဆယ်နှစ်အတွင်း အသံနည်းပညာသည် ကွန်ပျူတာများ၊ ဖုန်းများမှ ဒစ်ဂျစ်တယ်လက်ထောက်များနှင့် ကီးဘုတ်များအထိ လူများနှင့် အပြန်အလှန်ဆက်သွယ်နိုင်သည့် အဓိကနည်းလမ်းများထဲမှ တစ်ခုဖြစ်လာမည်ဟု ခန့်မှန်းချက်မှ ထွက်ပေါ်လာခြင်းဖြစ်သည်။

အသံစနစ်များ၏ စွမ်းဆောင်ရည်သည် လေ့ကျင့်ရေးစက်သင်ယူမှုမော်ဒယ်များအတွက် ရရှိနိုင်သော အသံအတိုးအကျယ်နှင့် အသံဒေတာ အမျိုးမျိုးအပေါ်တွင် များစွာမူတည်ပါသည်။ ယနေ့ခေတ် အသံနည်းပညာသည် အင်္ဂလိပ်ဘာသာစကား အသိအမှတ်ပြုခြင်းအပေါ် အဓိကအာရုံစိုက်ပြီး ဘာသာစကားများ၊ လေယူလေသိမ်းနှင့် စကားပြောပုံစံများ အများအပြားကို ဖုံးကွယ်ထားခြင်းမရှိပါ။ ရင်းနှီးမြှုပ်နှံမှုသည် အများသူငှာ အသံဒေတာ တိုးတက်မှုကို အရှိန်မြှင့်ရန်၊ လူမှုအသိုင်းအဝိုင်းများနှင့် စေတနာ့ဝန်ထမ်းများ ပိုမိုပါဝင်လာစေရန်နှင့် အချိန်ပြည့် ပရောဂျက်ဝန်ထမ်းများ အရေအတွက်ကို တိုးချဲ့ရန် ကူညီပေးမည်ဖြစ်သည်။

Common Voice ပရောဂျက်သည် ကွဲပြားသော အသံနှင့် စကားပြောပုံစံများကို ထည့်သွင်းစဉ်းစားသည့် အသံပုံစံများ၏ ဒေတာဘေ့စ်ကို စုဆောင်းရန်အတွက် စုစည်းလုပ်ဆောင်ရန် ရည်ရွယ်ထားကြောင်း ကျွန်ုပ်တို့အား သတိပေးပါရစေ။ အသုံးပြုသူများအား စခရင်ပေါ်တွင် ပြသထားသော အသံစာစုများ သို့မဟုတ် အခြားအသုံးပြုသူများ ထည့်ထားသည့် ဒေတာအရည်အသွေးကို အကဲဖြတ်ရန် ဖိတ်ခေါ်ပါသည်။ စက်သင်ယူမှုစနစ်များနှင့် သုတေသနပရောဂျက်များတွင် ကန့်သတ်ချက်များမရှိဘဲ လူ့စကား၏ပုံမှန်စကားစုများ၏ အမျိုးမျိုးသောအသံထွက်များကို မှတ်တမ်းတင်ထားသော ဒေတာဘေ့စ်ကို အသုံးပြုနိုင်သည်။

Common Voice တွင် လောလောဆယ်တွင် လူပေါင်း 164 ကျော်ထံမှ အသံထွက်နမူနာများ ပါဝင်ပါသည်။ အသံဒေတာ နာရီပေါင်း ၉ဝဝဝ ခန့်ကို ဘာသာစကား ၆၀ ဖြင့် စုဆောင်းထားသည်။ ရုရှားဘာသာစကားအတွက် သတ်မှတ်ချက်များတွင် ပါဝင်သူ 9 ဦးနှင့် စကားပြောပစ္စည်း 60 နာရီနှင့် ယူကရိန်းဘာသာစကားအတွက် ပါဝင်သူ 1412 ဦးနှင့် နာရီ 111 ပါဝင်သည်။ နှိုင်းယှဉ်ချက်အရ လူပေါင်း ၆၆ဝဝဝ ကျော်သည် အင်္ဂလိပ်ဘာသာဖြင့် ပစ္စည်းများပြင်ဆင်မှုတွင် ပါဝင်ခဲ့ပြီး 459 နာရီကြာ စိစစ်ပြီး စကားပြောဆိုခဲ့သည်။ အဆိုပြုထားသောအစုံများကို စကားပြောမှတ်သားမှုနှင့်ပေါင်းစပ်ပုံစံများကိုတည်ဆောက်ရန်အတွက် စက်သင်ယူမှုစနစ်များတွင် အသုံးပြုနိုင်သည်။ ဒေတာကို အများသူငှာ ဒိုမိန်း (CC30) အဖြစ် ထုတ်ဝေသည်။

Vosk စဉ်ဆက်မပြတ်စကားပြောမှတ်သားမှုစာကြည့်တိုက်၏စာရေးဆရာ၏အဆိုအရ Common Voice ၏အားနည်းချက်များမှာ အသံပစ္စည်း၏ တစ်ဖက်သတ်ဖြစ်ခြင်း (အသက် 20 မှ 30 နှစ်ကြား အမျိုးသားများသာ ကြီးစိုးခြင်း နှင့် အမျိုးသမီးများ အသံပါသော ပစ္စည်းမရှိခြင်း ၊ ကလေးများနှင့် သက်ကြီးရွယ်အိုများ)၊ အဘိဓာန်တွင် ကွဲလွဲမှုမရှိခြင်း (တူညီသောစကားစုများကို ထပ်ခါတလဲလဲ) နှင့် MP3 ဖော်မတ်ကို ပုံပျက်စေသော အသံသွင်းချက်များကို ဖြန့်ချီခြင်း။

source: opennet.ru

မှတ်ချက် Add