Mozilla Common Voice 7.0 Voice အပ်ဒိတ်

NVIDIA နှင့် Mozilla တို့သည် လွန်ခဲ့သည့် 182 လမှ 25% ထက် လူ 6 စကားပြောနမူနာများ ပါဝင်သော ၎င်းတို့၏ Common Voice ဒေတာအတွဲများအတွက် အပ်ဒိတ်တစ်ခု ထုတ်ပြန်ခဲ့သည်။ ဒေတာကို အများသူငှာ ဒိုမိန်း (CC0) အဖြစ် ထုတ်ဝေသည်။ အဆိုပြုထားသောအစုံများကို စကားပြောမှတ်သားမှုနှင့် ပေါင်းစပ်ပုံစံများကိုတည်ဆောက်ရန်အတွက် စက်သင်ယူမှုစနစ်များတွင် အသုံးပြုနိုင်ပါသည်။

ယခင် အပ်ဒိတ်နှင့် နှိုင်းယှဉ်ပါက စုစည်းမှုရှိ စကားပြောပစ္စည်း၏ အရွယ်အစားသည် နာရီပေါင်း ၉ နာရီမှ ၁၃.၉ဝဝဝ အထိ တိုးလာသည်။ ဘီလာရုစ်၊ ကာဇတ်၊ ဥဇဘက်၊ ဘူဂေးရီးယား၊ အာမေးနီးယန်း၊ အဇာဘိုင်ဂျနီနှင့် Bashkir ဘာသာစကားများအတွက် ပထမဦးဆုံးအကြိမ် ပံ့ပိုးပေးသည့် ဘာသာစကားများ 9 မှ 13.9 အထိ တိုးလာခဲ့သည်။ ရုရှားဘာသာစကားအတွက် သတ်မှတ်ချက်များတွင် ပါဝင်သူ 60 ဦးနှင့် စကားပြောပစ္စည်း 76 နာရီ (ပါဝင်သူ 2136 ဦးနှင့် 173 နာရီ) နှင့် ယူကရိန်းဘာသာစကားအတွက် ပါဝင်သူ 1412 ဦးနှင့် 111 နာရီ (ပါဝင်သူ 615 ဦးနှင့် နာရီ 66) ပါဝင်သည်။

လူပေါင်း ၇၅ဝဝဝ ကျော်သည် အင်္ဂလိပ်ဘာသာဖြင့် ပစ္စည်းများ ပြင်ဆင်မှုတွင် ပါဝင်ခဲ့ပြီး အတည်ပြုမိန့်ခွန်း ၂၆၃၇ နာရီ (ပါဝင်သူ ၆၆ဝဝဝ နှင့် ၁၆၈၆ နာရီ) ပါဝင်ခဲ့သည်။ စိတ်ဝင်စားစရာမှာ စုဆောင်းဒေတာပမာဏအရ ဒုတိယနေရာတွင်ရှိသော ဘာသာစကားသည် ရဝမ်ဒါဖြစ်ပြီး၊ နာရီပေါင်း 75 စုဆောင်းပြီးဖြစ်သည်။ ၎င်းနောက်တွင် ဂျာမန် (2637)၊ Catalan (66) နှင့် Esperanto (1686) တို့ဖြစ်သည်။ အသံဒေတာ၏ အရွယ်အစားကို သွက်လက်စွာ တိုးမြှင့်ခြင်းတွင် ထိုင်းဘာသာစကား (အခြေခံတွင် အဆ ၂၀ တိုးလာကာ ၁၂ နာရီမှ ၂၅၀ နာရီအထိ)၊ Luganda (၈ နာရီမှ ၈၀ နာရီအထိ)၊ အက်စပရန်တို (၁၀၀ မှ ၈၄၀ နာရီ) နှင့် တမီလ် ( ၂၄ နာရီမှ ၂၂၀ နာရီ)။

Common Voice ပရောဂျက်တွင် ၎င်း၏ပါဝင်မှုတစ်စိတ်တစ်ပိုင်းအနေဖြင့် NVIDIA သည် စုဆောင်းထားသောဒေတာအပေါ်အခြေခံ၍ စက်သင်ယူမှုစနစ်များ (PyTorch မှပံ့ပိုးပေးသော) အတွက် အဆင်သင့်လုပ်ထားသော လေ့ကျင့်သင်ကြားမှုပုံစံများကို ပြင်ဆင်ခဲ့သည်။ မော်ဒယ်များကို အခမဲ့နှင့် ပွင့်လင်းသော NVIDIA NeMo toolkit ၏ တစ်စိတ်တစ်ပိုင်းအနေဖြင့် ဖြန့်ဝေထားပြီး၊ ဥပမာ၊ MTS နှင့် Sberbank ၏ အလိုအလျောက် အသံဝန်ဆောင်မှုများတွင် အသုံးပြုနေပြီဖြစ်သည်။ မော်ဒယ်များသည် စကားပြောမှတ်မိခြင်း၊ စကားပြောပေါင်းစပ်ခြင်းနှင့် သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်းစနစ်များတွင် အသုံးပြုရန် ရည်ရွယ်ပြီး အသံ-အသက်သွင်းထားသော ဆွေးနွေးမှုစနစ်များ၊ စာသားမှတ်တမ်းပလပ်ဖောင်းများနှင့် အလိုအလျောက်ခေါ်ဆိုမှုစင်တာများကို တည်ဆောက်သည့် သုတေသီများအတွက် အသုံးဝင်နိုင်ပါသည်။ ယခင်က ရရှိနိုင်သော ပရောဂျက်များနှင့် မတူဘဲ၊ ထုတ်ဝေထားသော မော်ဒယ်များသည် အင်္ဂလိပ်ဘာသာစကား အသိအမှတ်ပြုမှုတွင် အကန့်အသတ်မရှိ ကန့်သတ်ထားပြီး ဘာသာစကားမျိုးစုံ၊ လေယူလေသိမ်းနှင့် စကားပြောပုံစံအမျိုးမျိုးကို အကျုံးဝင်ပါသည်။

Common Voice ပရောဂျက်သည် ကွဲပြားသော အသံနှင့် စကားပြောပုံစံများကို ထည့်သွင်းစဉ်းစားသည့် အသံပုံစံများ၏ ဒေတာဘေ့စ်ကို စုဆောင်းရန်အတွက် စုစည်းလုပ်ဆောင်ရန် ရည်ရွယ်ထားကြောင်း ကျွန်ုပ်တို့အား သတိပေးပါရစေ။ အသုံးပြုသူများအား စခရင်ပေါ်တွင် ပြသထားသော အသံစာစုများ သို့မဟုတ် အခြားအသုံးပြုသူများ ထည့်ထားသည့် ဒေတာအရည်အသွေးကို အကဲဖြတ်ရန် ဖိတ်ခေါ်ပါသည်။ စက်သင်ယူမှုစနစ်များနှင့် သုတေသနပရောဂျက်များတွင် ကန့်သတ်ချက်များမရှိဘဲ လူ့စကား၏ပုံမှန်စကားစုများ၏ အမျိုးမျိုးသောအသံထွက်များကို မှတ်တမ်းတင်ထားသော ဒေတာဘေ့စ်ကို အသုံးပြုနိုင်သည်။

Vosk စဉ်ဆက်မပြတ်စကားပြောမှတ်သားမှုစာကြည့်တိုက်၏စာရေးဆရာ၏အဆိုအရ Common Voice ၏အားနည်းချက်များမှာ အသံပစ္စည်း၏ တစ်ဖက်သတ်ဖြစ်ခြင်း (အသက် 20 မှ 30 နှစ်ကြား အမျိုးသားများသာ ကြီးစိုးခြင်း နှင့် အမျိုးသမီးများ အသံပါသော ပစ္စည်းမရှိခြင်း ၊ ကလေးများနှင့် သက်ကြီးရွယ်အိုများ)၊ အဘိဓာန်တွင် ကွဲလွဲမှုမရှိခြင်း (တူညီသောစကားစုများကို ထပ်ခါတလဲလဲ) နှင့် MP3 ဖော်မတ်ကို ပုံပျက်စေသော အသံသွင်းချက်များကို ဖြန့်ချီခြင်း။

source: opennet.ru

မှတ်ချက် Add