Mozilla Common Voice 9.0 Voice အပ်ဒိတ်

Mozilla သည် လူ 200 နီးပါးထံမှ အသံထွက်နမူနာများ ပါဝင်သော ၎င်း၏ Common Voice ဒေတာအတွဲများအတွက် အပ်ဒိတ်တစ်ခု ထုတ်ပြန်ခဲ့သည်။ ဒေတာကို အများသူငှာ ဒိုမိန်း (CC0) အဖြစ် ထုတ်ဝေသည်။ အဆိုပြုထားသောအစုံများကို စကားပြောမှတ်သားမှုနှင့်ပေါင်းစပ်ပုံစံများကိုတည်ဆောက်ရန်အတွက် စက်သင်ယူမှုစနစ်များတွင် အသုံးပြုနိုင်သည်။

ယခင် အပ်ဒိတ်နှင့် နှိုင်းယှဉ်ပါက စုစည်းမှုတွင် စကားပြောပစ္စည်း ပမာဏသည် 10 မှ 18.2ဝဝဝ နာရီအထိ 20.2% တိုးလာသည်။ ပံ့ပိုးပေးထားသော ဘာသာစကားများ အရေအတွက် 87 မှ 93 အထိ တိုးလာခဲ့သည်။ ဘာသာစကား 27 ခုအတွက် စကားပြောဒေတာ နာရီ 100 ကျော် စုဆောင်းထားပြီး 9 - စကားပြောဒေတာ 500 ကျော်ကြာသည်။ ဘာသာစကား ၉ မျိုးအတွက် အမျိုးသမီးစကားပြောဆိုမှု အနည်းဆုံး ၄၅% ကိုလည်း ရရှိနိုင်သည်။

မိန့်ခွန်းပေါင်း ၂၉၅၃ နာရီ (သင်တန်းသား ၇၉ဝဝဝ နှင့် ၂၈၈၆ နာရီ) အင်္ဂလိပ်ဘာသာဖြင့် ပစ္စည်းများ ပြင်ဆင်မှုတွင် လူပေါင်း ၈၁ဝဝဝ ကျော် ပါဝင်ခဲ့ကြသည်။ ဘီလာရုဘာသာစကားအတွက် သတ်မှတ်ချက်များတွင် ပါဝင်သူ 81 ဦးနှင့် စကားပြောပစ္စည်း 2953 နာရီ (ပါဝင်သူ 79 နှင့် 2886 နာရီ)၊ ရုရှား - 6326 သင်တန်းသားနှင့် 1054 နာရီ (ပါဝင်သူ 6160 ဦးနှင့် 987 နာရီ)၊ Uzbek - ပါဝင်သူ 2585 နှင့် 201 နာရီ ( ပါဝင်သူ 2452 နှင့် 193 နာရီ)၊ ယူကရိန်းဘာသာစကား - သင်တန်းသား 1503 နှင့် 231 နာရီ (ပါဝင်သူ 1355 နှင့် 227 နာရီ) ရှိသည်။

Common Voice ပရောဂျက်သည် ကွဲပြားသော အသံများနှင့် စကားပြောပုံစံများကို ထည့်သွင်းစဉ်းစားသည့် အသံပုံစံများ၏ ဒေတာဘေ့စ်ကို စုစည်းရန်အတွက် ပူးတွဲလုပ်ဆောင်ရန် ရည်ရွယ်သည်။ အသုံးပြုသူများအား စခရင်ပေါ်တွင် ပြသထားသော အသံစာစုများ သို့မဟုတ် အခြားအသုံးပြုသူများ ထည့်ထားသည့် ဒေတာအရည်အသွေးကို အကဲဖြတ်ရန် ဖိတ်ခေါ်ပါသည်။ စက်သင်ယူမှုစနစ်များနှင့် သုတေသနပရောဂျက်များတွင် ကန့်သတ်ချက်များမရှိဘဲ လူ့စကား၏ပုံမှန်စကားစုများ၏ အမျိုးမျိုးသောအသံထွက်များကို မှတ်တမ်းတင်ထားသော ဒေတာဘေ့စ်ကို အသုံးပြုနိုင်သည်။

source: opennet.ru

မှတ်ချက် Add