Mozilla Common Voice 8.0 Voice အပ်ဒိတ်

Mozilla သည် လူ 200 နီးပါးထံမှ အသံထွက်နမူနာများ ပါဝင်သော ၎င်း၏ Common Voice ဒေတာအတွဲများအတွက် အပ်ဒိတ်တစ်ခု ထုတ်ပြန်ခဲ့သည်။ ဒေတာကို အများသူငှာ ဒိုမိန်း (CC0) အဖြစ် ထုတ်ဝေသည်။ အဆိုပြုထားသောအစုံများကို စကားပြောမှတ်သားမှုနှင့်ပေါင်းစပ်ပုံစံများကိုတည်ဆောက်ရန်အတွက် စက်သင်ယူမှုစနစ်များတွင် အသုံးပြုနိုင်သည်။ ယခင်အပ်ဒိတ်နှင့် နှိုင်းယှဉ်ပါက စုစည်းမှုအတွင်း စကားပြောပစ္စည်း ပမာဏသည် 30 မှ 13.9ဝဝဝ နာရီအထိ 18.2% တိုးလာသည်။ ပံ့ပိုးပေးထားသော ဘာသာစကား အရေအတွက်သည် 67 မှ 87 အထိ တိုးလာခဲ့သည်။

ရုရှားဘာသာစကားအတွက် အစုံအလင်တွင် ပါဝင်သူ 2452 ဦးနှင့် စကားပြောပစ္စည်း 193 နာရီ (ပါဝင်သူ 2136 ဦးနှင့် 173 နာရီ)၊ ဘီလာရုဘာသာစကားအတွက် - ပါဝင်သူ 6160 နှင့် 987 နာရီ (ပါဝင်သူ 3831 ဦးနှင့် 356 နာရီ)၊ ယူကရိန်းဘာသာစကားအတွက် - သင်တန်းသား 684 နှင့် 76 နာရီ (ပါဝင်သူ 615 နှင့် 66 နာရီ) ။ လူပေါင်း 79 ကျော်သည် အင်္ဂလိပ်ဘာသာဖြင့် ပစ္စည်းများပြင်ဆင်မှုတွင် ပါဝင်ခဲ့ပြီး အတည်ပြုမိန့်ခွန်းပေါင်း 2886 နာရီ (ပါဝင်သူ 75 နှင့် 2637 နာရီ) တို့ ပါဝင်ခဲ့သည်။

Common Voice ပရောဂျက်သည် ကွဲပြားသော အသံနှင့် စကားပြောပုံစံများကို ထည့်သွင်းစဉ်းစားသည့် အသံပုံစံများ၏ ဒေတာဘေ့စ်ကို စုစည်းရန်အတွက် စုစည်းလုပ်ဆောင်ရန် ရည်ရွယ်ထားကြောင်း ကျွန်ုပ်တို့အား သတိပေးကြပါစို့။ အသုံးပြုသူများအား စခရင်ပေါ်တွင် ပြသထားသော အသံစာစုများ သို့မဟုတ် အခြားအသုံးပြုသူများ ထည့်ထားသည့် ဒေတာအရည်အသွေးကို အကဲဖြတ်ရန် ဖိတ်ခေါ်ပါသည်။ စက်သင်ယူမှုစနစ်များနှင့် သုတေသနပရောဂျက်များတွင် ကန့်သတ်ချက်များမရှိဘဲ လူ့စကား၏ပုံမှန်စကားစုများ၏ အမျိုးမျိုးသောအသံထွက်များကို မှတ်တမ်းတင်ထားသော ဒေတာဘေ့စ်ကို အသုံးပြုနိုင်သည်။ Vosk စဉ်ဆက်မပြတ် ပြောဆိုမှတ်သားမှု စာကြည့်တိုက်၏ စာရေးဆရာ၏ အဆိုအရ Common Voice ၏ အားနည်းချက်များမှာ အသံပစ္စည်း၏ တစ်ဖက်သတ် (အသက် 20 မှ 30 အတွင်း အမျိုးသားများ သာလွန်မှု နှင့် အမျိုးသမီးများ အသံပါသော ပစ္စည်းမရှိခြင်း ၊ ကလေးများနှင့် သက်ကြီးရွယ်အိုများ)၊ အဘိဓာန်တွင် ကွဲလွဲမှုမရှိခြင်း (တူညီသောစာပိုဒ်တိုများကို ထပ်ခါတလဲလဲ) နှင့် MP3 ဖော်မတ်ကို ပုံပျက်စေသော အသံသွင်းချက်များကို ဖြန့်ချီခြင်း။

ထို့အပြင်၊ စကားပြောမှတ်သားမှုစနစ်များဖန်တီးခြင်း၊ စကားပြောပေါင်းစပ်ခြင်းနှင့် သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်းအတွက် စက်သင်ယူမှုနည်းလမ်းများကို ပံ့ပိုးပေးသည့် NVIDIA NeMo 1.6 ကိရိယာတန်ဆာပလာများကို ကျွန်ုပ်တို့ မှတ်သားနိုင်ပါသည်။ NeMo တွင် ဘုံ Voice စကားပြောဒေတာကို အသုံးပြု၍ NVIDIA မှ ပြင်ဆင်ထားသော PyTorch မူဘောင်အပေါ် အခြေခံ၍ စက်သင်ယူမှုစနစ်များအတွက် အဆင်သင့်အသုံးပြုနိုင်သည့် လေ့ကျင့်ထားသော မော်ဒယ်များ ပါဝင်ပြီး ဘာသာစကားမျိုးစုံ၊ လေယူလေသိမ်းနှင့် စကားပြောပုံစံအမျိုးမျိုးကို လွှမ်းခြုံထားသည်။ မော်ဒယ်များသည် အသံအခြေပြု ဆွေးနွေးမှုစနစ်များ၊ စာသားမှတ်တမ်းပလပ်ဖောင်းများနှင့် အလိုအလျောက်ခေါ်ဆိုမှုစင်တာများကို တီထွင်ထုတ်လုပ်နေသည့် သုတေသီများအတွက် အသုံးဝင်နိုင်ပါသည်။ ဥပမာအားဖြင့်၊ NVIDIA NeMo ကို MTS နှင့် Sberbank ၏ အလိုအလျောက် အသံဝန်ဆောင်မှုများတွင် အသုံးပြုသည်။ NeMo ကုဒ်ကို Python ဖြင့် PyTorch ဖြင့်ရေးသားထားပြီး Apache 2.0 လိုင်စင်အောက်တွင် ဖြန့်ဝေထားသည်။

source: opennet.ru

မှတ်ချက် Add