Silero စကားပြောပေါင်းစပ်မှုစနစ်အသစ်ထွက်ရှိခြင်း။

Silero Text-to-Speech neural network speech synthesis system ၏ အများသူငှာ ထုတ်ပြန်ချက်အသစ်ကို ရရှိနိုင်ပါသည်။ ပရောဂျက်သည် ကော်ပိုရေးရှင်းများထံမှ စီးပွားဖြစ်ဖြေရှင်းနည်းများထက် မနိမ့်ကျဘဲ ခေတ်မီအရည်အသွေးမြင့် စကားပြောပေါင်းစပ်မှုစနစ်ကို ဖန်တီးရန် အဓိကရည်ရွယ်ပြီး စျေးကြီးသောဆာဗာကိရိယာများကို အသုံးမပြုဘဲ လူတိုင်းရရှိနိုင်မည်ဖြစ်သည်။

မော်ဒယ်များကို GNU AGPL လိုင်စင်အောက်တွင် ဖြန့်ဝေထားသော်လည်း ပရောဂျက်ကို တီထွင်နေသည့် ကုမ္ပဏီသည် လေ့ကျင့်ရေးမော်ဒယ်များအတွက် ယန္တရားအား ထုတ်ဖော်ပြောကြားခြင်းမရှိပေ။ စတင်ရန်၊ သင်သည် ONNX ဖော်မတ်ကို ပံ့ပိုးသည့် PyTorch နှင့် frameworks ကို အသုံးပြုနိုင်သည်။ Silero တွင် စကားပြောပေါင်းစပ်ခြင်းကို နက်ရှိုင်းစွာပြုပြင်ထားသော ခေတ်မီအာရုံကြောကွန်ရက် အယ်ဂိုရီသမ်များနှင့် ဒစ်ဂျစ်တယ်အချက်ပြလုပ်ဆောင်ခြင်းနည်းလမ်းများကို အသုံးပြုမှုအပေါ် အခြေခံထားသည်။

စကားပြောပေါင်းစပ်ခြင်းအတွက် ခေတ်မီအာရုံကြောကွန်ရက်ဖြေရှင်းချက်များ၏ အဓိကပြဿနာမှာ ၎င်းတို့ကို အခပေး cloud ဖြေရှင်းချက်များ၏ တစ်စိတ်တစ်ပိုင်းအဖြစ်သာ ရရှိလေ့ရှိပြီး အများသူငှာ ထုတ်ကုန်များတွင် ဟာ့ဒ်ဝဲလိုအပ်ချက်များ မြင့်မားခြင်း၊ အရည်အသွေးနိမ့်ခြင်း သို့မဟုတ် အပြီးမသတ်နိုင်သော အဆင်သင့်သုံးနိုင်သော ထုတ်ကုန်များ ရှိနေကြောင်း မှတ်သားရပါသည်။ . ဥပမာအားဖြင့်၊ လူကြိုက်များသော အဆုံးမှအဆုံး ပေါင်းစပ်တည်ဆောက်ထားသော ဗိသုကာအသစ်တစ်ခုဖြစ်သည့် VITS၊ ပေါင်းစပ်မှုမုဒ် (ဆိုလိုသည်မှာ မော်ဒယ်သင်တန်းအတွက်မဟုတ်ဘဲ) VRAM ၏ 16 ဂစ်ဂါဘိုက်ထက်ပိုသော ဗီဒီယိုကတ်များ လိုအပ်သည်။

လက်ရှိခေတ်ရေစီးကြောင်းနှင့်ဆန့်ကျင်ဘက်၊ Silero ဖြေရှင်းချက်များသည် AVX1 ညွှန်ကြားချက်များပါရှိသော Intel ပရိုဆက်ဆာ၏ 86 x2 thread တွင်ပင် အောင်မြင်စွာလည်ပတ်နိုင်သည်။ ပရိုဆက်ဆာကြိုး 4 ခုတွင်၊ ပေါင်းစပ်မှုကို 30 kHz ပေါင်းစပ်မှုမုဒ်တွင် တစ်စက္ကန့်လျှင် 60 မှ 8 စက္ကန့်အထိ ပေါင်းစပ်နိုင်စေကာ 24 kHz မုဒ်တွင် 15-20 စက္ကန့်နှင့် 48 kHz မုဒ်တွင် 10 စက္ကန့်ခန့် ပေါင်းစပ်နိုင်စေပါသည်။

Silero ထုတ်ဝေမှုအသစ်၏ အဓိကအင်္ဂါရပ်များ-

  • မော်ဒယ်၏အရွယ်အစားကို 2 megabytes မှ 50 ဆ လျှော့ချသည်။
  • မော်ဒယ်များသည် ခေတ္တရပ်ရန် မည်ကဲ့သို့ သိသည်၊
  • ရုရှားဘာသာစကားတွင် အရည်အသွေးမြင့် အသံ 4 ခုကို ရနိုင်သည် (နှင့် အကန့်အသတ်မဲ့ အရေအတွက်များ)။ အသံထွက်ဥပမာများ;
  • မော်ဒယ်များသည် 10 ဆ ပိုမြန်လာပြီး ဥပမာအားဖြင့်၊ 24 kHz မုဒ်တွင်၊ ၎င်းတို့သည် ပရိုဆက်ဆာ thread 20 ခုတွင် တစ်စက္ကန့်လျှင် အသံ 4 စက္ကန့်အထိ ပေါင်းစပ်နိုင်သည်;
  • ဘာသာစကားတစ်ခုအတွက် အသံရွေးချယ်မှုအားလုံးကို မော်ဒယ်တစ်ခုတွင် ထည့်သွင်းထားသည်။
  • မော်ဒယ်များသည် စာသား၏ စာပိုဒ်တစ်ခုလုံးကို ထည့်သွင်းနိုင်သည်၊ SSML တဂ်များကို ပံ့ပိုးပေးသည်၊
  • Synthesis သည် 8၊ 24 နှင့် 48 ကီလိုဟတ်ဇ်တို့မှ ရွေးချယ်ရန် နမူနာနှုန်းသုံးမျိုးဖြင့် ချက်ချင်းအလုပ်လုပ်သည်။
  • "ကလေးများပြဿနာများ" ကိုဖြေရှင်းခဲ့သည်: မတည်ငြိမ်မှုနှင့်စကားလုံးများကိုချန်လှပ်;
  • လေယူလေသိမ်းများ အလိုအလျောက်နေရာချထားခြင်းနှင့် "ё" စာလုံးနေရာချထားမှုကို ထိန်းချုပ်ရန်အတွက် အလံများကို ထည့်သွင်းထားသည်။

ယခုပေါင်းစပ်မှု၏နောက်ဆုံးဗားရှင်းအတွက်၊ ရုရှဘာသာစကား 4 အသံကို လူသိရှင်ကြားရနိုင်သော်လည်း အောက်ပါပြောင်းလဲမှုများဖြင့် မဝေးတော့သောအနာဂတ်တွင် နောက်ဗားရှင်းကို ထုတ်ဝေပါမည်။

  • ပေါင်းစပ်မှုနှုန်းသည်နောက်ထပ် 2-4 ဆတိုးလာလိမ့်မည်။
  • CIS ဘာသာစကားများအတွက် ပေါင်းစပ်ပုံစံများကို အပ်ဒိတ်လုပ်မည်- Kalmyk၊ Tatar၊ Uzbek နှင့် Ukrainian;
  • ဥရောပဘာသာစကားများအတွက်မော်ဒယ်များထည့်သွင်းလိမ့်မည်;
  • အိန္ဒိယဘာသာစကားများအတွက် မော်ဒယ်များကို ပေါင်းထည့်ပါမည်။
  • အင်္ဂလိပ်စာအတွက် မော်ဒယ်များကို ထည့်သွင်းပေးပါမည်။

Silero ပေါင်းစပ်မှုတွင် ပေါက်ဖွားလာသော စနစ်ပြိုကွဲမှုအချို့မှာ-

  • RHVoice ကဲ့သို့သော ရိုးရာပေါင်းစပ်မှုဆိုင်ရာ ဖြေရှင်းချက်များနှင့် မတူဘဲ၊ Silero ပေါင်းစပ်မှုတွင် SAPI ပေါင်းစပ်မှု၊ တပ်ဆင်ရလွယ်ကူသော ကလိုင်းယင့်များနှင့် Windows နှင့် Android ပေါင်းစပ်မှုများ မပါဝင်ပါ။
  • ထိုသို့သောအဖြေတစ်ခုအတွက် မကြုံစဖူး မြင့်မားသော်လည်း မြန်နှုန်းသည် အရည်အသွေးမြင့် အားနည်းသော ပရိုဆက်ဆာများပေါ်တွင် ပျံတက်သွားသော ပေါင်းစပ်မှုအတွက် မလုံလောက်နိုင်ပါ။
  • အလိုအလျောက်စိတ်ဖိစီးမှုဖြေရှင်းချက်သည် homographs (ရဲတိုက်နှင့်ရဲတိုက်ကဲ့သို့စကားလုံးများ) ကိုမကိုင်တွယ်ဘဲ အမှားအယွင်းများပြုလုပ်နေသေးသော်လည်း၊ ဤချို့ယွင်းချက်အား နောင်ထုတ်ဝေမှုများတွင် ပြုပြင်သွားမည်ဖြစ်ပါသည်။
  • ပေါင်းစပ်ဖွဲ့စည်းမှု၏ လက်ရှိဗားရှင်းသည် AVX2 ညွှန်ကြားချက်များမပါဘဲ ပရိုဆက်ဆာများတွင် အလုပ်မလုပ်ပါ (သို့မဟုတ် သင်သည် PyTorch ဆက်တင်များကို အတိအကျပြောင်းလဲရန် လိုအပ်သည်)၊ မော်ဒယ်အတွင်းရှိ module များထဲမှ တစ်ခုကို အရေအတွက်အားဖြင့် တိုင်းတာထားသောကြောင့်၊
  • ပေါင်းစပ်ဖွဲ့စည်းမှု၏ လက်ရှိဗားရှင်းတွင် မရှိမဖြစ်လိုအပ်သော တစ်ခုတည်းသော PyTorch မှီခိုမှုရှိပြီး ပစ္စည်းအားလုံးသည် မော်ဒယ်နှင့် JIT ပက်ကေ့ချ်များအတွင်း၌ "အမာရွတ်" ဖြစ်သည်။ မော်ဒယ်ရင်းမြစ်များအပြင် အခြားဘာသာစကားများအတွက် PyTorch ဖောက်သည်များအောက်မှ မော်ဒယ်များကို လုပ်ဆောင်ရန်အတွက် ကုဒ်များကို ထုတ်ဝေမထားပါ။
  • မိုဘိုင်းပလက်ဖောင်းများအတွက်ရရှိနိုင်သည့် libtorch သည် ONNX runtime ထက်ပိုမိုခက်ခဲသော်လည်း မော်ဒယ်၏ ONNX ဗားရှင်းကို မပေးသေးပါ။

source: opennet.ru

မှတ်ချက် Add