Stable Diffusion စက်သင်ယူမှုစနစ်သည် ဂီတပေါင်းစပ်မှုအတွက် အဆင်ပြေသည်။

Riffusion ပရောဂျက်သည် ရုပ်ပုံများအစား ဂီတကို ထုတ်လုပ်ရန် လိုက်လျောညီထွေဖြစ်အောင် စက်သင်ယူမှုစနစ် Stable Diffusion ဗားရှင်းကို တီထွင်နေသည်။ တေးဂီတကို သဘာဝဘာသာစကားဖြင့် စာသားဖော်ပြချက်မှ သို့မဟုတ် အဆိုပြုထားသော နမူနာပုံစံတစ်ခုအပေါ် အခြေခံ၍ ပေါင်းစပ်ဖန်တီးနိုင်သည်။ ဂီတပေါင်းစပ်မှု အစိတ်အပိုင်းများကို PyTorch ဘောင်ကို အသုံးပြု၍ Python ဖြင့် ရေးသားထားပြီး MIT လိုင်စင်အောက်တွင် ရရှိနိုင်ပါသည်။ interface binding ကို TypeScript တွင်အကောင်အထည်ဖော်ထားပြီး MIT လိုင်စင်အောက်တွင်လည်း ဖြန့်ဝေထားသည်။ လေ့ကျင့်သင်ကြားထားသော မော်ဒယ်များကို စီးပွားဖြစ်အသုံးပြုရန်အတွက် ခွင့်ပြုထားသော Creative ML OpenRAIL-M လိုင်စင်အောက်တွင် လိုင်စင်ရထားပါသည်။

ပရောဂျက်သည် တေးဂီတထုတ်လုပ်ရန်အတွက် “စာသားမှပုံရိပ်” နှင့် “ပုံရိပ်မှပုံရိပ်” မော်ဒယ်များကို ဆက်လက်အသုံးပြုနေသည်မှာ စိတ်ဝင်စားစရာကောင်းသော်လည်း spectrograms များကို ရုပ်ပုံများအဖြစ် ခြယ်လှယ်ထားသည်။ တစ်နည်းဆိုရသော် Classic Stable Diffusion ကို ဓာတ်ပုံများနှင့် ရုပ်ပုံများတွင်မဟုတ်ဘဲ အချိန်ကြာလာသည်နှင့်အမျှ အသံလှိုင်း၏ကြိမ်နှုန်းနှင့် ပမာဏပြောင်းလဲမှုများကို ထင်ဟပ်စေသည့် spectrograms များ၏ ပုံများပေါ်တွင် လေ့ကျင့်ထားသည်။ ထို့ကြောင့်၊ spectrogram တစ်ခုအား အထွက်တွင် ဖွဲ့စည်းထားပြီး၊ ထို့နောက် အသံကိုယ်စားပြုအဖြစ်သို့ ပြောင်းလဲသွားပါသည်။

Stable Diffusion စက်သင်ယူမှုစနစ်သည် ဂီတပေါင်းစပ်မှုအတွက် အဆင်ပြေသည်။

Stable Diffusion ရှိ ရုပ်ပုံပြုပြင်မွမ်းမံခြင်းနှင့် ဆင်တူသော နမူနာတစ်ခုမှ တေးဂီတကို ပေါင်းစပ်ဖန်တီးခြင်းနှင့် ဂီတကို ပေါင်းစပ်ခြင်းနည်းလမ်းကိုလည်း အသုံးပြုနိုင်သည်။ ဥပမာအားဖြင့်၊ မျိုးဆက်သည် spectrograms များကို ရည်ညွှန်းမှုပုံစံဖြင့် နမူနာယူနိုင်သည်၊ မတူညီသောပုံစံများကို ပေါင်းစပ်နိုင်သည်၊ စတိုင်တစ်ခုမှ နောက်တစ်ခုသို့ ချောမွေ့စွာ ကူးပြောင်းမှုများ ပြုလုပ်နိုင်သည်၊ သို့မဟုတ် တူရိယာတစ်ခုချင်းစီ၏ အသံအတိုးအကျယ်ကို တိုးမြှင့်ခြင်း၊ ရစ်သမ်ကို ပြောင်းလဲခြင်းနှင့် ပြောင်းလဲခြင်းကဲ့သို့သော ပြဿနာများကို ဖြေရှင်းရန်အတွက် ရှိပြီးသား အသံတစ်ခုသို့ ပြောင်းလဲမှုများ ပြုလုပ်နိုင်သည်။ တူရိယာများ။ နမူနာများကို အချိန်ကြာလာသည်နှင့်အမျှ အနည်းငယ်ကွဲပြားသည့် အနီးကပ်နေရာယူထားသော စာပိုဒ်များ အတွဲလိုက်ဖြင့် ဖွဲ့စည်းထားသော ရှည်လျားသော တေးရေးများကို ဖန်တီးရန်အတွက်လည်း အသုံးပြုပါသည်။ သီးခြားထုတ်လုပ်ထားသော စာပိုဒ်များကို မော်ဒယ်၏ အတွင်းပိုင်းဘောင်များကို ပေါင်းစည်းခြင်းဖြင့် ဆက်တိုက်စီးကြောင်းတစ်ခုအဖြစ် ပေါင်းစပ်ထားသည်။

Stable Diffusion စက်သင်ယူမှုစနစ်သည် ဂီတပေါင်းစပ်မှုအတွက် အဆင်ပြေသည်။

အသံမှ spectrogram တစ်ခုဖန်တီးရန် windowed Fourier အသွင်ပြောင်းခြင်းကို အသုံးပြုသည်။ spectrogram တစ်ခုမှ အသံကို ပြန်လည်ဖန်တီးသောအခါ၊ Griffin-Lim အနီးစပ်ဆုံး အယ်လဂိုရီသမ်ကို အသုံးပြုထားသည့် ပြန်လည်တည်ဆောက်မှုအတွက် အဆင့်သတ်မှတ်ခြင်း (ကြိမ်နှုန်းနှင့် ပမာဏသာရှိပါသည်) ကို သတ်မှတ်ရာတွင် ပြဿနာတစ်ခု ဖြစ်ပေါ်လာပါသည်။



source: opennet.ru

မှတ်ချက် Add