Riffusion ပရောဂျက်သည် ရုပ်ပုံများအစား ဂီတကို ထုတ်လုပ်ရန် လိုက်လျောညီထွေဖြစ်အောင် စက်သင်ယူမှုစနစ် Stable Diffusion ဗားရှင်းကို တီထွင်နေသည်။ တေးဂီတကို သဘာဝဘာသာစကားဖြင့် စာသားဖော်ပြချက်မှ သို့မဟုတ် အဆိုပြုထားသော နမူနာပုံစံတစ်ခုအပေါ် အခြေခံ၍ ပေါင်းစပ်ဖန်တီးနိုင်သည်။ ဂီတပေါင်းစပ်မှု အစိတ်အပိုင်းများကို PyTorch ဘောင်ကို အသုံးပြု၍ Python ဖြင့် ရေးသားထားပြီး MIT လိုင်စင်အောက်တွင် ရရှိနိုင်ပါသည်။ interface binding ကို TypeScript တွင်အကောင်အထည်ဖော်ထားပြီး MIT လိုင်စင်အောက်တွင်လည်း ဖြန့်ဝေထားသည်။ လေ့ကျင့်သင်ကြားထားသော မော်ဒယ်များကို စီးပွားဖြစ်အသုံးပြုရန်အတွက် ခွင့်ပြုထားသော Creative ML OpenRAIL-M လိုင်စင်အောက်တွင် လိုင်စင်ရထားပါသည်။
ပရောဂျက်သည် တေးဂီတထုတ်လုပ်ရန်အတွက် “စာသားမှပုံရိပ်” နှင့် “ပုံရိပ်မှပုံရိပ်” မော်ဒယ်များကို ဆက်လက်အသုံးပြုနေသည်မှာ စိတ်ဝင်စားစရာကောင်းသော်လည်း spectrograms များကို ရုပ်ပုံများအဖြစ် ခြယ်လှယ်ထားသည်။ တစ်နည်းဆိုရသော် Classic Stable Diffusion ကို ဓာတ်ပုံများနှင့် ရုပ်ပုံများတွင်မဟုတ်ဘဲ အချိန်ကြာလာသည်နှင့်အမျှ အသံလှိုင်း၏ကြိမ်နှုန်းနှင့် ပမာဏပြောင်းလဲမှုများကို ထင်ဟပ်စေသည့် spectrograms များ၏ ပုံများပေါ်တွင် လေ့ကျင့်ထားသည်။ ထို့ကြောင့်၊ spectrogram တစ်ခုအား အထွက်တွင် ဖွဲ့စည်းထားပြီး၊ ထို့နောက် အသံကိုယ်စားပြုအဖြစ်သို့ ပြောင်းလဲသွားပါသည်။
Stable Diffusion ရှိ ရုပ်ပုံပြုပြင်မွမ်းမံခြင်းနှင့် ဆင်တူသော နမူနာတစ်ခုမှ တေးဂီတကို ပေါင်းစပ်ဖန်တီးခြင်းနှင့် ဂီတကို ပေါင်းစပ်ခြင်းနည်းလမ်းကိုလည်း အသုံးပြုနိုင်သည်။ ဥပမာအားဖြင့်၊ မျိုးဆက်သည် spectrograms များကို ရည်ညွှန်းမှုပုံစံဖြင့် နမူနာယူနိုင်သည်၊ မတူညီသောပုံစံများကို ပေါင်းစပ်နိုင်သည်၊ စတိုင်တစ်ခုမှ နောက်တစ်ခုသို့ ချောမွေ့စွာ ကူးပြောင်းမှုများ ပြုလုပ်နိုင်သည်၊ သို့မဟုတ် တူရိယာတစ်ခုချင်းစီ၏ အသံအတိုးအကျယ်ကို တိုးမြှင့်ခြင်း၊ ရစ်သမ်ကို ပြောင်းလဲခြင်းနှင့် ပြောင်းလဲခြင်းကဲ့သို့သော ပြဿနာများကို ဖြေရှင်းရန်အတွက် ရှိပြီးသား အသံတစ်ခုသို့ ပြောင်းလဲမှုများ ပြုလုပ်နိုင်သည်။ တူရိယာများ။ နမူနာများကို အချိန်ကြာလာသည်နှင့်အမျှ အနည်းငယ်ကွဲပြားသည့် အနီးကပ်နေရာယူထားသော စာပိုဒ်များ အတွဲလိုက်ဖြင့် ဖွဲ့စည်းထားသော ရှည်လျားသော တေးရေးများကို ဖန်တီးရန်အတွက်လည်း အသုံးပြုပါသည်။ သီးခြားထုတ်လုပ်ထားသော စာပိုဒ်များကို မော်ဒယ်၏ အတွင်းပိုင်းဘောင်များကို ပေါင်းစည်းခြင်းဖြင့် ဆက်တိုက်စီးကြောင်းတစ်ခုအဖြစ် ပေါင်းစပ်ထားသည်။
အသံမှ spectrogram တစ်ခုဖန်တီးရန် windowed Fourier အသွင်ပြောင်းခြင်းကို အသုံးပြုသည်။ spectrogram တစ်ခုမှ အသံကို ပြန်လည်ဖန်တီးသောအခါ၊ Griffin-Lim အနီးစပ်ဆုံး အယ်လဂိုရီသမ်ကို အသုံးပြုထားသည့် ပြန်လည်တည်ဆောက်မှုအတွက် အဆင့်သတ်မှတ်ခြင်း (ကြိမ်နှုန်းနှင့် ပမာဏသာရှိပါသည်) ကို သတ်မှတ်ရာတွင် ပြဿနာတစ်ခု ဖြစ်ပေါ်လာပါသည်။
source: opennet.ru