Stability AI သည် အကြံပြုထားသော နမူနာပုံစံ သို့မဟုတ် သဘာဝဘာသာစကားစာသားဖော်ပြချက်အပေါ် အခြေခံ၍ ပုံများကို ပေါင်းစပ်ပြီး ပြုပြင်မွမ်းမံနိုင်သည့် Stable Diffusion machine learning system ၏ ဒုတိယထုတ်ဝေမှုကို ထုတ်ဝေခဲ့သည်။ အာရုံကြောကွန်ရက်လေ့ကျင့်ရေးနှင့် ရုပ်ပုံထုတ်လုပ်ခြင်းအတွက် ကိရိယာများ၏ကုဒ်ကို PyTorch မူဘောင်ကို အသုံးပြု၍ Python တွင် ရေးသားထားပြီး MIT လိုင်စင်အောက်တွင် ထုတ်ဝေထားသည်။ လေ့ကျင့်သင်ကြားပြီးသား မော်ဒယ်များကို စီးပွားဖြစ်အသုံးပြုမှုကို ခွင့်ပြုသည့် Creative ML OpenRAIL-M ခွင့်ပြုချက်လိုင်စင်အောက်တွင် ဖွင့်ထားသည်။ ထို့အပြင်၊ သရုပ်ပြအွန်လိုင်းပုံထုတ်ပေးသည့်စက်ကို ရနိုင်သည်။
Stable Diffusion ထုတ်ဝေမှုအသစ်တွင် အဓိကတိုးတက်မှုများ-
- စာသားဖော်ပြချက်အပေါ်အခြေခံ၍ ရုပ်ပုံပေါင်းစပ်ဖွဲ့စည်းမှုပုံစံအသစ် — SD2.0-v—ကို ဖန်တီးထားပြီး၊ 768×768 resolution ရှိသော ရုပ်ပုံများ၏မျိုးဆက်ကို ပံ့ပိုးပေးထားသည်။ မော်ဒယ်အသစ်သည် စာသားဖော်ပြချက်များနှင့် 5 ဘီလီယံပုံများစုစည်းမှု LAION-5.85B ကိုအသုံးပြု၍ လေ့ကျင့်သင်ကြားခဲ့သည်။ မော်ဒယ်သည် Stable Diffusion 1.5 မော်ဒယ်ကဲ့သို့ တူညီသော ကန့်သတ်ဘောင်များကို အသုံးပြုသော်လည်း၊ အခြေခံအားဖြင့် မတူညီသော OpenCLIP-ViT/H ကုဒ်နံပါတ်ကို အသုံးပြုခြင်းသို့ ကူးပြောင်းခြင်းဖြင့် ရရှိလာသော ပုံများ၏ အရည်အသွေးကို သိသာထင်ရှားစွာ မြှင့်တင်နိုင်စေပါသည်။
- SD2.0-base ၏ ရိုးရှင်းသောဗားရှင်းကို 256×256 ရုပ်ပုံများပေါ်တွင် လေ့ကျင့်သင်ကြားပြီး 512×512 resolution ရှိသော ရုပ်ပုံထုတ်လုပ်ခြင်းကို ပံ့ပိုးပေးသည့် classical noise ခန့်မှန်းမော်ဒယ်ကို အသုံးပြုကာ ပြင်ဆင်ထားပါသည်။
- spatial scaling နှင့်အသေးစိတ်အချက်အလက်များကိုပြန်လည်တည်ဆောက်ရန်အတွက် algorithms ကိုအသုံးပြု၍ အရည်အသွေးမလျှော့ဘဲ မူရင်းပုံ၏ resolution ကိုတိုးမြှင့်ရန်အတွက် supersampling (Super Resolution) နည်းပညာကို အသုံးပြု၍ ဖြစ်နိုင်ခြေရှိသည်။ ပံ့ပိုးပေးထားသော ရုပ်ပုံလုပ်ဆောင်ခြင်းမော်ဒယ် (SD20-upscaler) သည် 2048x upscaling ကို ပံ့ပိုးပေးသည်၊ ၎င်းသည် 2048×XNUMX resolution ရှိသော ပုံများကို ထုတ်လုပ်နိုင်သည်။
- SD2.0-depth2img မော်ဒယ်သည် အရာဝတ္ထုများ၏ အတိမ်အနက်နှင့် spatial အစီအစဉ်ကို ထည့်သွင်းစဉ်းစားရန် အဆိုပြုထားသည်။ MiDaS စနစ်အား monocular depth ခန့်မှန်းချက်အတွက် အသုံးပြုသည်။ မော်ဒယ်သည် သင့်အား မူရင်းပုံနှင့် ပြင်းထန်စွာ ကွဲပြားနိုင်သော်လည်း အလုံးစုံဖွဲ့စည်းမှုနှင့် အတိမ်အနက်ကို ဆက်လက်ထိန်းသိမ်းထားနိုင်သည့် အခြားပုံတစ်ပုံအဖြစ် နမူနာပုံစံတစ်ခုအဖြစ် အသုံးပြုကာ ပုံအသစ်များကို ပေါင်းစပ်ဖန်တီးနိုင်စေမည့် မော်ဒယ်။ ဥပမာအားဖြင့်၊ သင်သည် ဓာတ်ပုံတစ်ပုံရှိလူတစ်ဦး၏ ကိုယ်ဟန်အနေအထားကို အသုံးပြု၍ တူညီသောကိုယ်ဟန်ဖြင့် အခြားဇာတ်ကောင်တစ်ခုကို ဖန်တီးနိုင်သည်။
- ပုံများကို ပြုပြင်မွမ်းမံခြင်းအတွက် မော်ဒယ်ကို အပ်ဒိတ်လုပ်ပြီးပါပြီ - SD 2.0-inpainting သည် သင်အား စာသားသတိပေးချက်များသုံးပြီး ပုံတစ်ပုံ၏ အစိတ်အပိုင်းများကို အစားထိုးခြင်းနှင့် ပြောင်းလဲနိုင်စေပါသည်။
- မော်ဒယ်များကို GPU တစ်ခုတည်းဖြင့် သမားရိုးကျ စနစ်များတွင် အသုံးပြုရန်အတွက် အကောင်းဆုံးဖြစ်အောင် ပြုလုပ်ထားပါသည်။
source: opennet.ru