Ipinakilala ang Stable Diffusion 2.0 image synthesis system

Na-publish ng Stability AI ang pangalawang edisyon ng Stable Diffusion machine learning system, na may kakayahang mag-synthesize at magbago ng mga larawan batay sa isang iminungkahing template o natural na paglalarawan ng text ng wika. Ang code para sa pagsasanay sa neural network at mga tool sa pagbuo ng imahe ay nakasulat sa Python gamit ang PyTorch framework at nai-publish sa ilalim ng lisensya ng MIT. Ang mga sinanay na modelo ay bukas sa ilalim ng permissive Creative ML OpenRAIL-M na lisensya, na nagpapahintulot para sa komersyal na paggamit. Bukod pa rito, available ang isang demo online na image generator.

Mga pangunahing pagpapabuti sa bagong edisyon ng Stable Diffusion:

  • Isang bagong modelo para sa synthesis ng imahe batay sa paglalarawan ng teksto ay nilikha - SD2.0-v, na sumusuporta sa pagbuo ng mga larawan na may resolution na 768x768. Ang bagong modelo ay sinanay gamit ang LAION-5B na koleksyon, na kinabibilangan ng 5.85 bilyong larawan na may mga paglalarawan ng teksto. Ang modelo ay gumagamit ng parehong hanay ng mga parameter gaya ng Stable Diffusion 1.5 na modelo, ngunit naiiba sa paglipat sa paggamit ng isang pangunahing naiibang OpenCLIP-ViT/H encoder, na makabuluhang nagpabuti sa kalidad ng mga resultang larawan.
    Ipinakilala ang Stable Diffusion 2.0 image synthesis system
  • Ang isang pinasimpleng bersyon ng SD2.0-base ay inihanda, sinanay sa 256 Γ— 256 na mga larawan gamit ang isang klasikal na modelo ng paghula ng ingay at sumusuporta sa pagbuo ng mga larawan na may resolusyon na 512 Γ— 512.
    Ipinakilala ang Stable Diffusion 2.0 image synthesis system
  • Posibleng gumamit ng teknolohiyang supersampling (Super Resolution) upang mapataas ang resolution ng orihinal na larawan nang hindi binabawasan ang kalidad, gamit ang spatial scaling at mga algorithm sa muling pagtatayo ng detalye. Ang ibinigay na modelo ng pagpoproseso ng imahe (SD20-upscaler) ay sumusuporta sa apat na beses na pag-zoom, na nagbibigay-daan sa pagbuo ng mga larawan na may resolution na 2048x2048.
    Ipinakilala ang Stable Diffusion 2.0 image synthesis system
  • Ang modelo ng SD2.0-depth2img ay iminungkahi, na isinasaalang-alang ang lalim at spatial na pag-aayos ng mga bagay. Para sa monocular depth estimation, ginagamit ang MiDaS system. Pinapayagan ka ng modelo na mag-synthesize ng mga bagong larawan gamit ang isa pang imahe bilang isang template, na maaaring maging radikal na naiiba mula sa orihinal, ngunit mapanatili ang pangkalahatang komposisyon at lalim. Halimbawa, maaari mong gamitin ang pose ng isang tao sa isang larawan upang bumuo ng isa pang karakter sa parehong pose.
    Ipinakilala ang Stable Diffusion 2.0 image synthesis system
    Ipinakilala ang Stable Diffusion 2.0 image synthesis system
    Ipinakilala ang Stable Diffusion 2.0 image synthesis system
  • Ang modelo para sa pagbabago ng mga imahe ay na-update - SD 2.0-inpainting, na nagbibigay-daan sa iyong palitan at baguhin ang mga bahagi ng larawan gamit ang mga text prompt.
    Ipinakilala ang Stable Diffusion 2.0 image synthesis system
  • Ang mga modelo ay na-optimize para sa paggamit sa mga maginoo na system na may isang GPU.

Ipinakilala ang Stable Diffusion 2.0 image synthesis system


Pinagmulan: opennet.ru

Magdagdag ng komento