Ua hoʻopuka ʻo Stability AI i ka paʻi lua o ka ʻōnaehana aʻo mīkini Stable Diffusion, hiki iā ia ke hoʻohui a hoʻololi i nā kiʻi e pili ana i kahi hoʻohālike i manaʻo ʻia a i ʻole ka wehewehe ʻōlelo kūlohelohe. Ua kākau ʻia ke code o nā mea hana no ka hoʻomaʻamaʻa ʻana i ka neural network a me ka hana kiʻi ma Python me ka hoʻohana ʻana i ka framework PyTorch a paʻi ʻia ma lalo o ka laikini MIT. Ua wehe ʻia nā kumu hoʻohālike i hoʻomaʻamaʻa ʻia ma lalo o ka laikini ʻae Creative ML OpenRAIL-M, kahi e hiki ai ke hoʻohana ʻoihana. Eia hou, loaʻa kahi demo online kiʻi generator.
Nā hoʻomaikaʻi nui i ka paʻi hou o Stable Diffusion:
- Ua hana ʻia kahi kumu hoʻohālike hou no ke kiʻi synthesis e pili ana i ka wehewehe kikokikona — SD2.0-v — e kākoʻo ana i ka hana ʻana o nā kiʻi me ka hoʻonā o 768×768. Ua aʻo ʻia ke kumu hoʻohālike hou me ka hoʻohana ʻana i ka hōʻiliʻili LAION-5B o 5.85 biliona kiʻi me nā wehewehe kikokikona. Hoʻohana ke kŘkohu i ka hoʻonohonoho like o nā palena e like me ka Stable Diffusion 1.5 model, akā ʻokoʻa ma ka hoʻololi ʻana i ka hoʻohana ʻana i kahi encoder OpenCLIP-ViT/H ʻokoʻa, i hiki ai ke hoʻomaikaʻi nui i ka maikaʻi o nā kiʻi i loaʻa.
- Ua hoʻomākaukau ʻia kahi mana SD2.0-base maʻalahi, hoʻomaʻamaʻa ʻia ma nā kiʻi 256 × 256 me ka hoʻohana ʻana i ka hiʻohiʻona wanana walaʻau maʻamau a kākoʻo i ka hana kiʻi me ka hoʻonā o 512 × 512.
- Hāʻawi ʻia ka hiki ke hoʻohana i ka ʻenehana o supersampling (Super Resolution) e hoʻonui i ka hoʻonā o ke kiʻi kumu me ka ʻole o ka hōʻemi ʻana i ka maikaʻi, me ka hoʻohana ʻana i nā algorithms no ka spatial scaling a me ke kūkulu hou ʻana i nā kikoʻī. Kākoʻo ke kumu hoʻohālike kiʻi i hāʻawi ʻia (SD20-upscaler) i ka 2048x upscaling, hiki ke hana i nā kiʻi me ka hoʻonā o 2048 × XNUMX.
- Hoʻolālā ʻia ke ʻano SD2.0-depth2img, e noʻonoʻo ana i ka hohonu a me ka hoʻonohonoho spatial o nā mea. Hoʻohana ʻia ka ʻōnaehana MiDaS no ka helu ʻana i ka hohonu monocular. Hāʻawi ke kumu hoʻohālike iā ʻoe e synthesize i nā kiʻi hou me ka hoʻohana ʻana i kahi kiʻi ʻē aʻe ma ke ʻano he laʻana, hiki ke ʻokoʻa ʻokoʻa mai ka mea kumu, akā e mālama i ka haku a me ka hohonu. No ka laʻana, hiki iā ʻoe ke hoʻohana i ke ʻano o ke kanaka i loko o ke kiʻi e hana i kahi ʻano ʻē aʻe ma ke ʻano like.
- Ua hōʻano hou ʻia ke kumu hoʻohālike no ka hoʻololi ʻana i nā kiʻi - SD 2.0-inpainting, hiki iā ʻoe ke hoʻololi a hoʻololi i nā ʻāpana o ke kiʻi me ka hoʻohana ʻana i nā ʻōkuhi kikokikona.
- Ua hoʻolālā ʻia nā hiʻohiʻona no ka hoʻohana ʻana i nā ʻōnaehana maʻamau me hoʻokahi GPU.
Source: opennet.ru