Estabilite AI te pibliye dezyèm edisyon sistèm aprantisaj machin Stable Diffusion, ki kapab fè sentèz ak modifye imaj ki baze sou yon modèl pwopoze oswa yon deskripsyon tèks nan lang natirèl. Kòd pou fòmasyon rezo neral ak zouti jenerasyon imaj yo ekri an Python lè l sèvi avèk fondasyon PyTorch la epi li pibliye anba lisans MIT. Modèl ki deja antrene yo louvri anba lisans Creative ML OpenRAIL-M ki pèmèt yo itilize yo pou rezon komèsyal yo. Anplis de sa, gen yon dèlko imaj sou entènèt Demo ki disponib.
Amelyorasyon kle nan nouvo edisyon Stable Diffusion:
- Yo te kreye yon nouvo modèl pou sentèz imaj ki baze sou deskripsyon tèks - SD2.0-v, ki sipòte jenerasyon imaj ak yon rezolisyon 768x768. Nouvo modèl la fòme lè l sèvi avèk koleksyon LAION-5B, ki gen ladann 5.85 milya imaj ak deskripsyon tèks. Modèl la sèvi ak menm seri paramèt ak modèl Stable Diffusion 1.5 la, men li diferan nan tranzisyon an nan itilizasyon yon ankode OpenCLIP-ViT/H fondamantalman diferan, ki te siyifikativman amelyore kalite imaj yo ki kapab lakòz yo.
- Yo prepare yon vèsyon senplifye SD2.0-baz, fòme sou imaj 256x256 lè l sèvi avèk yon modèl prediksyon bri klasik ak sipòte jenerasyon imaj ak yon rezolisyon 512x512.
- Li posib pou itilize teknoloji supersampling (Super Resolution) pou ogmante rezolisyon imaj orijinal la san yo pa diminye kalite, lè l sèvi avèk echèl espasyal ak algoritm rekonstriksyon detay. Modèl tretman imaj yo bay (SD20-upscaler) sipòte kat fwa rale, ki pèmèt jenerasyon imaj ak yon rezolisyon 2048x2048.
- Modèl SD2.0-depth2img pwopoze, pran an kont pwofondè ak aranjman espasyal objè yo. Pou estimasyon pwofondè monokulèr, yo itilize sistèm MiDaS la. Modèl la pèmèt ou fè sentèz nouvo imaj lè l sèvi avèk yon lòt imaj kòm yon modèl, ki ka radikalman diferan de orijinal la, men kenbe konpozisyon an jeneral ak pwofondè. Pa egzanp, ou ka itilize poze yon moun nan yon foto pou fòme yon lòt karaktè nan menm poze a.
- Modèl la pou modifye imaj yo te mete ajou - SD 2.0-inpainting, ki pèmèt ou ranplase ak chanje pati nan imaj la lè l sèvi avèk envit tèks.
- Modèl yo te optimize pou itilize sou sistèm konvansyonèl ak yon sèl GPU.
Sous: opennet.ru