Stability AI-k Stable Diffusion ikaskuntza automatikoaren sistemaren bigarren edizioa argitaratu du, irudiak sintetizatzeko eta aldatzeko gai dena, iradokitako txantiloi batean edo hizkuntza naturaleko testu-deskribapenean oinarrituta. Neurona-sareen prestakuntzarako eta irudiak sortzeko tresnen kodea Python-en idatzita dago PyTorch markoa erabiliz eta MIT lizentziapean argitaratzen da. Dagoeneko trebatuta dauden ereduak Creative ML OpenRAIL-M lizentzia baimenduaren arabera irekita daude, erabilera komertziala ahalbidetzen duena. Gainera, lineako irudi-sorgailu demo bat dago eskuragarri.
Stable Diffusion-en edizio berrian hobekuntza nagusiak:
- Testu-deskribapenean oinarritutako irudien sintesirako eredu berri bat sortu da βSD2.0-vβ, 768Γ768ko bereizmena duten irudiak sortzea onartzen duena. Eredu berria testu-deskribapenekin 5 milioi irudiz osatutako LAION-5.85B bilduma erabiliz trebatu zen. Ereduak Stable Diffusion 1.5 ereduaren parametro-multzo bera erabiltzen du, baina desberdina da OpenCLIP-ViT/H kodetzaile funtsean desberdina erabiltzeko trantsizioan, eta horrek lortutako irudien kalitatea nabarmen hobetu ahal izan zuen.
- SD2.0-oinarrizko bertsio sinplifikatua prestatu da, 256Γ256 irudietan trebatuta zarata iragartzeko eredu klasikoa erabiliz eta 512Γ512ko bereizmenarekin irudiak sortzea onartzen duena.
- Superlaginketaren teknologia (Super Resolution) erabiltzeko aukera ematen da jatorrizko irudiaren bereizmena handitzeko kalitatea murriztu gabe, eskalatze espaziala eta xehetasunak berreraikitzeko algoritmoak erabiliz. Emandako irudiak prozesatzeko ereduak (SD20-upscaler) 2048x upscaling onartzen du, 2048ΓXNUMX bereizmeneko irudiak sor ditzakeena.
- SD2.0-depth2img eredua proposatzen da, objektuen sakonera eta antolamendu espaziala kontuan hartzen dituena. MiDaS sistema monokularren sakonera kalkulatzeko erabiltzen da. Ereduari esker, irudi berriak sintetiza ditzakezu txantiloi gisa beste irudi bat erabiliz, jatorrizkoaren guztiz desberdina izan daitekeena, baina konposizio orokorra eta sakonera mantenduz. Adibidez, argazki bateko pertsona baten posea erabil dezakezu pose berean beste pertsonaia bat osatzeko.
- Irudiak aldatzeko eredua eguneratu egin da - SD 2.0-inpainting, irudi baten zatiak ordeztu eta aldatzeko aukera ematen duena testu-galderen bidez.
- Ereduak GPU bakarra duten ohiko sistemetan erabiltzeko optimizatu dira.
Iturria: opennet.ru