Stability AI on välja andnud Stable Diffusion masinõppesüsteemi teise väljaande, mis on võimeline sünteesima ja muutma pilte soovitatud malli või loomuliku keele tekstikirjelduse alusel. Närvivõrgu koolituse ja kujutise genereerimise tööriistade kood on kirjutatud Pythonis PyTorchi raamistikku kasutades ja avaldatud MIT litsentsi all. Juba koolitatud mudelid on avatud Creative ML OpenRAIL-M lubava litsentsi alusel, mis võimaldab ärilist kasutamist. Lisaks on saadaval demo-veebikujutise generaator.
Peamised täiustused stabiilse difusiooni uues väljaandes:
- Loodud on uus tekstikirjeldusel põhinev piltide sünteesi mudel — SD2.0-v, mis toetab piltide genereerimist eraldusvõimega 768×768. Uue mudeli väljaõppeks kasutati 5 miljardist tekstikirjeldusega pildist koosnevat LAION-5.85B kollektsiooni. Mudel kasutab samu parameetrite komplekti nagu Stable Diffusion 1.5 mudel, kuid erineb üleminekust põhimõtteliselt erinevale OpenCLIP-ViT/H kodeerijale, mis võimaldas oluliselt parandada saadud piltide kvaliteeti.
- Valmistatud on lihtsustatud SD2.0-baasversioon, mis on koolitatud 256×256 piltidele, kasutades klassikalist müraennustusmudelit ja toetades pildi genereerimist eraldusvõimega 512×512.
- Superresolutsiooni (Super Resolution) tehnoloogia kasutamise võimalus on ette nähtud originaalpildi eraldusvõime suurendamiseks ilma kvaliteeti vähendamata, kasutades ruumilise skaleerimise ja detailide rekonstrueerimise algoritme. Kaasasolev pilditöötlusmudel (SD20-upscaler) toetab 2048x ülesskaleerimist, mis suudab genereerida pilte eraldusvõimega 2048×XNUMX.
- Pakutakse välja SD2.0-depth2img mudel, mis võtab arvesse objektide sügavust ja ruumilist paigutust. MiDaS-süsteemi kasutatakse monokulaarse sügavuse hindamiseks. Mudel võimaldab sünteesida uusi pilte, kasutades mallina teist pilti, mis võib originaalist kardinaalselt erineda, kuid säilitab üldise kompositsiooni ja sügavuse. Näiteks võite kasutada fotol oleva inimese poosi, et moodustada teine tegelane samas poosis.
- Piltide muutmise mudelit on uuendatud – SD 2.0-inpainting, mis võimaldab tekstiviipade abil pildi osi asendada ja muuta.
- Mudelid on optimeeritud kasutamiseks tavalistes ühe GPU-ga süsteemides.
Allikas: opennet.ru