Stability AI zverejnila druhé vydanie systému strojového učenia Stable Diffusion, ktorý je schopný syntetizovať a upravovať obrázky na základe navrhovaného vzoru alebo textového popisu v prirodzenom jazyku. Kód nástrojov na trénovanie neurónových sietí a generovanie obrázkov je napísaný v Pythone pomocou frameworku PyTorch a publikovaný pod licenciou MIT. Už vyškolené modely sú otvorené pod licenciou Creative ML OpenRAIL-M, ktorá umožňuje komerčné využitie. Okrem toho je k dispozícii demo generátor obrázkov online.
Kľúčové vylepšenia v novom vydaní Stable Diffusion:
- Bol vytvorený nový model pre syntézu obrázkov založený na textovom popise — SD2.0-v — ktorý podporuje generovanie obrázkov s rozlíšením 768×768. Nový model bol trénovaný pomocou zbierky LAION-5B s 5.85 miliardami obrázkov s textovými popismi. Model využíva rovnakú sadu parametrov ako model Stable Diffusion 1.5, líši sa však prechodom na používanie zásadne iného OpenCLIP-ViT/H enkodéra, čo umožnilo výrazne zlepšiť kvalitu výsledných snímok.
- Pripravila sa zjednodušená verzia SD2.0-base, natrénovaná na obrázkoch 256×256 s použitím klasického modelu predikcie šumu a s podporou generovania obrázkov s rozlíšením 512×512.
- Možnosť využitia technológie supervzorkovania (Super Resolution) je zabezpečená na zvýšenie rozlíšenia pôvodného obrazu bez zníženia kvality pomocou algoritmov na priestorové škálovanie a rekonštrukciu detailov. Poskytnutý model spracovania obrazu (SD20-upscaler) podporuje 2048x upscaling, ktorý dokáže generovať obrázky s rozlíšením 2048×XNUMX.
- Navrhuje sa model SD2.0-depth2img, ktorý zohľadňuje hĺbku a priestorové usporiadanie objektov. Na monokulárny odhad hĺbky sa používa systém MiDaS. Model umožňuje syntetizovať nové obrázky pomocou iného obrázka ako šablóny, ktorý sa môže radikálne líšiť od pôvodného, ale zachováva si celkovú kompozíciu a hĺbku. Môžete napríklad použiť pózu osoby na fotografii na vytvorenie inej postavy v rovnakej póze.
- Aktualizovaný bol model na úpravu obrázkov – SD 2.0-inpainting, ktorý umožňuje nahrádzať a meniť časti obrázka pomocou textových výziev.
- Modely boli optimalizované pre použitie na konvenčných systémoch s jedným GPU.
Zdroj: opennet.ru