Predstavený systém syntézy obrazu stabilnej difúzie 2.0

Stability AI zverejnila druhé vydanie systému strojového učenia Stable Diffusion, ktorý je schopný syntetizovať a upravovať obrázky na základe navrhovaného vzoru alebo textového popisu v prirodzenom jazyku. Kód nástrojov na trénovanie neurónových sietí a generovanie obrázkov je napísaný v Pythone pomocou frameworku PyTorch a publikovaný pod licenciou MIT. Už vyškolené modely sú otvorené pod licenciou Creative ML OpenRAIL-M, ktorá umožňuje komerčné využitie. Okrem toho je k dispozícii demo generátor obrázkov online.

Kľúčové vylepšenia v novom vydaní Stable Diffusion:

  • Bol vytvorený nový model pre syntézu obrázkov založený na textovom popise — SD2.0-v — ktorý podporuje generovanie obrázkov s rozlíšením 768×768. Nový model bol trénovaný pomocou zbierky LAION-5B s 5.85 miliardami obrázkov s textovými popismi. Model využíva rovnakú sadu parametrov ako model Stable Diffusion 1.5, líši sa však prechodom na používanie zásadne iného OpenCLIP-ViT/H enkodéra, čo umožnilo výrazne zlepšiť kvalitu výsledných snímok.
    Predstavený systém syntézy obrazu stabilnej difúzie 2.0
  • Pripravila sa zjednodušená verzia SD2.0-base, natrénovaná na obrázkoch 256×256 s použitím klasického modelu predikcie šumu a s podporou generovania obrázkov s rozlíšením 512×512.
    Predstavený systém syntézy obrazu stabilnej difúzie 2.0
  • Možnosť využitia technológie supervzorkovania (Super Resolution) je zabezpečená na zvýšenie rozlíšenia pôvodného obrazu bez zníženia kvality pomocou algoritmov na priestorové škálovanie a rekonštrukciu detailov. Poskytnutý model spracovania obrazu (SD20-upscaler) podporuje 2048x upscaling, ktorý dokáže generovať obrázky s rozlíšením 2048×XNUMX.
    Predstavený systém syntézy obrazu stabilnej difúzie 2.0
  • Navrhuje sa model SD2.0-depth2img, ktorý zohľadňuje hĺbku a priestorové usporiadanie objektov. Na monokulárny odhad hĺbky sa používa systém MiDaS. Model umožňuje syntetizovať nové obrázky pomocou iného obrázka ako šablóny, ktorý sa môže radikálne líšiť od pôvodného, ​​ale zachováva si celkovú kompozíciu a hĺbku. Môžete napríklad použiť pózu osoby na fotografii na vytvorenie inej postavy v rovnakej póze.
    Predstavený systém syntézy obrazu stabilnej difúzie 2.0
    Predstavený systém syntézy obrazu stabilnej difúzie 2.0
    Predstavený systém syntézy obrazu stabilnej difúzie 2.0
  • Aktualizovaný bol model na úpravu obrázkov – SD 2.0-inpainting, ktorý umožňuje nahrádzať a meniť časti obrázka pomocou textových výziev.
    Predstavený systém syntézy obrazu stabilnej difúzie 2.0
  • Modely boli optimalizované pre použitie na konvenčných systémoch s jedným GPU.

Predstavený systém syntézy obrazu stabilnej difúzie 2.0


Zdroj: opennet.ru

Pridať komentár