Wprowadzenie systemu syntezy obrazu Stable Diffusion 2.0

Firma Stability AI opublikowała drugą edycję systemu uczenia maszynowego Stable Diffusion, który jest w stanie syntetyzować i modyfikować obrazy na podstawie sugerowanego szablonu lub opisu tekstu w języku naturalnym. Kod narzędzi do uczenia sieci neuronowych i generowania obrazów jest napisany w języku Python z wykorzystaniem frameworka PyTorch i opublikowany na licencji MIT. Już przeszkolone modele są otwarte na licencji Creative ML OpenRAIL-M, która pozwala na wykorzystanie komercyjne. Dodatkowo dostępny jest demonstracyjny generator obrazów online.

Kluczowe ulepszenia w nowej edycji Stable Diffusion:

  • Powstał nowy model syntezy obrazu na podstawie opisu tekstowego — SD2.0-v — obsługujący generowanie obrazów o rozdzielczości 768×768. Nowy model został przeszkolony przy użyciu kolekcji LAION-5B zawierającej 5.85 miliarda obrazów z opisami tekstowymi. Model wykorzystuje ten sam zestaw parametrów co model Stable Diffusion 1.5, ale różni się przejściem na zastosowanie zasadniczo innego enkodera OpenCLIP-ViT/H, co umożliwiło znaczną poprawę jakości otrzymywanych obrazów.
    Wprowadzenie systemu syntezy obrazu Stable Diffusion 2.0
  • Przygotowano uproszczoną wersję SD2.0-base, wytrenowaną na obrazach 256×256 z wykorzystaniem klasycznego modelu predykcji szumów i wspierającą generowanie obrazów o rozdzielczości 512×512.
    Wprowadzenie systemu syntezy obrazu Stable Diffusion 2.0
  • Zapewniona jest możliwość wykorzystania technologii supersamplingu (Super Resolution) w celu zwiększenia rozdzielczości oryginalnego obrazu bez obniżania jakości, z wykorzystaniem algorytmów skalowania przestrzennego i rekonstrukcji szczegółów. Dostarczony model przetwarzania obrazu (SD20-upscaler) obsługuje 2048x upscaling, co pozwala generować obrazy o rozdzielczości 2048×XNUMX.
    Wprowadzenie systemu syntezy obrazu Stable Diffusion 2.0
  • Zaproponowano model SD2.0-depth2img, który uwzględnia głębokość i rozmieszczenie przestrzenne obiektów. System MiDaS służy do jednoocznej oceny głębokości. Model umożliwia syntezę nowych obrazów przy użyciu innego obrazu jako szablonu, który może radykalnie różnić się od oryginału, ale zachowuje ogólną kompozycję i głębię. Na przykład możesz użyć pozy osoby na zdjęciu, aby stworzyć inną postać w tej samej pozie.
    Wprowadzenie systemu syntezy obrazu Stable Diffusion 2.0
    Wprowadzenie systemu syntezy obrazu Stable Diffusion 2.0
    Wprowadzenie systemu syntezy obrazu Stable Diffusion 2.0
  • Zaktualizowano model modyfikowania obrazów - SD 2.0-inpainting, który umożliwia podmianę i zmianę części obrazu za pomocą podpowiedzi tekstowych.
    Wprowadzenie systemu syntezy obrazu Stable Diffusion 2.0
  • Modele zostały zoptymalizowane do użytku w konwencjonalnych systemach z jednym GPU.

Wprowadzenie systemu syntezy obrazu Stable Diffusion 2.0


Źródło: opennet.ru

Dodaj komentarz