Firma Stability AI opublikowała drugą edycję systemu uczenia maszynowego Stable Diffusion, który jest w stanie syntetyzować i modyfikować obrazy na podstawie sugerowanego szablonu lub opisu tekstu w języku naturalnym. Kod narzędzi do uczenia sieci neuronowych i generowania obrazów jest napisany w języku Python z wykorzystaniem frameworka PyTorch i opublikowany na licencji MIT. Już przeszkolone modele są otwarte na licencji Creative ML OpenRAIL-M, która pozwala na wykorzystanie komercyjne. Dodatkowo dostępny jest demonstracyjny generator obrazów online.
Kluczowe ulepszenia w nowej edycji Stable Diffusion:
- Powstał nowy model syntezy obrazu na podstawie opisu tekstowego — SD2.0-v — obsługujący generowanie obrazów o rozdzielczości 768×768. Nowy model został przeszkolony przy użyciu kolekcji LAION-5B zawierającej 5.85 miliarda obrazów z opisami tekstowymi. Model wykorzystuje ten sam zestaw parametrów co model Stable Diffusion 1.5, ale różni się przejściem na zastosowanie zasadniczo innego enkodera OpenCLIP-ViT/H, co umożliwiło znaczną poprawę jakości otrzymywanych obrazów.
- Przygotowano uproszczoną wersję SD2.0-base, wytrenowaną na obrazach 256×256 z wykorzystaniem klasycznego modelu predykcji szumów i wspierającą generowanie obrazów o rozdzielczości 512×512.
- Zapewniona jest możliwość wykorzystania technologii supersamplingu (Super Resolution) w celu zwiększenia rozdzielczości oryginalnego obrazu bez obniżania jakości, z wykorzystaniem algorytmów skalowania przestrzennego i rekonstrukcji szczegółów. Dostarczony model przetwarzania obrazu (SD20-upscaler) obsługuje 2048x upscaling, co pozwala generować obrazy o rozdzielczości 2048×XNUMX.
- Zaproponowano model SD2.0-depth2img, który uwzględnia głębokość i rozmieszczenie przestrzenne obiektów. System MiDaS służy do jednoocznej oceny głębokości. Model umożliwia syntezę nowych obrazów przy użyciu innego obrazu jako szablonu, który może radykalnie różnić się od oryginału, ale zachowuje ogólną kompozycję i głębię. Na przykład możesz użyć pozy osoby na zdjęciu, aby stworzyć inną postać w tej samej pozie.
- Zaktualizowano model modyfikowania obrazów - SD 2.0-inpainting, który umożliwia podmianę i zmianę części obrazu za pomocą podpowiedzi tekstowych.
- Modele zostały zoptymalizowane do użytku w konwencjonalnych systemach z jednym GPU.
Źródło: opennet.ru