Представлено систему синтезу зображень Stable Diffusion 2.0

Компанія Stability AI опублікувала другу редакцію системи машинного навчання Stable Diffusion, здатної синтезувати та змінювати зображення на основі запропонованого шаблону або текстового опису природною мовою. Код інструментів для навчання нейронної мережі та генерації зображень написаний мовою Python з використанням фреймворку PyTorch та опублікований під ліцензією MIT. Вже навчені моделі відкриті під пермісивною ліцензією Creative ML OpenRAIL-M, яка допускає використання у комерційних цілях. Додатково є демонстраційний online-генератор зображень.

Ключові покращення у новій редакції Stable Diffusion:

  • Створено нову модель синтезу зображень за текстовим описом - SD2.0-v, що підтримує генерацію зображень з роздільною здатністю 768×768. Нова модель навчена з використанням колекції LAION-5B, що включає 5.85 мільярдів зображень із текстовими описами. Модель використовує той же набір параметрів, як і у моделі Stable Diffusion 1.5, але відрізняється переходом на використання принципово іншого кодувальника OpenCLIP-ViT/H, що дозволило суттєво підвищити якість результуючих зображень.
    Представлено систему синтезу зображень Stable Diffusion 2.0
  • Підготовлений спрощений варіант SD2.0-base, навчений на зображеннях 256×256 з використанням класичної моделі прогнозу шумів та підтримує генерацію зображень з роздільною здатністю 512×512.
    Представлено систему синтезу зображень Stable Diffusion 2.0
  • Надано можливість використання технології суперсемплінга (Super Resolution) для збільшення роздільної здатності вихідного зображення без зниження якості, використовуючи алгоритми просторового масштабування та реконструкції деталей. Надана модель обробки зображень (SD20-upscaler) підтримує чотириразове збільшення масштабу, що дозволяє формувати зображення з роздільною здатністю 2048×2048.
    Представлено систему синтезу зображень Stable Diffusion 2.0
  • Запропоновано модель SD2.0-depth2img, що враховує глибину та просторове розташування об'єктів. Для монокулярної оцінки глибини використовується система MiDaS. Модель дозволяє синтезувати нові зображення, використовуючи інше зображення як шаблон, який може радикально відрізнятися від оригіналу, але зберігати загальну композицію і глибину. Наприклад, можна використовувати позу людини на фотографії для формування іншого персонажа у тій самій позі.
    Представлено систему синтезу зображень Stable Diffusion 2.0
    Представлено систему синтезу зображень Stable Diffusion 2.0
    Представлено систему синтезу зображень Stable Diffusion 2.0
  • Оновлено модель для модифікації зображень — SD 2.0-inpainting, що дозволяє за допомогою текстових підказок замінювати та змінювати частини зображення.
    Представлено систему синтезу зображень Stable Diffusion 2.0
  • Проведено оптимізацію моделей для використання на звичайних системах з одним GPU.

Представлено систему синтезу зображень Stable Diffusion 2.0


Джерело: opennet.ru

Додати коментар або відгук