Системи машинного навчання для синтезу зображень та придушення шумів на нічних фото

Компанія Stability AI опублікувала готові моделі для системи машинного навчання Stable Diffusion, здатної синтезувати та змінювати зображення на основі текстового опису природною мовою. Моделі відкриті під пермісивною ліцензією Creative ML OpenRAIL-M, що допускає використання у комерційних цілях. Для навчання системи використовувався кластер із 4000 GPU NVIDIA A100 Ezra-1 та колекція LAION-5B, що включає 5.85 мільярдів зображень із текстовими описами. Раніше під ліцензією MIT було відкрито код інструментів для навчання нейронної мережі та генерації зображень.

Доступність готової моделі та досить скромні системні вимоги, що дозволяють розпочати експерименти на ПК з типовими GPU, призвела до появи ряду суміжних проектів:

  • textual-inversion (код) — надбудова, яка дозволяє синтезувати зображення із заданим персонажем, об'єктом чи стилем. В оригінальному Stable Diffusion об'єкти в зображеннях, що синтезуються, випадкові і не контрольовані. Запропонована надбудова дозволяє додати власні візуальні об'єкти, прив'язати їх до ключових слів і використовувати для синтезу.

    Наприклад, у звичайному Stable Diffusion можна попросити систему сформувати зображення з кішкою в човні. Додатково можна уточнити характеристики кішки та човна, але непередбачено, який саме кіт та човен будуть синтезовані. Textual-inversion дозволяє навчити систему зображенню своєї кішки чи човна та синтезувати зображення з конкретною кішкою чи човном. Подібним чином також може замінювати елементи зображення на певні об'єкти, задавати приклад візуального стилю для синтезу та конкретизувати поняття (наприклад, з усього різноманіття лікарів можна використовувати більш точну та якісну вибірку у потрібному стилі).

    Системи машинного навчання для синтезу зображень та придушення шумів на нічних фото

  • stable-diffusion-animation — створення анімованих (рухомі) зображень на основі інтерполяції між картинками, сформованими в Stable Diffusion.
  • stable_diffusion.openvino (код) - порт Stable Diffusion, в якому для обчислень використовується тільки CPU, що дозволяє експериментувати на системах без потужних GPU. Для роботи потрібний процесор, який підтримується в бібліотеці OpenVINO. Офіційно в OpenVINO надані плагіни для процесорів Intel з розширеннями AVX2, AVX-512, AVX512_BF16 та SSE, а також для плат Raspberry Pi 4 Model B, Apple Mac mini та NVIDIA Jetson Nano. Неофіційно можливе використання OpenVINO та на процесорах AMD Ryzen.
  • sdamd – порт для GPU AMD.
  • Початкова реалізація синтезу відео.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - графічні інтерфейси для генерації зображень за допомогою Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - Web-інтерфейси для синтезу зображень за допомогою Stable Diffusion.
  • Плагіни для інтеграції Stable Diffusion з GIMP, Figma, Blender та Photoshop.

Додатково можна відзначити публікацію Google коду системи машинного навчання RawNeRF (RAW Neural Radiance Fields), що дозволяє на основі даних з декількох RAW-зображень, підвищувати якість сильно зашумлених знімків, знятих у темряві та при поганому освітленні. Крім усунення шумів інструменти, що розвиваються проектом, дозволяють підвищувати деталізацію, усувати відблиски, синтезувати HDR і змінювати загальне освітлення на фотографіях, а також за декількома знімками з різними ракурсами відтворювати тривимірне положення об'єктів, зрушувати точку огляду, маніпулювати фокусом і генерувати рухомі картини.

Системи машинного навчання для синтезу зображень та придушення шумів на нічних фото
Системи машинного навчання для синтезу зображень та придушення шумів на нічних фото


Джерело: opennet.ru

Додати коментар або відгук