🥇NVIDIA відкрила код StyleGAN3, система машинного навчання для синтезу осіб

Компанія NVIDIA опублікувала вихідні тексти StyleGAN3, системи машинного навчання на основі генеративно-змагальної нейронної мережі (GAN), спрямованої на синтезування реалістичних зображень осіб людей. Код написаний мовою Python з використанням фреймворку PyTorch і поширюється під ліцензією NVIDIA Source Code License, яка накладає обмеження на використання з комерційною метою.

Для завантаження також доступні готові натреновані моделі, які навчаються на колекції Flickr-Faces-HQ (FFHQ), що включає 70 тисяч високоякісних (1024×1024) PNG-зображень осіб людей. Крім того, є моделі, побудовані на основі колекцій AFHQv2 (фотографії морд тварин) і Metfaces (зображення осіб людей з портретів класичного живопису). При розробці акцент робиться на обличчя, але система може бути навчена для створення будь-яких об'єктів, наприклад, пейзажів і автомобілів. Додатково надаються інструменти для самостійного навчання нейронної мережі за власними колекціями зображень. Для роботи потрібна одна або кілька відеокарт NVIDIA (рекомендується GPU Tesla V100 або A100), щонайменше 12 ГБ ОЗУ, PyTorch 1.9 та інструментарій CUDA 11.1+. Для визначення штучного характеру одержаних осіб розвивається спеціальний детектор.

Система дозволяє синтезувати зображення нового обличчя з урахуванням інтерполяції особливостей кількох осіб, комбінуючи властиві їм риси, і навіть адаптуючи підсумкове зображення під необхідний вік, стать, довжину волосся, характер посмішки, форму носа, колір шкіри, окуляри, ракурс фотографії. Генератор розглядає зображення як колекцію стилів, автоматично відокремлює характерні деталі (ластовиння, волосся, окуляри) від загальних високорівневих атрибутів (поза, стать, вікові зміни) і дозволяє комбінувати їх у довільному вигляді з визначенням домінуючих властивостей через вагові коефіцієнти. В результаті генеруються зображення, що зовні не відрізняються від справжніх фотографій.

NVIDIA відкрила код StyleGAN3, системи машинного навчання для синтезу осіб

Перший варіант технології StyleGAN був опублікований в 2019 році, після чого в 2020 році була запропонована покращена редакція StyleGAN2, що дозволяє досягти поліпшення якості зображень та усуває деякі артефакти. У цьому система залишалася статичною, тобто. не дозволяла досягти реалістичної анімації та руху обличчя. Під час розробки StyleGAN3 головною метою стала адаптація технології для її застосування в анімації та відео.

У StyleGAN3 використана перероблена архітектура генерації зображень, позбавлена аліасингу, та запропоновані нові сценарії навчання нейронної мережі. До складу включені нові утиліти для інтерактивної візуалізації (visualizer.py), аналізу (avg_spectra.py) та генерації відео (gen_video.py). У реалізації також скорочено споживання пам'яті та прискорено процес навчання.

Ключовою особливістю архітектури StyleGAN3 став перехід до інтерпретації всіх сигналів у нейронній мережі у формі безперервних процесів, що дозволило при формуванні деталей маніпулювати відносними позиціями, не прив'язаними до абсолютних координат окремих пікселів на зображенні, а закріпленими до поверхні зображених об'єктів. У StyleGAN і StyleGAN2 прив'язка до пікселів при генерації призводила до проблем при динамічній візуалізації, наприклад, при русі зображення спостерігалося неузгодженість дрібних деталей, таких як зморшки та волоски, які рухалися окремо від іншої особи. У StyleGAN3 ці проблеми вирішені, і технологія стала цілком придатною для формування відео.

Додатково можна відзначити анонс створення компаніями NVIDIA та Microsoft найбільшої мовної моделі MT-NLG на основі глибокої нейронної мережі з архітектурою "трансформер". Модель охоплює 530 мільярдів параметрів, а для навчання було задіяно кластер, що налічує 4480 GPU (560 серверів DGX A100 з 8 GPU A100 80GB у кожному). Як сфери застосування моделі називається вирішення завдань з обробки інформації природною мовою, таких як прогнозування завершення незакінченої пропозиції, відповіді на питання, розуміння прочитаного, формування висновків природною мовою і розбір неоднозначності сенсу слів.

Джерело: opennet.ru

NVIDIA відкрила код StyleGAN3, системи машинного навчання для синтезу осіб