🥇NVIDIA open-source StyleGAN3, un sistema di apprendimentu machine per a sintesi di faccia

NVIDIA hà publicatu u codice fonte per StyleGAN3, un sistema di apprendimentu machine basatu annantu à una rete neurale avversaria generativa (GAN) destinata à sintetizà l'imaghjini realistiche di e facce di e persone. U codice hè scrittu in Python cù u framework PyTorch è hè distribuitu sottu a Licenza di u Codice Source NVIDIA, chì impone restrizioni à l'usu cummerciale.

Modelli addestrati pronti addestrati nantu à a cullezzione Flickr-Faces-HQ (FFHQ), chì include 70 mila immagini PNG d'alta qualità (1024x1024) di facce di e persone, sò ancu dispunibili per u scaricamentu. Inoltre, ci sò mudelli custruiti nantu à a basa di e cullezzione AFHQv2 (foto di facci d'animali) è Metfaces (imaghjini di facci di persone da ritratti di pittura classica). L'enfasi di u sviluppu hè nantu à e facci, ma u sistema pò esse furmatu per generà ogni ughjettu, cum'è paisaghji è vitture. Inoltre, i strumenti sò furniti per l'autoformazione di una rete neurale utilizendu e vostre cullezzione d'imaghjini. Richiede una o più carte grafiche NVIDIA (Tesla V100 o A100 GPU consigliata), almenu 12 GB di RAM, PyTorch 1.9 è CUDA 11.1+ toolkit. Per determinà a natura artificiale di e facci resultanti, un detector speciale hè sviluppatu.

U sistema permette di sintetizà una maghjina di una nova faccia basatu annantu à l'interpolazione di e caratteristiche di parechje facce, cumminendu e so caratteristiche caratteristiche, è ancu di adattà l'imaghjini finali à l'età necessaria, u sessu, a lunghezza di i capelli, u caratteru di sorrisu, a forma di u nasu, culore di a pelle, occhiali è angulu di fotografia. U generatore cunsidereghja l'imaghjini cum'è una cullizzioni di stili, separà automaticamente i dettagli caratteristici (freckles, capelli, occhiali) da l'attributi cumuni d'altu livellu (pose, sessu, cambiamenti di età) è permette di cumminà in ogni forma cù a determinazione di dominante. proprietà per mezu di coefficienti di ponderazione. In u risultatu, l'imaghjini sò generati chì ùn sò micca distinti da e ritratti reali.

NVIDIA open source StyleGAN3, un sistema di apprendimentu di macchina per a sintesi faciale

A prima versione di a tecnulugia StyleGAN hè stata publicata in 2019, dopu chì una edizione mejorata di StyleGAN2020 hè stata pruposta in u 2, chì permette una qualità di l'imaghjini mejorata è eliminà alcuni artefatti. À u listessu tempu, u sistema hè statu staticu, i.e. ùn hà micca permessu di ottene una animazione realistica è u muvimentu faciale. Quandu u sviluppu StyleGAN3, u scopu principale era di adattà a tecnulugia per u so usu in animazione è video.

StyleGAN3 usa una architettura di generazione d'imaghjini riprogettata, libera di aliasing, è prupone novi scenarii di furmazione di rete neurale. Include novi utilità per a visualizazione interattiva (visualizer.py), analisi (avg_spectra.py) è generazione di video (gen_video.py). L'implementazione riduce ancu u cunsumu di memoria è accelera u prucessu di apprendimentu.

Una funzione chjave di l'architettura StyleGAN3 era a transizione à l'interpretazione di tutti i signali in a rete neurale in forma di prucessi cuntinui, chì hà permessu, quandu si formanu parti, di manipulà pusizioni relative chì ùn sò micca ligati à e coordenate assolute di pixel individuali. l'imaghjini, ma fissu à a superficia di l'uggetti raffigurati. In StyleGAN è StyleGAN2, ubligatoriu à i pixel durante a generazione hà purtatu à prublemi durante a rendering dinamica, per esempiu, quandu l'imaghjina si moveva, ci era una discordanza di picculi dettagli, cum'è arrughe è capelli, chì paria chì si movevanu separatamente da u restu di a faccia. . In StyleGAN3, sti prublemi sò risolti è a tecnulugia hè diventata abbastanza adattata per a generazione di video.

Inoltre, vale a pena nutà l'annunziu da NVIDIA è Microsoft di a creazione di u più grande mudellu linguisticu, MT-NLG, basatu annantu à una rete neurale prufonda cù una architettura "trasformatore". U mudellu copre 530 miliardi di parametri, è un cluster di 4480 GPU (560 servitori U DGX A100 (ognunu cù ottu GPU A100 80GB) hè adupratu per attività di trasfurmazione di lingua naturale, cum'è a predizione di cumpletamentu di frasi, a risposta à dumande, a cumprensione di lettura, l'inferenza di lingua naturale è l'analisi di l'ambiguità di e parolle.

Source: opennet.ru

NVIDIA open source StyleGAN3, un sistema di apprendimentu di macchina per a sintesi faciale