NVIDIA atvirojo kodo StyleGAN3, mašininio mokymosi sistema veido sintezei

NVIDIA paskelbė StyleGAN3, mašininio mokymosi sistemos, pagrįstos generatyviniu priešingų neuronų tinklu (GAN), skirtu susintetinti tikroviškus žmonių veidų vaizdus, ​​šaltinio kodą. Kodas parašytas Python kalba naudojant PyTorch sistemą ir platinamas pagal NVIDIA šaltinio kodo licenciją, kuri nustato komercinio naudojimo apribojimus.

Taip pat galima atsisiųsti paruoštus apmokytus modelius, apmokytus pagal Flickr-Faces-HQ (FFHQ) kolekciją, kurioje yra 70 tūkstančių aukštos kokybės (1024x1024) žmonių veidų PNG vaizdų. Be to, yra modelių, sukurtų remiantis AFHQv2 (gyvūnų veidų nuotraukos) ir Metfaces (žmonių veidų vaizdai iš klasikinės tapybos portretų) kolekcijų. Pagrindinis dėmesys skiriamas veidams, tačiau sistema gali būti išmokyta generuoti bet kokius objektus, tokius kaip peizažai ir automobiliai. Be to, pateikiami įrankiai, skirti savarankiškai lavinti neuroninį tinklą naudojant savo vaizdų kolekcijas. Reikia vienos ar daugiau NVIDIA vaizdo plokščių (rekomenduojama Tesla V100 arba A100 GPU), mažiausiai 12 GB RAM, PyTorch 1.9 ir CUDA 11.1+ įrankių rinkinio. Norint nustatyti susidarančių veidų dirbtinį pobūdį, kuriamas specialus detektorius.

Sistema leidžia susintetinti naujo veido vaizdą, remiantis kelių veidų bruožų interpoliacija, derinant jiems būdingus bruožus, taip pat pritaikant galutinį vaizdą pagal reikiamą amžių, lytį, plaukų ilgį, šypsenos charakterį, nosies formą, odos spalva, akiniai ir fotografavimo kampas. Generatorius įvaizdį vertina kaip stilių rinkinį, automatiškai atskiria būdingas detales (strazdanas, plaukus, akinius) nuo įprastų aukšto lygio atributų (pozos, lyties, amžiaus pokyčių) ir leidžia jas derinti bet kokia forma, nustatant dominuojančią padėtį. savybės per svorio koeficientus. Dėl to sukuriami vaizdai, kurių negalima atskirti nuo tikrų nuotraukų.

NVIDIA atvirojo kodo StyleGAN3, mašininio mokymosi sistema veido sintezei

Pirmoji StyleGAN technologijos versija buvo paskelbta 2019 m., po to 2020 m. buvo pasiūlytas patobulintas StyleGAN2 leidimas, leidžiantis pagerinti vaizdo kokybę ir pašalinti kai kuriuos artefaktus. Tuo pačiu sistema išliko statiška, t.y. neleido pasiekti tikroviškos animacijos ir veido judesių. Kuriant StyleGAN3 pagrindinis tikslas buvo pritaikyti technologiją jos naudojimui animacijoje ir vaizdo įrašuose.

StyleGAN3 naudoja pertvarkytą vaizdų generavimo architektūrą, be slapyvardžių, ir siūlo naujus neuroninio tinklo mokymo scenarijus. Tai apima naujas priemones, skirtas interaktyviam vizualizavimui (visualizer.py), analizei (avg_spectra.py) ir vaizdo įrašų generavimui (gen_video.py). Diegimas taip pat sumažina atminties suvartojimą ir pagreitina mokymosi procesą.

NVIDIA atvirojo kodo StyleGAN3, mašininio mokymosi sistema veido sintezei

Pagrindinis StyleGAN3 architektūros bruožas buvo perėjimas prie visų neuroninio tinklo signalų interpretavimo nuolatinių procesų pavidalu, todėl formuojant dalis buvo galima manipuliuoti santykinėmis padėtimis, nesusijusiomis su atskirų pikselių absoliučiomis koordinatėmis. vaizdas, bet pritvirtintas prie vaizduojamų objektų paviršiaus. „StyleGAN“ ir „StyleGAN2“ surišimas su pikseliais generuojant sukėlė problemų dinaminio atvaizdavimo metu, pavyzdžiui, kai vaizdas perkeliamas, buvo neatitiktos smulkios detalės, pvz., raukšlės ir plaukeliai, kurie atrodė atskirai nuo likusios veido dalies. . StyleGAN3 šios problemos išspręstos ir technologija tapo gana tinkama vaizdo įrašų generavimui.

Be to, galime atkreipti dėmesį į pranešimą, kad NVIDIA ir Microsoft sukūrė didžiausią kalbos modelį MT-NLG, pagrįstą giliu neuroniniu tinklu su „transformatoriaus“ architektūra. Modelis apima 530 milijardų parametrų, o mokymams buvo naudojamas 4480 GPU (560 DGX A100 serverių su 8 A100 80 GB GPU) klasteris. Modelio taikymas apima natūralios kalbos apdorojimo problemų sprendimą, pavyzdžiui, nebaigtų sakinių užbaigimo numatymą, atsakymą į klausimus, skaitymo supratimą, išvadų darymą natūralia kalba ir žodžių prasmės išaiškinimą.

NVIDIA atvirojo kodo StyleGAN3, mašininio mokymosi sistema veido sintezei


Šaltinis: opennet.ru

Добавить комментарий