🥇NVIDIA ανοιχτού κώδικα StyleGAN3, ένα σύστημα μηχανικής μάθησης για σύνθεση προσώπων

Η NVIDIA κυκλοφόρησε τον πηγαίο κώδικα για το StyleGAN3, ένα σύστημα μηχανικής μάθησης που βασίζεται σε ένα γενετικό αντιθετικό νευρωνικό δίκτυο (GAN) που στοχεύει στη σύνθεση ρεαλιστικών εικόνων ανθρώπινων προσώπων. Ο κώδικας είναι γραμμένος σε Python χρησιμοποιώντας το πλαίσιο PyTorch και διανέμεται υπό την Άδεια Πηγαίου Κώδικα NVIDIA, η οποία επιβάλλει περιορισμούς στην εμπορική χρήση.

Έτοιμα εκπαιδευμένα μοντέλα είναι επίσης διαθέσιμα για λήψη, εκπαιδευμένα στη συλλογή Flickr-Faces-HQ (FFHQ), η οποία περιλαμβάνει 70 χιλιάδες εικόνες PNG υψηλής ποιότητας (1024×1024) με πρόσωπα ανθρώπων. Επιπλέον, υπάρχουν μοντέλα που έχουν κατασκευαστεί με βάση τη συλλογή AFHQv2 (φωτογραφίες προσώπων ζώων) και τα Metfaces (εικόνες προσώπων ανθρώπων από πορτρέτα κλασικών ζωγραφικών έργων). Κατά την ανάπτυξη, η έμφαση δίνεται στα πρόσωπα, αλλά το σύστημα μπορεί να εκπαιδευτεί ώστε να δημιουργεί οποιαδήποτε αντικείμενα, όπως τοπία και αυτοκίνητα. Επιπλέον, παρέχονται εργαλεία για την αυτοεκπαίδευση του νευρωνικού δικτύου χρησιμοποιώντας τις δικές σας συλλογές εικόνων. Η εργασία απαιτεί μία ή περισσότερες κάρτες γραφικών NVIDIA (συνιστάται η GPU Tesla V100 ή A100), τουλάχιστον 12 GB RAM, PyTorch 1.9 και το κιτ εργαλείων CUDA 11.1+. Αναπτύσσεται ένας ειδικός ανιχνευτής για τον προσδιορισμό της τεχνητής φύσης των προσώπων που προκύπτουν.

Το σύστημα επιτρέπει τη σύνθεση μιας εικόνας ενός νέου προσώπου με βάση την παρεμβολή χαρακτηριστικών διαφόρων προσώπων, συνδυάζοντας τα εγγενή χαρακτηριστικά τους και προσαρμόζοντας την τελική εικόνα στην απαιτούμενη ηλικία, φύλο, μήκος μαλλιών, τύπο χαμόγελου, σχήμα μύτης, χρώμα δέρματος, γυαλιά και γωνία λήψης. Η γεννήτρια θεωρεί την εικόνα ως μια συλλογή στυλ, διαχωρίζει αυτόματα τις χαρακτηριστικές λεπτομέρειες (φακιές, μαλλιά, γυαλιά) από κοινά χαρακτηριστικά υψηλού επιπέδου (πόζα, φύλο, αλλαγές που σχετίζονται με την ηλικία) και επιτρέπει τον συνδυασμό τους σε οποιαδήποτε μορφή με τον ορισμό κυρίαρχων ιδιοτήτων μέσω συντελεστών βαρύτητας. Ως αποτέλεσμα, δημιουργούνται εικόνες που είναι εξωτερικά δυσδιάκριτες από τις πραγματικές φωτογραφίες.

NVIDIA ανοιχτού κώδικα StyleGAN3, ένα σύστημα μηχανικής εκμάθησης για σύνθεση προσώπου

Η πρώτη έκδοση της τεχνολογίας StyleGAN δημοσιεύθηκε το 2019, ακολουθούμενη από μια βελτιωμένη έκδοση, το StyleGAN2020, το 2, η οποία βελτίωσε την ποιότητα της εικόνας και εξάλειψε ορισμένα τεχνουργήματα. Ωστόσο, το σύστημα παρέμεινε στατικό, πράγμα που σημαίνει ότι δεν επέτρεπε ρεαλιστική κινούμενη εικόνα και κίνηση του προσώπου. Κατά την ανάπτυξη του StyleGAN3, ο κύριος στόχος ήταν η προσαρμογή της τεχνολογίας για χρήση σε κινούμενα σχέδια και βίντεο.

Το StyleGAN3 χρησιμοποιεί μια επανασχεδιασμένη αρχιτεκτονική δημιουργίας εικόνων που εξαλείφει την ψευδωνυμοποίηση και εισάγει νέα σενάρια εκπαίδευσης νευρωνικών δικτύων. Περιλαμβάνει νέα βοηθητικά προγράμματα για διαδραστική οπτικοποίηση (visualizer.py), ανάλυση (avg_spectra.py) και δημιουργία βίντεο (gen_video.py). Η υλοποίηση μειώνει επίσης την κατανάλωση μνήμης και επιταχύνει τη διαδικασία εκπαίδευσης.

Το βασικό χαρακτηριστικό της αρχιτεκτονικής StyleGAN3 ήταν η μετάβαση στην ερμηνεία όλων των σημάτων στο νευρωνικό δίκτυο ως συνεχών διεργασιών, γεγονός που επέτρεψε τον χειρισμό σχετικών θέσεων κατά τον σχηματισμό λεπτομερειών, οι οποίες δεν ήταν συνδεδεμένες με τις απόλυτες συντεταγμένες μεμονωμένων pixel στην εικόνα, αλλά στερεωμένες στην επιφάνεια των απεικονιζόμενων αντικειμένων. Στο StyleGAN και στο StyleGAN2, η σύνδεση με pixel κατά τη δημιουργία οδήγησε σε προβλήματα με τη δυναμική οπτικοποίηση, για παράδειγμα, όταν η εικόνα κινούνταν, υπήρχε μια κακή ευθυγράμμιση μικρών λεπτομερειών, όπως ρυτίδες και τρίχες, οι οποίες κινούνταν σαν να ήταν ξεχωριστά από το υπόλοιπο πρόσωπο. Στο StyleGAN3, αυτά τα προβλήματα έχουν λυθεί και η τεχνολογία έχει γίνει αρκετά κατάλληλη για τη δημιουργία βίντεο.

Επιπλέον, αξίζει να σημειωθεί η ανακοίνωση από την NVIDIA και τη Microsoft για τη δημιουργία του μεγαλύτερου γλωσσικού μοντέλου, του MT-NLG, που βασίζεται σε ένα βαθύ νευρωνικό δίκτυο με αρχιτεκτονική "μετασχηματιστή". Το μοντέλο καλύπτει 530 δισεκατομμύρια παραμέτρους και ένα σύμπλεγμα 4480 GPU (560 διακομιστές Το DGX A100 (το καθένα με οκτώ GPU A100 80GB) χρησιμοποιείται για εργασίες επεξεργασίας φυσικής γλώσσας, όπως πρόβλεψη ολοκλήρωσης προτάσεων, απάντηση ερωτήσεων, κατανόηση κειμένου, συμπερασματολογία φυσικής γλώσσας και ανάλυση ασάφειας λέξεων.

Πηγή: opennet.ru

NVIDIA ανοιχτού κώδικα StyleGAN3, ένα σύστημα μηχανικής εκμάθησης για σύνθεση προσώπου