HyperStyle - προσαρμογή του συστήματος μηχανικής εκμάθησης StyleGAN για επεξεργασία εικόνας

Μια ομάδα ερευνητών από το Πανεπιστήμιο του Τελ Αβίβ αποκάλυψε το HyperStyle, μια ανεστραμμένη έκδοση του συστήματος μηχανικής εκμάθησης StyleGAN2 της NVIDIA που έχει επανασχεδιαστεί για να αναδημιουργεί μέρη που λείπουν κατά την επεξεργασία εικόνων πραγματικής ζωής. Ο κώδικας είναι γραμμένος σε Python χρησιμοποιώντας το πλαίσιο PyTorch και διανέμεται με την άδεια MIT.

Εάν το StyleGAN σάς επιτρέπει να συνθέσετε νέα πρόσωπα ανθρώπων με ρεαλιστική εμφάνιση ορίζοντας παραμέτρους όπως ηλικία, φύλο, μήκος μαλλιών, μοτίβο χαμόγελου, σχήμα μύτης, χρώμα δέρματος, γυαλιά και γωνία φωτογραφίας, τότε το HyperStyle καθιστά δυνατή την αλλαγή παρόμοιων παραμέτρων σε υπάρχουσες φωτογραφίες χωρίς να αλλάζουν τα χαρακτηριστικά τους και να διατηρούν την αναγνωρισιμότητα του αρχικού προσώπου. Για παράδειγμα, χρησιμοποιώντας το HyperStyle, μπορείτε να προσομοιώσετε μια αλλαγή στην ηλικία ενός ατόμου σε μια φωτογραφία, να αλλάξετε ένα χτένισμα, να προσθέσετε γυαλιά, γένια ή μουστάκι, να κάνετε μια εικόνα να μοιάζει με χαρακτήρα κινουμένων σχεδίων ή μια φωτογραφία με το χέρι, λυπημένη ή χαρούμενη έκφραση. Σε αυτήν την περίπτωση, το σύστημα μπορεί να εκπαιδευτεί όχι μόνο για να αλλάζει τα πρόσωπα των ανθρώπων, αλλά και για οποιαδήποτε αντικείμενα, για παράδειγμα, για την επεξεργασία εικόνων αυτοκινήτων.

HyperStyle - προσαρμογή του συστήματος μηχανικής εκμάθησης StyleGAN για επεξεργασία εικόνας

Η προτεινόμενη μέθοδος στοχεύει στην επίλυση του προβλήματος με την ανακατασκευή των τμημάτων της εικόνας που λείπουν κατά την επεξεργασία. Στις προηγούμενες μεθόδους, ο συμβιβασμός μεταξύ της ανακατασκευής και της δυνατότητας επεξεργασίας επιλύθηκε με τη μικρορύθμιση της γεννήτριας εικόνας για να αντικαταστήσει μέρη της εικόνας στόχου κατά την αναδημιουργία περιοχών που αρχικά έλειπαν. Το μειονέκτημα τέτοιων προσεγγίσεων είναι η ανάγκη για μακροπρόθεσμη στοχευμένη εκπαίδευση του νευρωνικού δικτύου για κάθε εικόνα.

Η μέθοδος που βασίζεται στον αλγόριθμο StyleGAN καθιστά δυνατή τη χρήση ενός τυπικού μοντέλου, προηγουμένως εκπαιδευμένου σε κοινές συλλογές εικόνων, για τη δημιουργία στοιχείων χαρακτηριστικά της αρχικής εικόνας με επίπεδο εμπιστοσύνης συγκρίσιμο με αλγόριθμους που απαιτούν ατομική εκπαίδευση του μοντέλου για κάθε εικόνα . Μεταξύ των πλεονεκτημάτων της νέας μεθόδου, σημειώνεται και η δυνατότητα τροποποίησης εικόνων με απόδοση κοντά σε πραγματικό χρόνο.

HyperStyle - προσαρμογή του συστήματος μηχανικής εκμάθησης StyleGAN για επεξεργασία εικόνας

Τα προεκπαιδευμένα μοντέλα είναι προετοιμασμένα για πρόσωπα, αυτοκίνητα και ζώα με βάση τις συλλογές των Flickr-Faces-HQ (FFHQ, 70k υψηλής ποιότητας εικόνες PNG ανθρώπινων προσώπων), Stanford Cars (16 χιλιάδες εικόνες αυτοκινήτων) και AFHQ (φωτογραφίες των ζώων). Επιπλέον, παρέχονται εργαλεία για την εκπαίδευση των μοντέλων τους, καθώς και έτοιμα εκπαιδευμένα μοντέλα τυπικών κωδικοποιητών και γεννητριών κατάλληλων για χρήση με αυτούς. Για παράδειγμα, είναι διαθέσιμες γεννήτριες για τη δημιουργία εικόνων σε στυλ Toonify, χαρακτήρων Pixar, σκιαγράφησης και ακόμη και styling σαν πριγκίπισσες της Disney.

HyperStyle - προσαρμογή του συστήματος μηχανικής εκμάθησης StyleGAN για επεξεργασία εικόνας
HyperStyle - προσαρμογή του συστήματος μηχανικής εκμάθησης StyleGAN για επεξεργασία εικόνας
HyperStyle - προσαρμογή του συστήματος μηχανικής εκμάθησης StyleGAN για επεξεργασία εικόνας
HyperStyle - προσαρμογή του συστήματος μηχανικής εκμάθησης StyleGAN για επεξεργασία εικόνας


Πηγή: opennet.ru

Προσθέστε ένα σχόλιο