Υλοποίηση συστήματος μηχανικής μάθησης για σύνθεση εικόνας με βάση την περιγραφή κειμένου

Μια ανοιχτή εφαρμογή του συστήματος μηχανικής μάθησης DALL-E 2, που προτείνεται από το OpenAI, έχει δημοσιευτεί και σας επιτρέπει να συνθέσετε ρεαλιστικές εικόνες και πίνακες με βάση μια περιγραφή κειμένου σε φυσική γλώσσα, καθώς και να εφαρμόσετε εντολές σε φυσική γλώσσα για να επεξεργαστείτε εικόνες ( για παράδειγμα, προσθέστε, διαγράψτε ή μετακινήστε αντικείμενα στην εικόνα ). Τα πρωτότυπα μοντέλα DALL-E 2 του OpenAI δεν δημοσιεύονται, αλλά υπάρχει ένα έγγραφο που περιγράφει λεπτομερώς τη μέθοδο. Με βάση την υπάρχουσα περιγραφή, ανεξάρτητοι ερευνητές έχουν ετοιμάσει μια εναλλακτική υλοποίηση γραμμένη σε Python, χρησιμοποιώντας το πλαίσιο Pytorch και διανέμεται με την άδεια του MIT.

Υλοποίηση συστήματος μηχανικής μάθησης για σύνθεση εικόνας με βάση την περιγραφή κειμένουΥλοποίηση συστήματος μηχανικής μάθησης για σύνθεση εικόνας με βάση την περιγραφή κειμένου

Σε σύγκριση με την προηγουμένως δημοσιευμένη εφαρμογή της πρώτης γενιάς του DALL-E, η νέα έκδοση παρέχει ακριβέστερη αντιστοίχιση της εικόνας με την περιγραφή, επιτρέπει μεγαλύτερο φωτορεαλισμό και καθιστά δυνατή τη δημιουργία εικόνων σε υψηλότερη ανάλυση. Το σύστημα απαιτεί μεγάλους πόρους για την εκπαίδευση του μοντέλου· για παράδειγμα, η εκπαίδευση της αρχικής έκδοσης του DALL-E 2 απαιτεί 100-200 χιλιάδες ώρες υπολογισμού στη GPU, δηλ. περίπου 2-4 εβδομάδες υπολογισμών με 256 GPU NVIDIA Tesla V100.

Υλοποίηση συστήματος μηχανικής μάθησης για σύνθεση εικόνας με βάση την περιγραφή κειμένου

Ο ίδιος συγγραφέας άρχισε επίσης να αναπτύσσει μια εκτεταμένη έκδοση - DALLE2 Video, με στόχο τη σύνθεση βίντεο από μια περιγραφή κειμένου. Ξεχωριστά, μπορούμε να σημειώσουμε το έργο ru-dalle που αναπτύχθηκε από τη Sberbank, με μια ανοιχτή εφαρμογή της πρώτης γενιάς DALL-E, προσαρμοσμένη για την αναγνώριση περιγραφών στα ρωσικά.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο