Παρουσιάστηκε το Stable Diffusion 2.0 Image Synthesis System

Η Stability AI δημοσίευσε τη δεύτερη έκδοση του συστήματος μηχανικής εκμάθησης Stable Diffusion, το οποίο είναι ικανό να συνθέτει και να τροποποιεί εικόνες με βάση ένα προτεινόμενο μοτίβο ή περιγραφή κειμένου σε φυσική γλώσσα. Ο κώδικας εργαλείων για εκπαίδευση νευρωνικών δικτύων και δημιουργία εικόνων είναι γραμμένος σε Python χρησιμοποιώντας το πλαίσιο PyTorch και δημοσιεύεται με την άδεια MIT. Τα ήδη εκπαιδευμένα μοντέλα είναι ανοιχτά με την άδεια Creative ML OpenRAIL-M, η οποία επιτρέπει την εμπορική χρήση. Επιπλέον, είναι διαθέσιμη μια επίδειξη ηλεκτρονικής δημιουργίας εικόνων.

Βασικές βελτιώσεις στη νέα έκδοση του Stable Diffusion:

  • Δημιουργήθηκε ένα νέο μοντέλο σύνθεσης εικόνας με βάση την περιγραφή κειμένου — SD2.0-v — το οποίο υποστηρίζει τη δημιουργία εικόνων με ανάλυση 768×768. Το νέο μοντέλο εκπαιδεύτηκε χρησιμοποιώντας τη συλλογή LAION-5B 5.85 δισεκατομμυρίων εικόνων με περιγραφές κειμένου. Το μοντέλο χρησιμοποιεί το ίδιο σύνολο παραμέτρων με το μοντέλο Stable Diffusion 1.5, αλλά διαφέρει από τη μετάβαση στη χρήση ενός ουσιαστικά διαφορετικού κωδικοποιητή OpenCLIP-ViT/H, ο οποίος κατέστησε δυνατή τη σημαντική βελτίωση της ποιότητας των εικόνων που προέκυψαν.
    Παρουσιάστηκε το Stable Diffusion 2.0 Image Synthesis System
  • Έχει ετοιμαστεί μια απλοποιημένη έκδοση της βάσης SD2.0, η οποία έχει εκπαιδευτεί σε εικόνες 256×256 χρησιμοποιώντας το κλασικό μοντέλο πρόβλεψης θορύβου και υποστηρίζει τη δημιουργία εικόνων με ανάλυση 512×512.
    Παρουσιάστηκε το Stable Diffusion 2.0 Image Synthesis System
  • Παρέχεται η δυνατότητα χρήσης της τεχνολογίας της υπερδειγματοληψίας (Super Resolution) για αύξηση της ανάλυσης της αρχικής εικόνας χωρίς μείωση της ποιότητας, με τη χρήση αλγορίθμων χωρικής κλιμάκωσης και ανακατασκευής λεπτομερειών. Το παρεχόμενο μοντέλο επεξεργασίας εικόνας (SD20-upscaler) υποστηρίζει αναβάθμιση 2048x, η οποία μπορεί να δημιουργήσει εικόνες με ανάλυση 2048×XNUMX.
    Παρουσιάστηκε το Stable Diffusion 2.0 Image Synthesis System
  • Προτείνεται το μοντέλο SD2.0-depth2img, το οποίο λαμβάνει υπόψη το βάθος και τη χωρική διάταξη των αντικειμένων. Το σύστημα MiDaS χρησιμοποιείται για την εκτίμηση του μονόφθαλμου βάθους. Το μοντέλο σάς επιτρέπει να συνθέσετε νέες εικόνες χρησιμοποιώντας μια άλλη εικόνα ως πρότυπο, η οποία μπορεί να διαφέρει ριζικά από την αρχική, αλλά να διατηρεί τη συνολική σύνθεση και το βάθος. Για παράδειγμα, μπορείτε να χρησιμοποιήσετε τη πόζα ενός ατόμου σε μια φωτογραφία για να σχηματίσετε έναν άλλο χαρακτήρα στην ίδια πόζα.
    Παρουσιάστηκε το Stable Diffusion 2.0 Image Synthesis System
    Παρουσιάστηκε το Stable Diffusion 2.0 Image Synthesis System
    Παρουσιάστηκε το Stable Diffusion 2.0 Image Synthesis System
  • Το μοντέλο για την τροποποίηση εικόνων έχει ενημερωθεί - SD 2.0-inpainting, το οποίο σας επιτρέπει να αντικαταστήσετε και να αλλάξετε μέρη μιας εικόνας χρησιμοποιώντας μηνύματα κειμένου.
    Παρουσιάστηκε το Stable Diffusion 2.0 Image Synthesis System
  • Τα μοντέλα έχουν βελτιστοποιηθεί για χρήση σε συμβατικά συστήματα με μία μόνο GPU.

Παρουσιάστηκε το Stable Diffusion 2.0 Image Synthesis System


Πηγή: opennet.ru

Προσθέστε ένα σχόλιο