Παρουσιάστηκε νέο σύστημα σύνθεσης εικόνας ανοιχτού κώδικα Stable Diffusion

Ανακαλύφθηκαν εξελίξεις που σχετίζονται με το σύστημα μηχανικής μάθησης Stable Diffusion, το οποίο συνθέτει εικόνες με βάση μια περιγραφή κειμένου σε φυσική γλώσσα. Το έργο αναπτύσσεται από κοινού από ερευνητές από το Stability AI και Runway, τις κοινότητες Eleuther AI και LAION και την ομάδα εργαστηρίου CompVis (ένα ερευνητικό εργαστήριο όρασης υπολογιστών και μηχανικής μάθησης στο Πανεπιστήμιο του Μονάχου). Όσον αφορά τις δυνατότητες και το επίπεδο ποιότητας του αποτελέσματος, το Stable Diffusion μοιάζει με το έργο DALL-E 2, αλλά αναπτύσσεται ως ανοιχτό και διαθέσιμο στο κοινό. Η υλοποίηση του Stable Diffusion είναι γραμμένη σε Python και διανέμεται με την άδεια MIT.

Τα έτοιμα μοντέλα είναι προς το παρόν διαθέσιμα κατόπιν ξεχωριστού αιτήματος σε εκπαιδευτικά ιδρύματα και ανεξάρτητους ερευνητές, αλλά οι προγραμματιστές υπόσχονται να τα ανοίξουν σε όλους αφού ολοκληρωθούν οι δοκιμές και η πρώτη έκδοση είναι έτοιμη. Για την εκπαίδευση του συστήματος, χρησιμοποιήθηκε ένα σύμπλεγμα 4000 GPU NVIDIA A100 Ezra-1 και μια συλλογή LAION-5B, συμπεριλαμβανομένων 5.85 δισεκατομμυρίων εικόνων με περιγραφές κειμένου. Τα εξαρτήματα για τη δημιουργία εικόνων σημειώνονται ως αρκετά ελαφριά για να λειτουργούν σε συστήματα χρηστών, για παράδειγμα, για τη σύνθεση εικόνων με ανάλυση 512x512, αρκεί μια GPU με 10 GB μνήμης βίντεο στο σύστημα.

Παρουσιάστηκε νέο σύστημα σύνθεσης εικόνας ανοιχτού κώδικα Stable Diffusion
Παρουσιάστηκε νέο σύστημα σύνθεσης εικόνας ανοιχτού κώδικα Stable Diffusion
Παρουσιάστηκε νέο σύστημα σύνθεσης εικόνας ανοιχτού κώδικα Stable Diffusion

Εκτός από τη σύνθεση εικόνων με βάση περιγραφές κειμένου, προσφέρεται μια επιλογή για την τροποποίηση εικόνων, η οποία μπορεί, χρησιμοποιώντας διευκρινιστικές προτροπές κειμένου, να δημιουργήσει εικόνες από σχηματικά σκίτσα, να επεξεργαστεί και να αλλάξει εικόνες ή να επαναφέρει χαμένες λεπτομέρειες κατά τη μεγέθυνση. Επίσης σε εξέλιξη βρίσκεται το Stable Diffusion για επεξεργασία βίντεο με βάση εντολές κειμένου φυσικής γλώσσας.

Παρουσιάστηκε νέο σύστημα σύνθεσης εικόνας ανοιχτού κώδικα Stable Diffusion
Παρουσιάστηκε νέο σύστημα σύνθεσης εικόνας ανοιχτού κώδικα Stable Diffusion


Πηγή: opennet.ru
Αγοράστε αξιόπιστη φιλοξενία για ιστότοπους με προστασία DDoS, διακομιστές VPS VDS 🔥 Αγοράστε αξιόπιστη φιλοξενία ιστοσελίδων με προστασία DDoS, διακομιστές VPS VDS | ProHoster