Συστήματα μηχανικής εκμάθησης για σύνθεση εικόνας και μείωση θορύβου σε νυχτερινές φωτογραφίες

Η Stability AI δημοσίευσε έτοιμα μοντέλα για το σύστημα μηχανικής εκμάθησης Stable Diffusion, ικανά να συνθέτουν και να τροποποιούν εικόνες με βάση μια περιγραφή κειμένου σε φυσική γλώσσα. Τα μοντέλα αδειοδοτούνται με άδεια Creative ML OpenRAIL-M για εμπορική χρήση. Για την εκπαίδευση του συστήματος, χρησιμοποιήθηκε ένα σύμπλεγμα 4000 GPU NVIDIA A100 Ezra-1 και μια συλλογή LAION-5B, συμπεριλαμβανομένων 5.85 δισεκατομμυρίων εικόνων με περιγραφές κειμένου. Προηγουμένως, ο κώδικας για εργαλεία για την εκπαίδευση ενός νευρωνικού δικτύου και τη δημιουργία εικόνων ήταν ανοιχτού κώδικα βάσει της άδειας MIT.

Η διαθεσιμότητα ενός έτοιμου μοντέλου και οι σχετικά μέτριες απαιτήσεις συστήματος που επιτρέπουν σε κάποιον να ξεκινήσει πειράματα σε έναν υπολογιστή με τυπικές GPUs έχουν οδηγήσει στην εμφάνιση ορισμένων σχετικών έργων:

  • textual-inversion (κώδικας) - ένα πρόσθετο που σας επιτρέπει να συνθέσετε εικόνες με ένα δεδομένο χαρακτήρα, αντικείμενο ή στυλ. Στο αρχικό Stable Diffusion, τα αντικείμενα στις συνθετικές εικόνες είναι τυχαία και μη ελεγχόμενα. Το προτεινόμενο πρόσθετο σάς επιτρέπει να προσθέσετε τα δικά σας οπτικά αντικείμενα, να τα συνδέσετε με λέξεις-κλειδιά και να τα χρησιμοποιήσετε στη σύνθεση.

    Για παράδειγμα, στο κανονικό Stable Diffusion μπορείτε να ζητήσετε από το σύστημα να δημιουργήσει μια εικόνα με μια "γάτα σε μια βάρκα". Επιπλέον, μπορείτε να διευκρινίσετε τα χαρακτηριστικά της γάτας και του σκάφους, αλλά είναι απρόβλεπτο ποια γάτα και ποια βάρκα θα συντεθεί. Η αντιστροφή κειμένου σάς επιτρέπει να εκπαιδεύσετε το σύστημα σε μια εικόνα της γάτας ή του σκάφους σας και να συνθέσετε την εικόνα με μια συγκεκριμένη γάτα ή βάρκα. Με παρόμοιο τρόπο, μπορεί επίσης να αντικαταστήσει στοιχεία εικόνας με συγκεκριμένα αντικείμενα, να δώσει ένα παράδειγμα οπτικού στυλ για σύνθεση και να καθορίσει έννοιες (για παράδειγμα, από ολόκληρη την ποικιλία γιατρών, μπορείτε να χρησιμοποιήσετε μια πιο ακριβή και ποιοτική επιλογή στο επιθυμητό στυλ).

    Συστήματα μηχανικής εκμάθησης για σύνθεση εικόνας και μείωση θορύβου σε νυχτερινές φωτογραφίες

  • stable-diffusion-animation - δημιουργία κινούμενων εικόνων (κινούμενων) με βάση την παρεμβολή μεταξύ εικόνων που δημιουργούνται στο Stable Diffusion.
  • stable_diffusion.openvino (κωδικός) - μια θύρα Stable Diffusion, η οποία χρησιμοποιεί μόνο την CPU για υπολογισμούς, η οποία επιτρέπει τον πειραματισμό σε συστήματα χωρίς ισχυρές GPU. Απαιτεί έναν επεξεργαστή που υποστηρίζεται στη βιβλιοθήκη OpenVINO. Επίσημα, το OpenVINO παρέχει πρόσθετα για επεξεργαστές Intel με επεκτάσεις AVX2, AVX-512, AVX512_BF16 και SSE, καθώς και για πλακέτες Raspberry Pi 4 Model B, Apple Mac mini και NVIDIA Jetson Nano. Ανεπίσημα, είναι δυνατή η χρήση του OpenVINO σε επεξεργαστές AMD Ryzen.
  • Το sdamd είναι μια θύρα για GPU της AMD.
  • Μια αρχική υλοποίηση της σύνθεσης βίντεο.
  • stable-diffusion-gui, stable-diffusion-ui, Artbreeder Collage, diffuse-the-rest - γραφικές διεπαφές για τη δημιουργία εικόνων χρησιμοποιώντας το Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI - διεπαφές ιστού για σύνθεση εικόνας χρησιμοποιώντας Stable Diffusion.
  • Πρόσθετα για την ενσωμάτωση του Stable Diffusion με τα GIMP, Figma, Blender και Photoshop.

Επιπλέον, μπορούμε να σημειώσουμε τη δημοσίευση από την Google του κώδικα του συστήματος μηχανικής εκμάθησης RawNeRF (RAW Neural Radiance Fields), το οποίο επιτρέπει, με βάση δεδομένα από πολλές εικόνες RAW, τη βελτίωση της ποιότητας των εικόνων με πολύ θόρυβο που λαμβάνονται στο σκοτάδι και στο κακός φωτισμός. Εκτός από την εξάλειψη του θορύβου, τα εργαλεία που αναπτύχθηκαν από το έργο καθιστούν δυνατή την αύξηση της λεπτομέρειας, την εξάλειψη της αντανάκλασης, τη σύνθεση HDR και την αλλαγή του συνολικού φωτισμού στις φωτογραφίες, καθώς και την αναδημιουργία της τρισδιάστατης θέσης των αντικειμένων χρησιμοποιώντας πολλές φωτογραφίες από διαφορετικές γωνίες. μετατοπίστε την οπτική γωνία, χειριστείτε την εστίαση και δημιουργήστε κινούμενες εικόνες.

Συστήματα μηχανικής εκμάθησης για σύνθεση εικόνας και μείωση θορύβου σε νυχτερινές φωτογραφίες
Συστήματα μηχανικής εκμάθησης για σύνθεση εικόνας και μείωση θορύβου σε νυχτερινές φωτογραφίες


Πηγή: opennet.ru

Προσθέστε ένα σχόλιο