Maschinelle Lernsysteme zur Bildsynthese und Rauschunterdrückung bei Nachtfotos

Stability AI hat vorgefertigte Modelle für das maschinelle Lernsystem Stable Diffusion veröffentlicht, die in der Lage sind, Bilder basierend auf einer Textbeschreibung in natürlicher Sprache zu synthetisieren und zu modifizieren. Die Modelle sind unter einer freizügigen Creative ML OpenRAIL-M-Lizenz für die kommerzielle Nutzung lizenziert. Zum Trainieren des Systems wurden ein Cluster aus 4000 NVIDIA A100 Ezra-1-GPUs und eine LAION-5B-Sammlung, darunter 5.85 Milliarden Bilder mit Textbeschreibungen, verwendet. Zuvor war der Code für Tools zum Training eines neuronalen Netzwerks und zur Generierung von Bildern Open Source unter der MIT-Lizenz.

Die Verfügbarkeit eines fertigen Modells und recht bescheidene Systemanforderungen, die es ermöglichen, Experimente auf einem PC mit Standard-GPUs zu starten, haben zur Entstehung einer Reihe verwandter Projekte geführt:

  • Textinversion (Code) – ein Add-on, mit dem Sie Bilder mit einem bestimmten Zeichen, Objekt oder Stil synthetisieren können. Bei der ursprünglichen stabilen Diffusion sind die Objekte in den synthetisierten Bildern zufällig und unkontrollierbar. Mit dem vorgeschlagenen Add-on können Sie Ihre eigenen visuellen Objekte hinzufügen, sie an Schlüsselwörter binden und sie in der Synthese verwenden.

    Beispielsweise können Sie bei der regulären Stable Diffusion das System bitten, ein Bild mit einer „Katze in einem Boot“ zu generieren. Darüber hinaus können Sie die Eigenschaften von Katze und Boot klären, es ist jedoch nicht vorhersehbar, welche Katze und welches Boot synthetisiert werden. Mit der Textinversion können Sie das System anhand eines Bildes Ihrer Katze oder Ihres Bootes trainieren und das Bild mit einer bestimmten Katze oder einem bestimmten Boot synthetisieren. Auf ähnliche Weise kann es auch Bildelemente durch bestimmte Objekte ersetzen, ein Beispiel für einen visuellen Stil zur Synthese geben und Konzepte spezifizieren (z. B. können Sie aus der gesamten Ärztevielfalt eine genauere und qualitativ hochwertigere Auswahl verwenden). im gewünschten Stil).

    Maschinelle Lernsysteme zur Bildsynthese und Rauschunterdrückung bei Nachtfotos

  • Stable-Diffusion-Animation – Erstellung animierter (bewegter) Bilder basierend auf der Interpolation zwischen Bildern, die in Stable Diffusion generiert wurden.
  • stabil_diffusion.openvino (Code) – eine Portierung von Stable Diffusion, die nur die CPU für Berechnungen verwendet, was Experimente auf Systemen ohne leistungsstarke GPUs ermöglicht. Erfordert einen Prozessor, der in der OpenVINO-Bibliothek unterstützt wird. Offiziell stellt OpenVINO Plugins für Intel-Prozessoren mit den Erweiterungen AVX2, AVX-512, AVX512_BF16 und SSE sowie für Raspberry Pi 4 Model B, Apple Mac mini und NVIDIA Jetson Nano-Boards bereit. Inoffiziell ist es möglich, OpenVINO auf AMD Ryzen-Prozessoren zu verwenden.
  • sdamd ist ein Port für AMD-GPUs.
  • Eine erste Implementierung der Videosynthese.
  • Stable-Diffusion-GUI, Stable-Diffusion-UI, Artbreeder Collage, Diffusion-the-Rest – grafische Schnittstellen zum Generieren von Bildern mit Stable Diffusion.
  • beta.dreamstudio.ai, Hugging Face Spaces, hlky Stable Diffusion WebUI – Webschnittstellen für die Bildsynthese mit Stable Diffusion.
  • Plugins zur Integration von Stable Diffusion mit GIMP, Figma, Blender und Photoshop.

Darüber hinaus können wir die Veröffentlichung des Codes des maschinellen Lernsystems RawNeRF (RAW Neural Radiance Fields) durch Google zur Kenntnis nehmen, das es ermöglicht, basierend auf Daten aus mehreren RAW-Bildern die Qualität von stark verrauschten Bildern zu verbessern, die im Dunkeln und in der Dunkelheit aufgenommen wurden Schlechtes Licht. Neben der Rauschunterdrückung ermöglichen die im Rahmen des Projekts entwickelten Tools eine Detailverbesserung, die Eliminierung von Blendung, die Synthese von HDR und die Änderung der Gesamtbeleuchtung in Fotos sowie die Wiederherstellung der dreidimensionalen Position von Objekten mithilfe mehrerer Fotos aus verschiedenen Winkeln. Verschieben Sie den Blickwinkel, manipulieren Sie den Fokus und erzeugen Sie bewegte Bilder.

Maschinelle Lernsysteme zur Bildsynthese und Rauschunterdrückung bei Nachtfotos
Maschinelle Lernsysteme zur Bildsynthese und Rauschunterdrückung bei Nachtfotos


Source: opennet.ru

Kommentar hinzufügen