🥇Einführung des stabilen Videodiffusions-Videosynthesesystems

Stability AI hat ein Machine-Learning-Modell namens Stable Video Diffusion veröffentlicht, das kurze Videos aus Bildern generieren kann. Das Modell erweitert die Fähigkeiten des Stable-Diffusion-Projekts, das bisher auf die Synthese statischer Bilder beschränkt war. Der Code für die Tools zum Trainieren des neuronalen Netzwerks und zur Bildgenerierung ist in Python unter Verwendung des PyTorch-Frameworks geschrieben und unter der MIT-Lizenz veröffentlicht. Bereits trainierte Modelle sind unter der freizügigen Creative ML OpenRAIL-M-Lizenz offen zugänglich, die eine kommerzielle Nutzung erlaubt.

Es stehen zwei Modelloptionen zum Download zur Verfügung: SVD (Stable Video Diffusion) zum Generieren von 14 Frames mit einer Auflösung von 576 x 1024 basierend auf einem bestimmten statischen Bild und SVD-XT zum Generieren von 25 Frames. Es ist möglich, Videos ohne Bewegung oder mit sehr langsamer Kameradrehung zu erstellen, die nicht länger als 4 Sekunden dauern. Eine direkte Modellsteuerung basierend auf einer Textbeschreibung in natürlicher Sprache wird noch nicht unterstützt, aber Sie können das Originalbild zunächst mit dem alten Stable Diffusion 2.1-Modell vorbereiten und es dann mit dem SVD-Modell in Video konvertieren.

Die Videoqualität bietet noch keinen idealen Fotorealismus und garantiert keine korrekte Darstellung von Gesichtern und Personen. In Bezug auf die Leistung ist das vorgeschlagene offene Modell den proprietären Analoga von Runway und Pika Labs voraus. Das Modell kann leicht an die Lösung verschiedener Probleme angepasst werden, beispielsweise können daraus dreidimensionale Figuren geformt werden.

Darüber hinaus können wir die Veröffentlichung des Video-LLaVA-Toolkits für maschinelles Lernen erwähnen, mit dem Sie eine einheitliche visuelle Darstellung eines Objekts erstellen können, die auf der gleichzeitigen Verwendung von Fotos und Videoaufzeichnungen von Objekten während des Trainings basiert. Mit dem System kann beispielsweise das Vorhandensein gleicher Objekte in Bildern und Videos erkannt werden. Der Code ist in Python geschrieben und wird unter der Apache 2.0-Lizenz vertrieben.

Source: opennet.ru

Einführung des Videosynthesesystems „Stable Video Diffusion“.

Juri Gagarin