EinfĂŒhrung des Videosynthesesystems „Stable Video Diffusion“.

Stability AI hat ein Machine-Learning-Modell namens Stable Video Diffusion veröffentlicht, das kurze Videos aus Bildern generieren kann. Das Modell erweitert die FĂ€higkeiten des Stable-Diffusion-Projekts, das bisher auf die Synthese statischer Bilder beschrĂ€nkt war. Der Code fĂŒr die Tools zum Trainieren des neuronalen Netzwerks und zur Bildgenerierung ist in Python unter Verwendung des PyTorch-Frameworks geschrieben und unter der MIT-Lizenz veröffentlicht. Bereits trainierte Modelle sind unter der freizĂŒgigen Creative ML OpenRAIL-M-Lizenz offen zugĂ€nglich, die eine kommerzielle Nutzung erlaubt.

Es stehen zwei Modelloptionen zum Download zur VerfĂŒgung: SVD (Stable Video Diffusion) zum Generieren von 14 Frames mit einer Auflösung von 576 x 1024 basierend auf einem bestimmten statischen Bild und SVD-XT zum Generieren von 25 Frames. Es ist möglich, Videos ohne Bewegung oder mit sehr langsamer Kameradrehung zu erstellen, die nicht lĂ€nger als 4 Sekunden dauern. Eine direkte Modellsteuerung basierend auf einer Textbeschreibung in natĂŒrlicher Sprache wird noch nicht unterstĂŒtzt, aber Sie können das Originalbild zunĂ€chst mit dem alten Stable Diffusion 2.1-Modell vorbereiten und es dann mit dem SVD-Modell in Video konvertieren.

Die VideoqualitÀt bietet noch keinen idealen Fotorealismus und garantiert keine korrekte Darstellung von Gesichtern und Personen. In Bezug auf die Leistung ist das vorgeschlagene offene Modell den proprietÀren Analoga von Runway und Pika Labs voraus. Das Modell kann leicht an die Lösung verschiedener Probleme angepasst werden, beispielsweise können daraus dreidimensionale Figuren geformt werden.

Video ansehen

DarĂŒber hinaus können wir die Veröffentlichung des Video-LLaVA-Toolkits fĂŒr maschinelles Lernen erwĂ€hnen, mit dem Sie eine einheitliche visuelle Darstellung eines Objekts erstellen können, die auf der gleichzeitigen Verwendung von Fotos und Videoaufzeichnungen von Objekten wĂ€hrend des Trainings basiert. Mit dem System kann beispielsweise das Vorhandensein gleicher Objekte in Bildern und Videos erkannt werden. Der Code ist in Python geschrieben und wird unter der Apache 2.0-Lizenz vertrieben.

Source: opennet.ru

Kaufen Sie zuverlĂ€ssiges Hosting fĂŒr Websites mit DDoS-Schutz und VPS-VDS-Servern đŸ”„ Kaufen Sie zuverlĂ€ssiges Webhosting mit DDoS-Schutz, VPS- und VDS-Server | ProHoster