Stabiel Video Diffusion-videosynthesesysteem geïntroduceerd

Stability AI heeft een machine learning-model gepubliceerd genaamd Stable Video Diffusion, dat korte video's uit afbeeldingen kan genereren. Het model breidt de mogelijkheden van het Stable Diffusion-project uit, dat voorheen beperkt was tot het synthetiseren van statische afbeeldingen. De code voor de tools voor het trainen van het neurale netwerk en het genereren van afbeeldingen is geschreven in Python met behulp van het PyTorch-framework en gepubliceerd onder de MIT-licentie. Reeds getrainde modellen zijn openbaar onder de permissieve Creative ML OpenRAIL-M-licentie, die commercieel gebruik toestaat.

Er zijn twee varianten van het model beschikbaar om te downloaden: SVD (Stable Video Diffusion) voor het genereren van 14 frames met een resolutie van 576×1024 op basis van een gegeven statisch beeld, en SVD-XT voor het genereren van 25 frames. Het is mogelijk om video te genereren zonder beweging of met een zeer langzame camerarotatie, maximaal 4 seconden. Directe besturing van het model op basis van een tekstuele beschrijving in natuurlijke taal wordt nog niet ondersteund, maar het is mogelijk om eerst het originele beeld te bewerken met het oude Stable Diffusion 2.1-model en dit vervolgens om te zetten naar video met het SVD-model.

De videokwaliteit biedt nog geen ideaal fotorealisme en garandeert geen correcte weergave van gezichten en personen. Qua prestaties loopt het voorgestelde open model voor op de gepatenteerde analogen van Runway en Pika Labs. Het model kan eenvoudig worden aangepast om diverse problemen op te lossen, bijvoorbeeld voor het vormen van volumetrische figuren.

Speel video

Daarnaast is de publicatie van de Video-LLaVA machine learning toolkit het vermelden waard. Deze maakt het mogelijk om één visuele representatie van een object te creëren, gebaseerd op zowel foto's als video-opnamen van objecten tijdens de training. Het systeem kan bijvoorbeeld worden gebruikt om de aanwezigheid van dezelfde objecten in afbeeldingen en video's te herkennen. De code is geschreven in Python en wordt gedistribueerd onder de Apache 2.0-licentie.

Bron: opennet.ru

Koop betrouwbare hosting voor sites met DDoS-bescherming, VPS VDS-servers 🔥 Koop betrouwbare websitehosting met DDoS-bescherming, VPS- en VDS-servers | ProHoster