Stability AI opublikował model uczenia maszynowego o nazwie Stable Video Diffusion, który może generować krótkie filmy z obrazów. Model ten rozszerza możliwości projektu Stable Diffusion, który wcześniej był ograniczony do syntezy statycznych obrazów. Kod narzędzi do trenowania sieci neuronowej i generowania obrazów jest napisany w Pythonie przy użyciu struktury PyTorch i opublikowany na licencji MIT. Już wytrenowane modele są otwarte na podstawie liberalnej licencji Creative ML OpenRAIL-M, która zezwala na komercyjne wykorzystanie.
Do pobrania dostępne są dwa warianty modelu: SVD (Stable Video Diffusion) do generowania 14 klatek o rozdzielczości 576x1024 z danego statycznego obrazu oraz SVD-XT do generowania 25 klatek. Możliwe jest generowanie wideo bez ruchu lub z bardzo wolnym obrotem kamery, trwającym nie dłużej niż 4 sekundy. Bezpośrednie sterowanie modelem na podstawie opisu tekstowego w języku naturalnym nie jest jeszcze obsługiwane, ale można najpierw przygotować obraz źródłowy za pomocą starszego modelu Stable Diffusion 2.1, a następnie przekonwertować go na wideo za pomocą modelu SVD.
Jakość wideo nie zapewnia jeszcze idealnego fotorealizmu i prawidłowego odwzorowania twarzy i osób. Pod względem wydajności proponowany otwarty model wyprzedza zastrzeżone analogi firm Runway i Pika Labs. Model ten można łatwo dostosować do rozwiązywania różnych problemów, można go na przykład wykorzystać do tworzenia figur trójwymiarowych.

Dodatkowo warto zwrócić uwagę na opublikowanie zestawu narzędzi do uczenia maszynowego Video-LLaVA, który umożliwia stworzenie pojedynczej reprezentacji wizualnej obiektu, utworzonej na podstawie wykorzystania podczas treningu zarówno fotografii, jak i nagrań wideo obiektów. System ten można wykorzystać na przykład do rozpoznawania obecności tych samych obiektów na zdjęciach i filmach. Kod napisano w języku Python i rozpowszechniano na podstawie licencji Apache 2.0.
Źródło: opennet.ru
