Stability AI đã xuất bản một mô hình học máy có tên là Stable Video Diffusion có thể tạo ra các video ngắn từ hình ảnh. Mô hình này mở rộng khả năng của dự án Khuếch tán ổn định, trước đây chỉ giới hạn ở việc tổng hợp các hình ảnh tĩnh. Mã cho các công cụ tạo hình ảnh và đào tạo mạng thần kinh được viết bằng Python sử dụng khung PyTorch và được xuất bản theo giấy phép MIT. Các mô hình đã được đào tạo sẽ được mở theo giấy phép Creative ML OpenRAIL-M cho phép, cho phép sử dụng thương mại.
Có hai tùy chọn mô hình có sẵn để tải xuống: SVD (Khuếch tán video ổn định) để tạo 14 khung hình với độ phân giải 576x1024 dựa trên hình ảnh tĩnh nhất định và SVD-XT để tạo 25 khung hình. Có thể tạo video mà không cần chuyển động hoặc quay camera rất chậm, kéo dài không quá 4 giây. Điều khiển mô hình trực tiếp dựa trên mô tả văn bản bằng ngôn ngữ tự nhiên chưa được hỗ trợ, nhưng trước tiên bạn có thể chuẩn bị hình ảnh gốc bằng mô hình Stable Diffusion 2.1 cũ, sau đó chuyển đổi nó thành video bằng mô hình SVD.
Chất lượng video chưa mang lại tính chân thực lý tưởng và đảm bảo hiển thị chính xác khuôn mặt và con người. Về hiệu suất, mô hình mở được đề xuất vượt trội so với các mô hình tương tự độc quyền của Runway và Pika Labs. Mô hình này có thể dễ dàng điều chỉnh để giải quyết các vấn đề khác nhau, ví dụ, nó có thể được sử dụng để tạo thành các hình ba chiều.

Ngoài ra, chúng tôi có thể lưu ý việc xuất bản bộ công cụ học máy Video-LLaVA, cho phép bạn tạo một biểu diễn trực quan thống nhất của một đối tượng, được hình thành dựa trên việc sử dụng đồng thời các bức ảnh và bản ghi video về các đối tượng trong quá trình đào tạo. Ví dụ, hệ thống có thể được sử dụng để nhận biết sự hiện diện của các đối tượng giống nhau trong hình ảnh và video. Mã được viết bằng Python và được phân phối theo giấy phép Apache 2.0.
Nguồn: opennet.ru
