🥇הוצגה מערכת סינתזה של וידאו דיפוזיה יציבה

Stability AI פרסמה מודל למידת מכונה בשם Stable Video Diffusion שיכול ליצור סרטונים קצרים מתמונות. המודל מרחיב את היכולות של פרויקט Stable Diffusion, שהוגבל בעבר לסינתזה של תמונות סטטיות. הקוד עבור הכלים לאימון רשתות עצביות ויצירת תמונות נכתב ב-Python באמצעות מסגרת PyTorch ומפורסם תחת רישיון MIT. דגמים שעברו הכשרה פתוחים תחת רישיון Creative ML OpenRAIL-M המתירני, המאפשר שימוש מסחרי.

קיימות שתי אפשרויות דגמים זמינות להורדה: SVD (Diffusion Video Stable) ליצירת 14 פריימים ברזולוציה של 576x1024 על סמך תמונה סטטית נתונה ו- SVD-XT ליצירת 25 פריימים. אפשר ליצור וידאו ללא תנועה או עם סיבוב מצלמה איטי מאוד, הנמשך לא יותר מ-4 שניות. בקרת מודל ישירה המבוססת על תיאור טקסט בשפה טבעית אינה נתמכת עדיין, אך תחילה תוכל להכין את התמונה המקורית באמצעות הדגם הישן של Stable Diffusion 2.1 ולאחר מכן להמיר אותה לווידאו באמצעות מודל SVD.

איכות וידאו עדיין לא מספקת פוטוריאליזם אידיאלי ועיבוד נכון מובטח של פרצופים ואנשים. מבחינת ביצועים, המודל הפתוח המוצע הוא לפני אנלוגים קנייניים של Runway ו-Pika Labs. ניתן להתאים את המודל בקלות לפתרון בעיות שונות, למשל, ניתן להשתמש בו ליצירת דמויות תלת מימדיות.

בנוסף, אנו יכולים לציין את הפרסום של ערכת הכלים ללימוד מכונה Video-LLaVA, המאפשרת לך ליצור ייצוג חזותי אחיד של אובייקט, שנוצר על בסיס שימוש בו זמנית בצילומים והקלטות וידאו של אובייקטים במהלך האימון. ניתן להשתמש במערכת, למשל, לזהות נוכחות של אותם אובייקטים בתמונות ובסרטונים. הקוד כתוב ב-Python ומופץ תחת רישיון Apache 2.0.

מקור: OpenNet.ru

מערכת סינתזת וידאו יציבה של Video Diffusion הוצגה

יורי גגרין