Stability AI ได้เผยแพร่โมเดลการเรียนรู้ของเครื่อง Stable Video Diffusion ซึ่งสามารถสร้างวิดีโอสั้นๆ จากรูปภาพได้ โมเดลนี้ขยายขีดความสามารถของโครงการ Stable Diffusion ซึ่งก่อนหน้านี้จำกัดอยู่เพียงการสังเคราะห์ภาพนิ่ง โค้ดสำหรับเครื่องมือฝึกอบรมเครือข่ายประสาทเทียมและเครื่องมือสร้างรูปภาพเขียนด้วยภาษา Python โดยใช้เฟรมเวิร์ก PyTorch และเผยแพร่ภายใต้ใบอนุญาต MIT โมเดลที่ฝึกอบรมแล้วเป็นโอเพนซอร์สภายใต้ใบอนุญาต Creative ML OpenRAIL-M ซึ่งอนุญาตให้ใช้ในเชิงพาณิชย์ได้
มีโมเดลสองแบบให้ดาวน์โหลด ได้แก่ SVD (Stable Video Diffusion) ซึ่งสร้างเฟรมภาพ 14 เฟรมที่ความละเอียด 576×1024 พิกเซล จากภาพนิ่งที่กำหนด และ SVD-XT ซึ่งสร้างเฟรมภาพ 25 เฟรม สามารถสร้างวิดีโอได้แบบนิ่งๆ หรือหมุนกล้องช้าๆ ไม่เกิน 4 วินาที ยังไม่รองรับการควบคุมโมเดลโดยตรงโดยใช้ข้อความภาษาธรรมชาติ แต่สามารถเตรียมภาพต้นฉบับโดยใช้โมเดล Stable Diffusion 2.1 เวอร์ชันเก่าก่อน แล้วจึงแปลงเป็นวิดีโอโดยใช้โมเดล SVD
คุณภาพวิดีโอยังไม่สามารถให้ภาพสมจริงที่สมบูรณ์แบบหรือรับประกันความแม่นยำในการเรนเดอร์ใบหน้าและบุคคลได้ ในแง่ของประสิทธิภาพ โมเดลโอเพนซอร์สที่นำเสนอมีประสิทธิภาพเหนือกว่าโมเดลแอนะล็อกที่เป็นกรรมสิทธิ์ของ Runway และ Pika Labs โมเดลนี้สามารถปรับให้เหมาะกับงานต่างๆ ได้อย่างง่ายดาย เช่น การสร้างรูปสามมิติ

อีกหนึ่งสิ่งที่น่าสังเกตคือการเปิดตัวชุดเครื่องมือการเรียนรู้ของเครื่อง Video-LLaVA ซึ่งช่วยให้สามารถสร้างภาพจำลองวัตถุแบบรวมศูนย์ได้ โดยใช้ทั้งภาพถ่ายและวิดีโอที่บันทึกระหว่างการฝึก ระบบนี้สามารถใช้เพื่อตรวจจับวัตถุเดียวกันในภาพและวิดีโอได้ โค้ดนี้เขียนด้วยภาษา Python และเผยแพร่ภายใต้ใบอนุญาต Apache 2.0
ที่มา: opennet.ru
