เปิดตัวระบบการสังเคราะห์วิดีโอแบบกระจายวิดีโอที่เสถียร

Stability AI ได้เผยแพร่โมเดลการเรียนรู้ของเครื่อง Stable Video Diffusion ซึ่งสามารถสร้างวิดีโอสั้นๆ จากรูปภาพได้ โมเดลนี้ขยายขีดความสามารถของโครงการ Stable Diffusion ซึ่งก่อนหน้านี้จำกัดอยู่เพียงการสังเคราะห์ภาพนิ่ง โค้ดสำหรับเครื่องมือฝึกอบรมเครือข่ายประสาทเทียมและเครื่องมือสร้างรูปภาพเขียนด้วยภาษา Python โดยใช้เฟรมเวิร์ก PyTorch และเผยแพร่ภายใต้ใบอนุญาต MIT โมเดลที่ฝึกอบรมแล้วเป็นโอเพนซอร์สภายใต้ใบอนุญาต Creative ML OpenRAIL-M ซึ่งอนุญาตให้ใช้ในเชิงพาณิชย์ได้

มีโมเดลสองแบบให้ดาวน์โหลด ได้แก่ SVD (Stable Video Diffusion) ซึ่งสร้างเฟรมภาพ 14 เฟรมที่ความละเอียด 576×1024 พิกเซล จากภาพนิ่งที่กำหนด และ SVD-XT ซึ่งสร้างเฟรมภาพ 25 เฟรม สามารถสร้างวิดีโอได้แบบนิ่งๆ หรือหมุนกล้องช้าๆ ไม่เกิน 4 วินาที ยังไม่รองรับการควบคุมโมเดลโดยตรงโดยใช้ข้อความภาษาธรรมชาติ แต่สามารถเตรียมภาพต้นฉบับโดยใช้โมเดล Stable Diffusion 2.1 เวอร์ชันเก่าก่อน แล้วจึงแปลงเป็นวิดีโอโดยใช้โมเดล SVD

คุณภาพวิดีโอยังไม่สามารถให้ภาพสมจริงที่สมบูรณ์แบบหรือรับประกันความแม่นยำในการเรนเดอร์ใบหน้าและบุคคลได้ ในแง่ของประสิทธิภาพ โมเดลโอเพนซอร์สที่นำเสนอมีประสิทธิภาพเหนือกว่าโมเดลแอนะล็อกที่เป็นกรรมสิทธิ์ของ Runway และ Pika Labs โมเดลนี้สามารถปรับให้เหมาะกับงานต่างๆ ได้อย่างง่ายดาย เช่น การสร้างรูปสามมิติ

เล่นวิดีโอ

อีกหนึ่งสิ่งที่น่าสังเกตคือการเปิดตัวชุดเครื่องมือการเรียนรู้ของเครื่อง Video-LLaVA ซึ่งช่วยให้สามารถสร้างภาพจำลองวัตถุแบบรวมศูนย์ได้ โดยใช้ทั้งภาพถ่ายและวิดีโอที่บันทึกระหว่างการฝึก ระบบนี้สามารถใช้เพื่อตรวจจับวัตถุเดียวกันในภาพและวิดีโอได้ โค้ดนี้เขียนด้วยภาษา Python และเผยแพร่ภายใต้ใบอนุญาต Apache 2.0

ที่มา: opennet.ru

ซื้อโฮสติ้งที่เชื่อถือได้สำหรับไซต์ที่มีการป้องกัน DDoS เซิร์ฟเวอร์ VPS VDS 🔥 ซื้อบริการเว็บโฮสติ้งที่เชื่อถือได้ พร้อมระบบป้องกัน DDoS และเซิร์ฟเวอร์ VPS/VDS | ProHoster