เปิดตัวระบบการสังเคราะห์รูปภาพ Stable Diffusion 2.0

Stability AI ได้เผยแพร่รุ่นที่สองของระบบแมชชีนเลิร์นนิง Stable Diffusion ซึ่งสามารถสังเคราะห์และแก้ไขรูปภาพตามรูปแบบที่แนะนำหรือคำอธิบายข้อความภาษาธรรมชาติ โค้ดของเครื่องมือสำหรับการฝึกอบรมโครงข่ายประสาทเทียมและการสร้างอิมเมจเขียนด้วย Python โดยใช้เฟรมเวิร์ก PyTorch และเผยแพร่ภายใต้ใบอนุญาต MIT โมเดลที่ผ่านการฝึกอบรมแล้วเปิดอยู่ภายใต้ใบอนุญาต Creative ML OpenRAIL-M ซึ่งอนุญาตให้ใช้ในเชิงพาณิชย์ได้ นอกจากนี้ ยังมีโปรแกรมสร้างรูปภาพสาธิตออนไลน์ให้ใช้งานอีกด้วย

การปรับปรุงที่สำคัญใน Stable Diffusion รุ่นใหม่:

  • โมเดลใหม่สำหรับการสังเคราะห์รูปภาพตามคำอธิบายข้อความ — SD2.0-v — ถูกสร้างขึ้น ซึ่งรองรับการสร้างรูปภาพที่มีความละเอียด 768×768 โมเดลใหม่นี้ได้รับการฝึกฝนโดยใช้คอลเลกชัน LAION-5B จำนวน 5.85 พันล้านภาพพร้อมคำอธิบายข้อความ โมเดลนี้ใช้ชุดพารามิเตอร์เดียวกันกับโมเดล Stable Diffusion 1.5 แต่ต่างกันที่การเปลี่ยนไปใช้ตัวเข้ารหัส OpenCLIP-ViT/H ที่แตกต่างกันโดยพื้นฐาน ซึ่งทำให้สามารถปรับปรุงคุณภาพของภาพที่ได้อย่างมีนัยสำคัญ
    เปิดตัวระบบการสังเคราะห์รูปภาพ Stable Diffusion 2.0
  • มีการเตรียม SD2.0-base เวอร์ชันที่เรียบง่าย ฝึกฝนบนภาพขนาด 256×256 โดยใช้แบบจำลองการทำนายสัญญาณรบกวนแบบคลาสสิก และรองรับการสร้างภาพด้วยความละเอียด 512×512
    เปิดตัวระบบการสังเคราะห์รูปภาพ Stable Diffusion 2.0
  • ความเป็นไปได้ในการใช้เทคโนโลยีการสุ่มตัวอย่างแบบพิเศษ (Super Resolution) มีไว้เพื่อเพิ่มความละเอียดของภาพต้นฉบับโดยไม่ลดคุณภาพโดยใช้อัลกอริทึมสำหรับการปรับขนาดเชิงพื้นที่และการสร้างรายละเอียดใหม่ โมเดลการประมวลผลภาพที่ให้มา (ตัวอัปสเกล SD20) รองรับการอัปสเกล 2048 เท่า ซึ่งสามารถสร้างภาพที่มีความละเอียด 2048×XNUMX
    เปิดตัวระบบการสังเคราะห์รูปภาพ Stable Diffusion 2.0
  • มีการเสนอแบบจำลอง SD2.0-ความลึก2img ซึ่งคำนึงถึงความลึกและการจัดเรียงเชิงพื้นที่ของวัตถุ ระบบ MiDaS ใช้สำหรับการประเมินความลึกด้วยตาข้างเดียว โมเดลช่วยให้คุณสามารถสังเคราะห์ภาพใหม่โดยใช้ภาพอื่นเป็นแม่แบบ ซึ่งอาจแตกต่างจากต้นฉบับอย่างสิ้นเชิง แต่คงองค์ประกอบโดยรวมและความลึกไว้ ตัวอย่างเช่น คุณสามารถใช้ท่าทางของบุคคลในรูปภาพเพื่อสร้างตัวละครอื่นในท่าทางเดียวกันได้
    เปิดตัวระบบการสังเคราะห์รูปภาพ Stable Diffusion 2.0
    เปิดตัวระบบการสังเคราะห์รูปภาพ Stable Diffusion 2.0
    เปิดตัวระบบการสังเคราะห์รูปภาพ Stable Diffusion 2.0
  • โมเดลสำหรับการแก้ไขรูปภาพได้รับการอัปเดต - SD 2.0-inpainting ซึ่งช่วยให้คุณแทนที่และเปลี่ยนส่วนต่างๆ ของรูปภาพโดยใช้ข้อความแจ้ง
    เปิดตัวระบบการสังเคราะห์รูปภาพ Stable Diffusion 2.0
  • โมเดลต่างๆ ได้รับการปรับให้เหมาะกับการใช้งานบนระบบทั่วไปด้วย GPU ตัวเดียว

เปิดตัวระบบการสังเคราะห์รูปภาพ Stable Diffusion 2.0


ที่มา: opennet.ru

เพิ่มความคิดเห็น