การใช้ระบบการเรียนรู้ของเครื่องสำหรับการสังเคราะห์ภาพตามคำอธิบายข้อความ

การใช้งานระบบการเรียนรู้ของเครื่อง DALL-E 2 แบบเปิดซึ่งเสนอโดย OpenAI ได้รับการเผยแพร่แล้ว และช่วยให้คุณสามารถสังเคราะห์ภาพและภาพวาดที่สมจริงตามคำอธิบายข้อความในภาษาธรรมชาติ รวมถึงใช้คำสั่งในภาษาธรรมชาติเพื่อแก้ไขภาพ ( เช่น เพิ่ม ลบ หรือย้ายวัตถุในภาพ ) โมเดล DALL-E 2 ดั้งเดิมของ OpenAI ไม่ได้รับการเผยแพร่ แต่มีรายงานที่ให้รายละเอียดเกี่ยวกับวิธีการ ตามคำอธิบายที่มีอยู่ นักวิจัยอิสระได้เตรียมการนำไปใช้ทางเลือกอื่นที่เขียนด้วยภาษา Python โดยใช้กรอบงาน Pytorch และเผยแพร่ภายใต้ใบอนุญาต MIT

การใช้ระบบการเรียนรู้ของเครื่องสำหรับการสังเคราะห์ภาพตามคำอธิบายข้อความการใช้ระบบการเรียนรู้ของเครื่องสำหรับการสังเคราะห์ภาพตามคำอธิบายข้อความ

เมื่อเปรียบเทียบกับการใช้งาน DALL-E รุ่นแรกที่เผยแพร่ก่อนหน้านี้ เวอร์ชันใหม่ให้การจับคู่รูปภาพกับคำอธิบายที่แม่นยำยิ่งขึ้น ช่วยให้มีความสมจริงตามแสงมากขึ้น และทำให้สามารถสร้างภาพที่มีความละเอียดสูงขึ้นได้ ระบบต้องใช้ทรัพยากรจำนวนมากในการฝึกโมเดล ตัวอย่างเช่น การฝึกเวอร์ชันดั้งเดิมของ DALL-E 2 ต้องใช้เวลาประมวลผลบน GPU 100-200 ชั่วโมง กล่าวคือ การคำนวณประมาณ 2-4 สัปดาห์ด้วย GPU NVIDIA Tesla V256 จำนวน 100 ตัว

การใช้ระบบการเรียนรู้ของเครื่องสำหรับการสังเคราะห์ภาพตามคำอธิบายข้อความ

ผู้เขียนคนเดียวกันยังได้เริ่มพัฒนาเวอร์ชันขยาย - วิดีโอ DALLE2 ซึ่งมุ่งเป้าไปที่การสังเคราะห์วิดีโอจากคำอธิบายข้อความ แยกกันเราสามารถสังเกตโครงการ ru-dalle ที่พัฒนาโดย Sberbank โดยมีการใช้งาน DALL-E รุ่นแรกแบบเปิดซึ่งดัดแปลงเพื่อจดจำคำอธิบายในภาษารัสเซีย

ที่มา: opennet.ru

เพิ่มความคิดเห็น