HyperStyle - การปรับระบบการเรียนรู้ของเครื่อง StyleGAN สำหรับการแก้ไขภาพ

ทีมนักวิจัยจากมหาวิทยาลัยเทลอาวีฟนำเสนอ HyperStyle ซึ่งเป็นระบบการเรียนรู้ของเครื่อง StyleGAN2 ของ NVIDIA เวอร์ชันกลับหัว ซึ่งได้รับการออกแบบใหม่เพื่อสร้างส่วนที่ขาดหายไปขึ้นมาใหม่เมื่อทำการแก้ไขภาพจริง โค้ดนี้เขียนด้วยภาษา Python โดยใช้เฟรมเวิร์ก PyTorch และเผยแพร่ภายใต้ใบอนุญาต MIT

หาก StyleGAN ช่วยให้คุณสามารถสังเคราะห์ใบหน้าใหม่ของผู้คนที่ดูสมจริงโดยการระบุพารามิเตอร์ เช่น อายุ เพศ ความยาวผม ลักษณะรอยยิ้ม รูปร่างจมูก สีผิว แว่นตา และมุมภาพถ่าย HyperStyle จะทำให้สามารถเปลี่ยนพารามิเตอร์ที่คล้ายกันในที่มีอยู่ได้ ภาพถ่ายโดยไม่เปลี่ยนลักษณะเฉพาะในขณะที่ยังคงจดจำใบหน้าดั้งเดิมได้ ตัวอย่างเช่น การใช้ HyperStyle คุณสามารถจำลองการเปลี่ยนแปลงอายุของบุคคลในภาพถ่าย เปลี่ยนทรงผม เพิ่มแว่นตา หนวดเคราหรือหนวด ทำให้ภาพดูเหมือนตัวการ์ตูนหรือภาพวาดที่วาดด้วยมือ ทำ การแสดงออกทางสีหน้าเศร้าหรือร่าเริง นอกจากนี้ ระบบยังสามารถฝึกได้ไม่เพียงแค่เปลี่ยนใบหน้าของผู้คนเท่านั้น แต่ยังฝึกสำหรับวัตถุต่างๆ เช่น แก้ไขรูปภาพรถยนต์อีกด้วย

HyperStyle - การปรับระบบการเรียนรู้ของเครื่อง StyleGAN สำหรับการแก้ไขภาพ

วิธีการที่นำเสนอนี้มีวัตถุประสงค์เพื่อแก้ไขปัญหาการสร้างส่วนที่ขาดหายไปของรูปภาพขึ้นมาใหม่ระหว่างการแก้ไข ในวิธีการที่เสนอไว้ก่อนหน้านี้ การแลกเปลี่ยนระหว่างการสร้างใหม่และความสามารถในการแก้ไขได้รับการแก้ไขโดยการปรับแต่งตัวสร้างภาพอย่างละเอียดเพื่อทดแทนส่วนของภาพเป้าหมายเมื่อสร้างขอบเขตที่สามารถแก้ไขได้ในตอนแรกที่ขาดหายไป ข้อเสียของวิธีการดังกล่าวคือความจำเป็นในการฝึกอบรมโครงข่ายประสาทเทียมแบบกำหนดเป้าหมายระยะยาวสำหรับแต่ละภาพ

วิธีการที่ใช้อัลกอริธึม StyleGAN ช่วยให้สามารถใช้โมเดลมาตรฐานที่ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับคอลเลกชั่นรูปภาพทั่วไป เพื่อสร้างองค์ประกอบที่มีลักษณะเฉพาะของรูปภาพต้นฉบับด้วยระดับความน่าเชื่อถือที่เทียบได้กับอัลกอริธึมที่ต้องมีการฝึกโมเดลสำหรับแต่ละบุคคล ภาพ. ข้อดีอีกประการของวิธีการใหม่นี้คือความสามารถในการแก้ไขภาพด้วยประสิทธิภาพที่ใกล้เคียงกับเรียลไทม์

HyperStyle - การปรับระบบการเรียนรู้ของเครื่อง StyleGAN สำหรับการแก้ไขภาพ

โมเดลที่ผ่านการฝึกอบรมสำเร็จรูปเตรียมไว้สำหรับใบหน้าของผู้คน รถยนต์ และสัตว์ต่างๆ ตามคอลเลกชัน Flickr-Faces-HQ (FFHQ, ภาพ PNG คุณภาพสูง 70 ภาพใบหน้าของผู้คน), Stanford Cars (รถยนต์ 16 รูป) และ AFHQ (ภาพถ่ายสัตว์) นอกจากนี้ ยังมีเครื่องมือสำหรับการฝึกโมเดลของคุณ เช่นเดียวกับโมเดลสำเร็จรูปที่ผ่านการฝึกอบรมของตัวเข้ารหัสและเครื่องกำเนิดไฟฟ้ามาตรฐานที่เหมาะสำหรับใช้กับโมเดลเหล่านั้น ตัวอย่างเช่น มีเครื่องปั่นไฟสำหรับสร้างรูปภาพสไตล์ Toonify ตัวละครจาก Pixar การสร้างภาพร่าง และแม้กระทั่งการตกแต่งสไตล์เจ้าหญิงจากการ์ตูนดิสนีย์

HyperStyle - การปรับระบบการเรียนรู้ของเครื่อง StyleGAN สำหรับการแก้ไขภาพ
HyperStyle - การปรับระบบการเรียนรู้ของเครื่อง StyleGAN สำหรับการแก้ไขภาพ
HyperStyle - การปรับระบบการเรียนรู้ของเครื่อง StyleGAN สำหรับการแก้ไขภาพ
HyperStyle - การปรับระบบการเรียนรู้ของเครื่อง StyleGAN สำหรับการแก้ไขภาพ


ที่มา: opennet.ru

เพิ่มความคิดเห็น