NVIDIA โอเพ่นซอร์ส StyleGAN3 ซึ่งเป็นระบบการเรียนรู้ของเครื่องสำหรับการสังเคราะห์ใบหน้า

NVIDIA ได้เผยแพร่ซอร์สโค้ดสำหรับ StyleGAN3 ซึ่งเป็นระบบการเรียนรู้ของเครื่องที่ใช้โครงข่ายประสาทเทียมที่ขัดแย้งกัน (GAN) โดยมีวัตถุประสงค์เพื่อสังเคราะห์ภาพที่สมจริงของใบหน้าของผู้คน โค้ดนี้เขียนด้วยภาษา Python โดยใช้เฟรมเวิร์ก PyTorch และเผยแพร่ภายใต้ลิขสิทธิ์ซอร์สโค้ดของ NVIDIA ซึ่งกำหนดข้อจำกัดในการใช้งานเชิงพาณิชย์

โมเดลที่ผ่านการฝึกอบรมสำเร็จรูปที่ผ่านการฝึกอบรมในคอลเลกชัน Flickr-Faces-HQ (FFHQ) ซึ่งรวมถึงรูปภาพ PNG คุณภาพสูง (70x1024) ของผู้คนจำนวน 1024 ภาพ ก็พร้อมให้ดาวน์โหลดเช่นกัน นอกจากนี้ยังมีแบบจำลองที่สร้างขึ้นจากคอลเลกชัน AFHQv2 (ภาพถ่ายใบหน้าสัตว์) และ Metfaces (ภาพใบหน้าผู้คนจากภาพวาดคลาสสิก) การพัฒนามุ่งเน้นไปที่ใบหน้า แต่สามารถฝึกระบบให้สร้างวัตถุใดๆ ได้ เช่น ทิวทัศน์และรถยนต์ นอกจากนี้ยังมีเครื่องมือสำหรับการฝึกโครงข่ายประสาทเทียมด้วยตนเองโดยใช้คอลเลกชันรูปภาพของคุณเอง ต้องใช้กราฟิกการ์ด NVIDIA หนึ่งตัวขึ้นไป (แนะนำ Tesla V100 หรือ A100 GPU), RAM อย่างน้อย 12 GB, ชุดเครื่องมือ PyTorch 1.9 และ CUDA 11.1+ เพื่อตรวจสอบลักษณะเทียมของใบหน้าที่เกิดขึ้นจึงมีการพัฒนาเครื่องตรวจจับพิเศษ

ระบบช่วยให้คุณสามารถสังเคราะห์ภาพของใบหน้าใหม่โดยอาศัยการประมาณค่าคุณลักษณะของใบหน้าหลาย ๆ ใบหน้า ผสมผสานลักษณะเฉพาะของใบหน้าเหล่านั้น ตลอดจนการปรับภาพสุดท้ายให้เหมาะสมกับอายุ เพศ ความยาวผม ลักษณะรอยยิ้ม รูปร่างจมูก สีผิว แว่นตา และมุมถ่ายรูป เครื่องกำเนิดจะพิจารณารูปภาพว่าเป็นคอลเลกชันของสไตล์ แยกรายละเอียดลักษณะเฉพาะ (กระ, ผม, แว่นตา) ออกจากคุณลักษณะระดับสูงทั่วไป (ท่าทาง เพศ การเปลี่ยนแปลงอายุ) โดยอัตโนมัติ และช่วยให้คุณสามารถรวมรายละเอียดเหล่านั้นในรูปแบบใดก็ได้โดยคำนึงถึงความโดดเด่น คุณสมบัติผ่านสัมประสิทธิ์การถ่วงน้ำหนัก เป็นผลให้เกิดภาพที่แยกไม่ออกจากภาพถ่ายจริง

NVIDIA โอเพ่นซอร์ส StyleGAN3 ซึ่งเป็นระบบการเรียนรู้ของเครื่องสำหรับการสังเคราะห์ใบหน้า

เทคโนโลยี StyleGAN เวอร์ชันแรกเผยแพร่ในปี 2019 หลังจากนั้นมีการเสนอ StyleGAN2020 ฉบับปรับปรุงในปี 2 ซึ่งช่วยให้คุณภาพของภาพดีขึ้นและกำจัดจุดบกพร่องบางอย่าง ในขณะเดียวกัน ระบบก็ยังคงนิ่งอยู่ เช่น ไม่อนุญาตให้มีภาพเคลื่อนไหวและการเคลื่อนไหวใบหน้าที่สมจริง เมื่อพัฒนา StyleGAN3 เป้าหมายหลักคือการปรับเทคโนโลยีสำหรับการใช้งานในแอนิเมชั่นและวิดีโอ

StyleGAN3 ใช้สถาปัตยกรรมการสร้างภาพที่ออกแบบใหม่ ปราศจากนามแฝง และเสนอสถานการณ์การฝึกอบรมโครงข่ายประสาทเทียมแบบใหม่ ประกอบด้วยยูทิลิตี้ใหม่สำหรับการแสดงภาพเชิงโต้ตอบ (visualizer.py) การวิเคราะห์ (avg_spectra.py) และการสร้างวิดีโอ (gen_video.py) การใช้งานยังช่วยลดการใช้หน่วยความจำและเร่งกระบวนการเรียนรู้อีกด้วย

NVIDIA โอเพ่นซอร์ส StyleGAN3 ซึ่งเป็นระบบการเรียนรู้ของเครื่องสำหรับการสังเคราะห์ใบหน้า

คุณสมบัติที่สำคัญของสถาปัตยกรรม StyleGAN3 คือการเปลี่ยนไปใช้การตีความสัญญาณทั้งหมดในโครงข่ายประสาทเทียมในรูปแบบของกระบวนการต่อเนื่อง ซึ่งทำให้เมื่อสร้างชิ้นส่วน จะสามารถจัดการตำแหน่งสัมพัทธ์ที่ไม่เชื่อมโยงกับพิกัดสัมบูรณ์ของแต่ละพิกเซลใน รูปภาพ แต่จับจ้องไปที่พื้นผิวของวัตถุที่ปรากฎ ใน StyleGAN และ StyleGAN2 การเชื่อมโยงกับพิกเซลระหว่างการสร้างทำให้เกิดปัญหาระหว่างการเรนเดอร์แบบไดนามิก ตัวอย่างเช่น เมื่อรูปภาพเคลื่อนไหว มีรายละเอียดเล็กๆ น้อยๆ ที่ไม่ตรงกัน เช่น ริ้วรอยและเส้นขน ซึ่งดูเหมือนจะเคลื่อนไหวแยกจากส่วนอื่นๆ ของใบหน้า . ปัญหาเหล่านี้ได้รับการแก้ไขใน StyleGAN3 และเทคโนโลยีนี้ค่อนข้างเหมาะสำหรับการสร้างวิดีโอ

นอกจากนี้ เรายังสังเกตการประกาศการสร้างโดย NVIDIA และ Microsoft ของโมเดลภาษาที่ใหญ่ที่สุด MT-NLG ที่ใช้โครงข่ายประสาทเทียมระดับลึกพร้อมสถาปัตยกรรม "หม้อแปลง" โมเดลนี้ครอบคลุมพารามิเตอร์ 530 พันล้าน และใช้คลัสเตอร์ GPU 4480 ตัว (เซิร์ฟเวอร์ 560 DGX A100 พร้อม A8 100GB GPU 80 ตัวต่อตัว) ใช้สำหรับการฝึกอบรม การประยุกต์ใช้แบบจำลองนี้รวมถึงการแก้ปัญหาการประมวลผลภาษาธรรมชาติ เช่น การทำนายความสมบูรณ์ของประโยคที่ยังเขียนไม่เสร็จ การตอบคำถาม ความเข้าใจในการอ่าน การอนุมานในภาษาธรรมชาติ และการแยกความหมายของคำให้กระจ่าง

NVIDIA โอเพ่นซอร์ส StyleGAN3 ซึ่งเป็นระบบการเรียนรู้ของเครื่องสำหรับการสังเคราะห์ใบหน้า


ที่มา: opennet.ru

เพิ่มความคิดเห็น