การใช้ AI เพื่อบีบอัดรูปภาพ

การใช้ AI เพื่อบีบอัดรูปภาพ
อัลกอริทึมที่ขับเคลื่อนด้วยข้อมูลเช่นโครงข่ายประสาทเทียมได้ทำให้โลกต้องตกตะลึง การพัฒนาของพวกเขาเกิดจากหลายสาเหตุ รวมถึงอุปกรณ์ราคาถูกและทรงพลังและข้อมูลจำนวนมหาศาล ปัจจุบันโครงข่ายประสาทเทียมอยู่ในระดับแนวหน้าของทุกสิ่งที่เกี่ยวข้องกับงาน "การรับรู้" เช่น การจดจำภาพ การเข้าใจภาษาธรรมชาติ เป็นต้น แต่ไม่ควรจำกัดเฉพาะงานดังกล่าว บทความนี้กล่าวถึงวิธีบีบอัดรูปภาพโดยใช้โครงข่ายประสาทเทียม โดยใช้การเรียนรู้ที่เหลือ วิธีการที่นำเสนอในบทความนั้นเร็วกว่าและดีกว่าตัวแปลงสัญญาณมาตรฐาน แบบแผน สมการ และแน่นอน ตารางที่มีการทดสอบภายใต้การตัด

บทความนี้อ้างอิงจาก นี้ งาน. สันนิษฐานว่าคุณคุ้นเคยกับโครงข่ายประสาทเทียมและแนวคิดของมัน บิด и ฟังก์ชันการสูญเสีย.

การบีบอัดภาพคืออะไรและทำงานอย่างไร

การบีบอัดรูปภาพเป็นกระบวนการแปลงรูปภาพเพื่อให้ใช้พื้นที่น้อยลง การจัดเก็บรูปภาพเพียงอย่างเดียวจะใช้พื้นที่มาก ซึ่งเป็นเหตุผลว่าทำไมจึงมีตัวแปลงสัญญาณ เช่น JPEG และ PNG ที่ต้องการลดขนาดของรูปภาพต้นฉบับ

ดังที่คุณทราบ การบีบอัดภาพมีสองประเภท: ไม่มีการสูญเสีย и กับความสูญเสีย. ตามชื่อที่แนะนำ การบีบอัดแบบไม่สูญเสียสามารถรักษาข้อมูลภาพต้นฉบับไว้ได้ ในขณะที่การบีบอัดแบบสูญเสียข้อมูลจะสูญเสียข้อมูลบางส่วนระหว่างการบีบอัด ตัวอย่างเช่น JPG เป็นอัลกอริทึมที่สูญเสีย [ประมาณ แปล - โดยพื้นฐานแล้วอย่าลืมเกี่ยวกับ JPEG ที่ไม่มีการสูญเสีย] และ PNG เป็นอัลกอริทึมที่ไม่สูญเสียข้อมูล

การใช้ AI เพื่อบีบอัดรูปภาพ
การเปรียบเทียบการบีบอัดแบบ Lossless และ Lossy

สังเกตว่ามีสิ่งประดิษฐ์ที่เป็นบล็อกจำนวนมากในภาพทางด้านขวา นี่คือข้อมูลที่สูญหาย พิกเซลข้างเคียงที่มีสีใกล้เคียงกันจะถูกบีบอัดเป็นพื้นที่เดียวเพื่อประหยัดพื้นที่ แต่ข้อมูลเกี่ยวกับพิกเซลจริงจะสูญหายไป แน่นอนว่าอัลกอริทึมที่ใช้ในตัวแปลงสัญญาณ JPEG, PNG และอื่น ๆ นั้นซับซ้อนกว่ามาก แต่นี่เป็นตัวอย่างที่ดีของการบีบอัดแบบสูญเสียข้อมูล การบีบอัดแบบไม่สูญเสียข้อมูลเป็นสิ่งที่ดี แต่ไฟล์ที่บีบอัดแบบไม่สูญเสียข้อมูลจะใช้พื้นที่ดิสก์มาก มีวิธีที่ดีกว่าในการบีบอัดภาพโดยไม่สูญเสียข้อมูลจำนวนมาก แต่เป็นวิธีที่ค่อนข้างช้าและหลายวิธีใช้ซ้ำๆ ซึ่งหมายความว่าไม่สามารถทำงานแบบขนานบน CPU หรือ GPU หลายคอร์ได้ ข้อจำกัดนี้ทำให้ใช้งานในชีวิตประจำวันไม่ได้โดยสิ้นเชิง

อินพุตเครือข่ายประสาท Convolutional

หากจำเป็นต้องคำนวณบางอย่างและสามารถคำนวณได้โดยประมาณ ให้เพิ่ม โครงข่ายประสาทเทียม. ผู้เขียนใช้โครงข่ายประสาทเทียมที่ได้มาตรฐานพอสมควรเพื่อปรับปรุงการบีบอัดภาพ วิธีการที่นำเสนอไม่เพียงแต่ทำงานได้เทียบเท่ากับโซลูชันที่ดีที่สุด (หากไม่ดีกว่า) แต่ยังสามารถใช้การประมวลผลแบบขนาน ซึ่งนำไปสู่การเพิ่มความเร็วอย่างมาก เหตุผลก็คือ Convolutional Neural Networks (CNN) นั้นดีมากในการดึงข้อมูลเชิงพื้นที่จากรูปภาพ ซึ่งจากนั้นจะแสดงในรูปแบบที่กะทัดรัดมากขึ้น (เช่น จะรักษาเฉพาะบิต "สำคัญ" ของรูปภาพเท่านั้น) ผู้เขียนต้องการใช้ความสามารถของ CNN เพื่อแสดงภาพให้ดียิ่งขึ้น

สถาปัตยกรรม

ผู้เขียนเสนอเครือข่ายคู่ เครือข่ายแรกรับภาพเป็นอินพุตและสร้างการเป็นตัวแทนแบบกะทัดรัด (ComCNN) เอาต์พุตของเครือข่ายนี้จะถูกประมวลผลด้วยตัวแปลงสัญญาณมาตรฐาน (เช่น JPEG) หลังจากประมวลผลโดยตัวแปลงสัญญาณ รูปภาพจะถูกส่งผ่านไปยังเครือข่ายที่สอง ซึ่งจะ "แก้ไข" รูปภาพจากตัวแปลงสัญญาณเพื่อพยายามส่งคืนรูปภาพต้นฉบับ ผู้เขียนตั้งชื่อเครือข่ายนี้ว่า RecCNN (RecCNN) เช่นเดียวกับ GAN ทั้งสองเครือข่ายได้รับการฝึกฝนซ้ำๆ

การใช้ AI เพื่อบีบอัดรูปภาพ
การเป็นตัวแทน ComCNN Compact จะถูกส่งต่อไปยังตัวแปลงสัญญาณมาตรฐาน

การใช้ AI เพื่อบีบอัดรูปภาพ
เรคซีเอ็นเอ็น. เอาต์พุต ComCNN ได้รับการปรับขนาดและป้อนไปยัง RecCNN ซึ่งจะพยายามเรียนรู้ส่วนที่เหลือ

เอาต์พุตตัวแปลงสัญญาณถูกขยายขนาดแล้วส่งไปยัง RecCNN RecCNN จะพยายามแสดงภาพให้ใกล้เคียงกับต้นฉบับมากที่สุด

การใช้ AI เพื่อบีบอัดรูปภาพ
กรอบการบีบอัดภาพแบบ end-to-end Co(.) เป็นอัลกอริธึมการบีบอัดภาพ ผู้เขียนใช้ JPEG, JPEG2000 และ BPG

เศษเหลือคืออะไร?

ส่วนที่เหลืออาจถือเป็นขั้นตอนหลังการประมวลผลเพื่อ "ปรับปรุง" ภาพที่ถูกถอดรหัสโดยตัวแปลงสัญญาณ การมี "ข้อมูล" มากมายเกี่ยวกับโลก โครงข่ายประสาทเทียมสามารถตัดสินใจด้วยความรู้ความเข้าใจเกี่ยวกับสิ่งที่ต้องแก้ไข แนวคิดนี้มีพื้นฐานมาจาก การเรียนรู้ที่เหลืออ่านรายละเอียดเกี่ยวกับสิ่งที่คุณสามารถทำได้ ที่นี่.

ฟังก์ชั่นการสูญเสีย

มีการใช้ฟังก์ชันการสูญเสียสองรายการเนื่องจากเรามีโครงข่ายประสาทเทียมสองเครือข่าย ComCNN อันแรกมีชื่อว่า L1 และถูกกำหนดดังนี้:

การใช้ AI เพื่อบีบอัดรูปภาพ
สูญเสียฟังก์ชันสำหรับ ComCNN

คำอธิบาย

สมการนี้อาจดูซับซ้อน แต่จริง ๆ แล้วเป็นสมการมาตรฐาน (ข้อผิดพลาดรูทค่าเฉลี่ยกำลังสอง) MSE. ||² หมายถึงบรรทัดฐานของเวกเตอร์ที่ล้อมรอบ

การใช้ AI เพื่อบีบอัดรูปภาพ
สมการ 1.1

Cr หมายถึงเอาต์พุตของ ComCNN θ หมายถึงความสามารถในการเรียนรู้ของพารามิเตอร์ ComCNN ส่วน XK คืออิมเมจอินพุต

การใช้ AI เพื่อบีบอัดรูปภาพ
สมการ 1.2

Re() ย่อมาจาก RecCNN สมการนี้สื่อถึงความหมายของสมการ 1.1 ถึง RecCNN θ หมายถึงพารามิเตอร์ที่ฝึกได้ของ RecCNN (หมวกอยู่ด้านบนหมายความว่าพารามิเตอร์ได้รับการแก้ไขแล้ว)

คำจำกัดความที่ใช้งานง่าย

สมการ 1.0 จะทำให้ ComCNN เปลี่ยนน้ำหนัก ดังนั้นเมื่อสร้างใหม่ด้วย RecCNN ภาพสุดท้ายจะดูคล้ายกับภาพอินพุตมากที่สุด ฟังก์ชันการสูญเสีย RecCNN ที่สองถูกกำหนดดังนี้:

การใช้ AI เพื่อบีบอัดรูปภาพ
สมการ 2.0

คำอธิบาย

อีกครั้ง ฟังก์ชันนี้อาจดูซับซ้อน แต่ส่วนใหญ่แล้วเป็นฟังก์ชันสูญเสียโครงข่ายประสาทเทียมมาตรฐาน (MSE)

การใช้ AI เพื่อบีบอัดรูปภาพ
สมการ 2.1

Co() หมายถึงเอาต์พุตตัวแปลงสัญญาณ x ที่มีหมวกอยู่ด้านบนหมายถึงเอาต์พุต ComCNN θ2 คือพารามิเตอร์ที่ฝึกได้ของ RecCNN res() เป็นเพียงผลลัพธ์ที่เหลือของ RecCNN เป็นที่น่าสังเกตว่า RecCNN ได้รับการฝึกเกี่ยวกับความแตกต่างระหว่าง Co() และอิมเมจอินพุต แต่ไม่ใช่กับอิมเมจอินพุต

คำจำกัดความที่ใช้งานง่าย

สมการ 2.0 จะทำให้ RecCNN เปลี่ยนน้ำหนักเพื่อให้ผลลัพธ์มีลักษณะใกล้เคียงกับภาพอินพุตมากที่สุด

แผนการฝึกอบรม

โมเดลได้รับการฝึกฝนซ้ำๆ เช่น GAN. น้ำหนักของโมเดลแรกจะคงที่ในขณะที่กำลังอัปเดตน้ำหนักของโมเดลที่สอง จากนั้นน้ำหนักของโมเดลที่สองจะได้รับการแก้ไขในขณะที่โมเดลแรกกำลังฝึก

การทดสอบ

ผู้เขียนเปรียบเทียบวิธีการของพวกเขากับวิธีการที่มีอยู่ รวมทั้งตัวแปลงสัญญาณอย่างง่าย วิธีการของพวกเขาทำงานได้ดีกว่าวิธีอื่นในขณะที่รักษาความเร็วสูงบนฮาร์ดแวร์ที่เหมาะสม นอกจากนี้ ผู้เขียนพยายามใช้เพียงเครือข่ายใดเครือข่ายหนึ่งจากสองเครือข่ายและสังเกตเห็นประสิทธิภาพที่ลดลง

การใช้ AI เพื่อบีบอัดรูปภาพ
การเปรียบเทียบดัชนีความคล้ายคลึงกันของโครงสร้าง (SSIM) ค่าสูงบ่งชี้ว่ามีความคล้ายคลึงกับต้นฉบับมากขึ้น ตัวหนาแสดงถึงผลงานของผู้เขียน

ข้อสรุป

เราพิจารณาวิธีใหม่ในการใช้การเรียนรู้เชิงลึกกับการบีบอัดภาพ และพูดคุยเกี่ยวกับความเป็นไปได้ของการใช้โครงข่ายประสาทเทียมในงานที่นอกเหนือจากงาน "ทั่วไป" เช่น การจัดหมวดหมู่ภาพและการประมวลผลภาษา วิธีนี้ไม่เพียงไม่ด้อยกว่าข้อกำหนดสมัยใหม่ แต่ยังช่วยให้คุณประมวลผลภาพได้เร็วขึ้นมาก

การเรียนรู้โครงข่ายประสาทเทียมกลายเป็นเรื่องง่าย เพราะเราสร้างรหัสส่งเสริมการขายสำหรับ Habravchan โดยเฉพาะ ฮาเบอร์ให้ส่วนลดเพิ่มอีก 10% จากส่วนลดที่ระบุไว้บนแบนเนอร์

การใช้ AI เพื่อบีบอัดรูปภาพ

หลักสูตรเพิ่มเติม

บทความที่แนะนำ

ที่มา: will.com

เพิ่มความคิดเห็น