อัลกอริทึมที่ขับเคลื่อนด้วยข้อมูลเช่นโครงข่ายประสาทเทียมได้ทำให้โลกต้องตกตะลึง การพัฒนาของพวกเขาเกิดจากหลายสาเหตุ รวมถึงอุปกรณ์ราคาถูกและทรงพลังและข้อมูลจำนวนมหาศาล ปัจจุบันโครงข่ายประสาทเทียมอยู่ในระดับแนวหน้าของทุกสิ่งที่เกี่ยวข้องกับงาน "การรับรู้" เช่น การจดจำภาพ การเข้าใจภาษาธรรมชาติ เป็นต้น แต่ไม่ควรจำกัดเฉพาะงานดังกล่าว บทความนี้กล่าวถึงวิธีบีบอัดรูปภาพโดยใช้โครงข่ายประสาทเทียม โดยใช้การเรียนรู้ที่เหลือ วิธีการที่นำเสนอในบทความนั้นเร็วกว่าและดีกว่าตัวแปลงสัญญาณมาตรฐาน แบบแผน สมการ และแน่นอน ตารางที่มีการทดสอบภายใต้การตัด
บทความนี้อ้างอิงจาก
การบีบอัดภาพคืออะไรและทำงานอย่างไร
การบีบอัดรูปภาพเป็นกระบวนการแปลงรูปภาพเพื่อให้ใช้พื้นที่น้อยลง การจัดเก็บรูปภาพเพียงอย่างเดียวจะใช้พื้นที่มาก ซึ่งเป็นเหตุผลว่าทำไมจึงมีตัวแปลงสัญญาณ เช่น JPEG และ PNG ที่ต้องการลดขนาดของรูปภาพต้นฉบับ
ดังที่คุณทราบ การบีบอัดภาพมีสองประเภท: ไม่มีการสูญเสีย и กับความสูญเสีย. ตามชื่อที่แนะนำ การบีบอัดแบบไม่สูญเสียสามารถรักษาข้อมูลภาพต้นฉบับไว้ได้ ในขณะที่การบีบอัดแบบสูญเสียข้อมูลจะสูญเสียข้อมูลบางส่วนระหว่างการบีบอัด ตัวอย่างเช่น JPG เป็นอัลกอริทึมที่สูญเสีย [ประมาณ แปล - โดยพื้นฐานแล้วอย่าลืมเกี่ยวกับ JPEG ที่ไม่มีการสูญเสีย] และ PNG เป็นอัลกอริทึมที่ไม่สูญเสียข้อมูล
การเปรียบเทียบการบีบอัดแบบ Lossless และ Lossy
สังเกตว่ามีสิ่งประดิษฐ์ที่เป็นบล็อกจำนวนมากในภาพทางด้านขวา นี่คือข้อมูลที่สูญหาย พิกเซลข้างเคียงที่มีสีใกล้เคียงกันจะถูกบีบอัดเป็นพื้นที่เดียวเพื่อประหยัดพื้นที่ แต่ข้อมูลเกี่ยวกับพิกเซลจริงจะสูญหายไป แน่นอนว่าอัลกอริทึมที่ใช้ในตัวแปลงสัญญาณ JPEG, PNG และอื่น ๆ นั้นซับซ้อนกว่ามาก แต่นี่เป็นตัวอย่างที่ดีของการบีบอัดแบบสูญเสียข้อมูล การบีบอัดแบบไม่สูญเสียข้อมูลเป็นสิ่งที่ดี แต่ไฟล์ที่บีบอัดแบบไม่สูญเสียข้อมูลจะใช้พื้นที่ดิสก์มาก มีวิธีที่ดีกว่าในการบีบอัดภาพโดยไม่สูญเสียข้อมูลจำนวนมาก แต่เป็นวิธีที่ค่อนข้างช้าและหลายวิธีใช้ซ้ำๆ ซึ่งหมายความว่าไม่สามารถทำงานแบบขนานบน CPU หรือ GPU หลายคอร์ได้ ข้อจำกัดนี้ทำให้ใช้งานในชีวิตประจำวันไม่ได้โดยสิ้นเชิง
อินพุตเครือข่ายประสาท Convolutional
หากจำเป็นต้องคำนวณบางอย่างและสามารถคำนวณได้โดยประมาณ ให้เพิ่ม
สถาปัตยกรรม
ผู้เขียนเสนอเครือข่ายคู่ เครือข่ายแรกรับภาพเป็นอินพุตและสร้างการเป็นตัวแทนแบบกะทัดรัด (ComCNN) เอาต์พุตของเครือข่ายนี้จะถูกประมวลผลด้วยตัวแปลงสัญญาณมาตรฐาน (เช่น JPEG) หลังจากประมวลผลโดยตัวแปลงสัญญาณ รูปภาพจะถูกส่งผ่านไปยังเครือข่ายที่สอง ซึ่งจะ "แก้ไข" รูปภาพจากตัวแปลงสัญญาณเพื่อพยายามส่งคืนรูปภาพต้นฉบับ ผู้เขียนตั้งชื่อเครือข่ายนี้ว่า RecCNN (RecCNN) เช่นเดียวกับ GAN ทั้งสองเครือข่ายได้รับการฝึกฝนซ้ำๆ
การเป็นตัวแทน ComCNN Compact จะถูกส่งต่อไปยังตัวแปลงสัญญาณมาตรฐาน
เรคซีเอ็นเอ็น. เอาต์พุต ComCNN ได้รับการปรับขนาดและป้อนไปยัง RecCNN ซึ่งจะพยายามเรียนรู้ส่วนที่เหลือ
เอาต์พุตตัวแปลงสัญญาณถูกขยายขนาดแล้วส่งไปยัง RecCNN RecCNN จะพยายามแสดงภาพให้ใกล้เคียงกับต้นฉบับมากที่สุด
กรอบการบีบอัดภาพแบบ end-to-end Co(.) เป็นอัลกอริธึมการบีบอัดภาพ ผู้เขียนใช้ JPEG, JPEG2000 และ BPG
เศษเหลือคืออะไร?
ส่วนที่เหลืออาจถือเป็นขั้นตอนหลังการประมวลผลเพื่อ "ปรับปรุง" ภาพที่ถูกถอดรหัสโดยตัวแปลงสัญญาณ การมี "ข้อมูล" มากมายเกี่ยวกับโลก โครงข่ายประสาทเทียมสามารถตัดสินใจด้วยความรู้ความเข้าใจเกี่ยวกับสิ่งที่ต้องแก้ไข แนวคิดนี้มีพื้นฐานมาจาก
ฟังก์ชั่นการสูญเสีย
มีการใช้ฟังก์ชันการสูญเสียสองรายการเนื่องจากเรามีโครงข่ายประสาทเทียมสองเครือข่าย ComCNN อันแรกมีชื่อว่า L1 และถูกกำหนดดังนี้:
สูญเสียฟังก์ชันสำหรับ ComCNN
คำอธิบาย
สมการนี้อาจดูซับซ้อน แต่จริง ๆ แล้วเป็นสมการมาตรฐาน (ข้อผิดพลาดรูทค่าเฉลี่ยกำลังสอง) MSE. ||² หมายถึงบรรทัดฐานของเวกเตอร์ที่ล้อมรอบ
สมการ 1.1
Cr หมายถึงเอาต์พุตของ ComCNN θ หมายถึงความสามารถในการเรียนรู้ของพารามิเตอร์ ComCNN ส่วน XK คืออิมเมจอินพุต
สมการ 1.2
Re()
ย่อมาจาก RecCNN สมการนี้สื่อถึงความหมายของสมการ 1.1 ถึง RecCNN θ หมายถึงพารามิเตอร์ที่ฝึกได้ของ RecCNN (หมวกอยู่ด้านบนหมายความว่าพารามิเตอร์ได้รับการแก้ไขแล้ว)
คำจำกัดความที่ใช้งานง่าย
สมการ 1.0 จะทำให้ ComCNN เปลี่ยนน้ำหนัก ดังนั้นเมื่อสร้างใหม่ด้วย RecCNN ภาพสุดท้ายจะดูคล้ายกับภาพอินพุตมากที่สุด ฟังก์ชันการสูญเสีย RecCNN ที่สองถูกกำหนดดังนี้:
สมการ 2.0
คำอธิบาย
อีกครั้ง ฟังก์ชันนี้อาจดูซับซ้อน แต่ส่วนใหญ่แล้วเป็นฟังก์ชันสูญเสียโครงข่ายประสาทเทียมมาตรฐาน (MSE)
สมการ 2.1
Co()
หมายถึงเอาต์พุตตัวแปลงสัญญาณ x ที่มีหมวกอยู่ด้านบนหมายถึงเอาต์พุต ComCNN θ2 คือพารามิเตอร์ที่ฝึกได้ของ RecCNN res()
เป็นเพียงผลลัพธ์ที่เหลือของ RecCNN เป็นที่น่าสังเกตว่า RecCNN ได้รับการฝึกเกี่ยวกับความแตกต่างระหว่าง Co() และอิมเมจอินพุต แต่ไม่ใช่กับอิมเมจอินพุต
คำจำกัดความที่ใช้งานง่าย
สมการ 2.0 จะทำให้ RecCNN เปลี่ยนน้ำหนักเพื่อให้ผลลัพธ์มีลักษณะใกล้เคียงกับภาพอินพุตมากที่สุด
แผนการฝึกอบรม
โมเดลได้รับการฝึกฝนซ้ำๆ เช่น
การทดสอบ
ผู้เขียนเปรียบเทียบวิธีการของพวกเขากับวิธีการที่มีอยู่ รวมทั้งตัวแปลงสัญญาณอย่างง่าย วิธีการของพวกเขาทำงานได้ดีกว่าวิธีอื่นในขณะที่รักษาความเร็วสูงบนฮาร์ดแวร์ที่เหมาะสม นอกจากนี้ ผู้เขียนพยายามใช้เพียงเครือข่ายใดเครือข่ายหนึ่งจากสองเครือข่ายและสังเกตเห็นประสิทธิภาพที่ลดลง
การเปรียบเทียบดัชนีความคล้ายคลึงกันของโครงสร้าง (SSIM) ค่าสูงบ่งชี้ว่ามีความคล้ายคลึงกับต้นฉบับมากขึ้น ตัวหนาแสดงถึงผลงานของผู้เขียน
ข้อสรุป
เราพิจารณาวิธีใหม่ในการใช้การเรียนรู้เชิงลึกกับการบีบอัดภาพ และพูดคุยเกี่ยวกับความเป็นไปได้ของการใช้โครงข่ายประสาทเทียมในงานที่นอกเหนือจากงาน "ทั่วไป" เช่น การจัดหมวดหมู่ภาพและการประมวลผลภาษา วิธีนี้ไม่เพียงไม่ด้อยกว่าข้อกำหนดสมัยใหม่ แต่ยังช่วยให้คุณประมวลผลภาพได้เร็วขึ้นมาก
การเรียนรู้โครงข่ายประสาทเทียมกลายเป็นเรื่องง่าย เพราะเราสร้างรหัสส่งเสริมการขายสำหรับ Habravchan โดยเฉพาะ ฮาเบอร์ให้ส่วนลดเพิ่มอีก 10% จากส่วนลดที่ระบุไว้บนแบนเนอร์
สอนวิชาชีพด้าน Data Science ตั้งแต่เริ่มต้น Bootcamp วิทยาศาสตร์ข้อมูลออนไลน์ ฝึกอบรมวิชาชีพนักวิเคราะห์ข้อมูลตั้งแต่เริ่มต้น Bootcamp การวิเคราะห์ข้อมูลออนไลน์ Python สำหรับหลักสูตรการพัฒนาเว็บ
หลักสูตรเพิ่มเติม
หลักสูตรการวิเคราะห์ข้อมูล หลักสูตร DevOps อาชีพนักพัฒนาเว็บ อาชีพ นักพัฒนา iOS ตั้งแต่เริ่มต้น นักพัฒนา Android มืออาชีพตั้งแต่เริ่มต้น นักพัฒนา Java มืออาชีพตั้งแต่เริ่มต้น หลักสูตรจาวาสคริปต์ หลักสูตรการเรียนรู้ของเครื่อง หลักสูตร "คณิตศาสตร์และการเรียนรู้ของเครื่องสำหรับวิทยาศาสตร์ข้อมูล" หลักสูตรขั้นสูง "Machine Learning Pro + Deep Learning"
บทความที่แนะนำ
จะเป็นนักวิทยาศาสตร์ข้อมูลได้อย่างไรโดยไม่ต้องเรียนหลักสูตรออนไลน์ 450 หลักสูตร Ivy League ฟรี วิธีเรียน Machine Learning 5 วันต่อสัปดาห์ 9 เดือนติดต่อกัน นักวิเคราะห์ข้อมูลมีรายได้เท่าใด: ภาพรวมของเงินเดือนและตำแหน่งงานว่างในรัสเซียและต่างประเทศในปี 2020 แมชชีนเลิร์นนิงและคอมพิวเตอร์วิทัศน์ในอุตสาหกรรมเหมืองแร่
ที่มา: will.com