โครงข่ายประสาทเทียม ทั้งหมดนี้ไปไหน?

บทความนี้ประกอบด้วยสองส่วน:

  1. คำอธิบายโดยย่อของสถาปัตยกรรมเครือข่ายบางอย่างสำหรับการตรวจจับวัตถุในภาพและการแบ่งส่วนภาพพร้อมลิงก์ไปยังแหล่งข้อมูลที่เข้าใจได้มากที่สุดสำหรับฉัน ฉันพยายามเลือกคำอธิบายวิดีโอและควรเป็นภาษารัสเซีย
  2. ส่วนที่สองคือความพยายามที่จะเข้าใจทิศทางการพัฒนาสถาปัตยกรรมโครงข่ายประสาทเทียม และเทคโนโลยีบนพื้นฐานของพวกเขา

โครงข่ายประสาทเทียม ทั้งหมดนี้ไปไหน?

รูปที่ 1 – การทำความเข้าใจสถาปัตยกรรมเครือข่ายประสาทเทียมไม่ใช่เรื่องง่าย

ทั้งหมดนี้เริ่มต้นด้วยการสร้างแอปพลิเคชันสาธิตสองตัวสำหรับการจำแนกและการตรวจจับวัตถุบนโทรศัพท์ Android:

  • การสาธิตแบ็กเอนด์เมื่อมีการประมวลผลข้อมูลบนเซิร์ฟเวอร์และส่งไปยังโทรศัพท์ การจัดหมวดหมู่รูปภาพของหมีสามประเภท: สีน้ำตาล สีดำ และเท็ดดี้
  • การสาธิตส่วนหน้าเมื่อประมวลผลข้อมูลบนโทรศัพท์แล้ว การตรวจจับวัตถุ (Object Detection) สามประเภท: เฮเซลนัท มะเดื่อ และวันที่

มีความแตกต่างระหว่างงานการจัดหมวดหมู่ภาพ การตรวจจับวัตถุในภาพ และ การแบ่งส่วนภาพ. ดังนั้นจึงจำเป็นต้องค้นหาว่าสถาปัตยกรรมโครงข่ายประสาทเทียมตัวใดตรวจจับวัตถุในภาพได้ และตัวใดที่สามารถแบ่งส่วนได้ ฉันพบตัวอย่างสถาปัตยกรรมต่อไปนี้พร้อมลิงก์ไปยังแหล่งข้อมูลที่เข้าใจได้มากที่สุดสำหรับฉัน:

  • ชุดสถาปัตยกรรมที่ใช้ R-CNN (Rภูมิภาคด้วย Cการเปลี่ยนแปลง Nเกี่ยวกับหู Nคุณสมบัติเครือข่าย): R-CNN, Fast R-CNN, R-CNN ที่เร็วขึ้น, หน้ากาก R-CNN. ในการตรวจจับวัตถุในรูปภาพ กล่องขอบเขตจะถูกจัดสรรโดยใช้กลไก Region Proposal Network (RPN) เริ่มแรก มีการใช้กลไก Selective Search ที่ช้ากว่าแทน RPN จากนั้นขอบเขตที่จำกัดที่เลือกไว้จะถูกป้อนเข้ากับอินพุตของโครงข่ายประสาทเทียมแบบธรรมดาสำหรับการจำแนกประเภท สถาปัตยกรรม R-CNN มีลูป "สำหรับ" ที่ชัดเจนสำหรับภูมิภาคที่จำกัด รวมมากถึง 2000 รันผ่านเครือข่ายภายในของ AlexNet ลูป “for” ที่ชัดเจนจะทำให้ความเร็วในการประมวลผลภาพช้าลง จำนวนการวนซ้ำที่ชัดเจนที่ทำงานผ่านโครงข่ายประสาทเทียมภายในลดลงตามสถาปัตยกรรมเวอร์ชันใหม่แต่ละเวอร์ชัน และมีการเปลี่ยนแปลงอื่นๆ อีกมากมายเพื่อเพิ่มความเร็วและแทนที่งานการตรวจจับวัตถุด้วยการแบ่งส่วนวัตถุใน Mask R-CNN
  • YOLO (You Only LOOK Once) เป็นโครงข่ายประสาทเทียมแรกที่จดจำวัตถุแบบเรียลไทม์บนอุปกรณ์เคลื่อนที่ คุณลักษณะเด่น: แยกแยะวัตถุในการวิ่งครั้งเดียว (แค่ดูครั้งเดียว) นั่นคือในสถาปัตยกรรม YOLO ไม่มีลูป "สำหรับ" ที่ชัดเจน ซึ่งเป็นสาเหตุที่เครือข่ายทำงานได้อย่างรวดเร็ว ตัวอย่างเช่น การเปรียบเทียบนี้: ใน NumPy เมื่อดำเนินการกับเมทริกซ์ ก็ไม่มีลูป "for" ที่ชัดเจน ซึ่งใน NumPy จะถูกนำไปใช้ที่สถาปัตยกรรมระดับล่างผ่านภาษาการเขียนโปรแกรม C YOLO ใช้ตารางของหน้าต่างที่กำหนดไว้ล่วงหน้า เพื่อป้องกันไม่ให้วัตถุเดียวกันถูกกำหนดหลายครั้ง จึงมีการใช้ค่าสัมประสิทธิ์การเหลื่อมซ้อนของหน้าต่าง (IoU) Iจุดตัด oVer Uไอออน) สถาปัตยกรรมนี้ทำงานในช่วงกว้างและมีสูง ความทนทาน: แบบจำลองสามารถฝึกเกี่ยวกับภาพถ่ายได้ แต่ยังคงทำงานได้ดีกับภาพวาดที่วาดด้วยมือ
  • SSD (Sแหล่งไฟ Sมัลติบ็อกซ์สุดฮอต Detector) - "แฮ็ก" ที่ประสบความสำเร็จมากที่สุดของสถาปัตยกรรม YOLO ถูกใช้ (เช่น การปราบปรามที่ไม่สูงสุด) และมีการเพิ่มอันใหม่เพื่อทำให้โครงข่ายประสาทเทียมทำงานเร็วขึ้นและแม่นยำยิ่งขึ้น คุณสมบัติที่โดดเด่น: แยกแยะวัตถุในการวิ่งครั้งเดียวโดยใช้ตารางที่กำหนดของหน้าต่าง (กล่องเริ่มต้น) บนปิรามิดรูปภาพ ปิรามิดภาพถูกเข้ารหัสในเทนเซอร์แบบบิดผ่านการดำเนินการแบบหมุนและการรวมกลุ่มที่ต่อเนื่องกัน (ด้วยการดำเนินการรวมสูงสุด มิติเชิงพื้นที่จะลดลง) ด้วยวิธีนี้ ทั้งวัตถุขนาดใหญ่และขนาดเล็กจะถูกกำหนดในการรันเครือข่ายเดียว
  • อุปกรณ์พกพา SSD (ตอบสนองเน็ตวี2+ SSD) คือการรวมกันของสถาปัตยกรรมโครงข่ายประสาทเทียมสองแบบ เครือข่ายแรก โมบายเน็ทV2 ทำงานได้อย่างรวดเร็วและเพิ่มความแม่นยำในการจดจำ MobileNetV2 ใช้แทน VGG-16 ซึ่งเดิมใช้ บทความต้นฉบับ. เครือข่าย SSD ตัวที่สองจะกำหนดตำแหน่งของวัตถุในภาพ
  • สควีซเน็ต – โครงข่ายประสาทเทียมที่เล็กมากแต่แม่นยำ โดยตัวมันเองไม่สามารถแก้ปัญหาการตรวจจับวัตถุได้ อย่างไรก็ตาม สามารถใช้ร่วมกับสถาปัตยกรรมที่แตกต่างกันได้ และใช้ในอุปกรณ์เคลื่อนที่ คุณลักษณะที่โดดเด่นคือข้อมูลจะถูกบีบอัดเป็นครั้งแรกเป็นตัวกรองแบบคอนโวลูชั่นขนาด 1×1 สี่ตัว จากนั้นจึงขยายเป็นตัวกรองแบบคอนโวลูชั่นขนาด 1×1 สี่ตัวและตัวกรองแบบคอนโวลูชั่นขนาด 3×3 สี่ตัว การวนซ้ำของการขยายการบีบอัดข้อมูลดังกล่าวเรียกว่า "Fire Module"
  • ดีพแล็บ (การแบ่งส่วนภาพความหมายด้วย Deep Convolutional Nets) – การแบ่งส่วนของวัตถุในภาพ ลักษณะเด่นของสถาปัตยกรรมคือการบิดแบบขยาย ซึ่งรักษาความละเอียดเชิงพื้นที่ ตามด้วยขั้นตอนหลังการประมวลผลของผลลัพธ์โดยใช้แบบจำลองความน่าจะเป็นแบบกราฟิก (ฟิลด์สุ่มแบบมีเงื่อนไข) ซึ่งช่วยให้คุณสามารถกำจัดสัญญาณรบกวนเล็กน้อยในการแบ่งส่วนและปรับปรุงคุณภาพของภาพที่แบ่งส่วนได้ เบื้องหลังชื่อที่น่าเกรงขาม "แบบจำลองความน่าจะเป็นแบบกราฟิก" ได้ซ่อนตัวกรองแบบเกาส์เซียนแบบเดิมซึ่งมีประมาณห้าจุด
  • พยายามค้นหาอุปกรณ์ ปรับแต่งDet (นัดเดียว ปรับแต่งment โครงข่ายประสาทเทียมสำหรับวัตถุ เดชอุดม) แต่ฉันก็ไม่ค่อยเข้าใจอะไรมากนัก
  • ฉันยังดูด้วยว่าเทคโนโลยี "ความสนใจ" ทำงานอย่างไร: วิดีโอ1, วิดีโอ2, วิดีโอ3. คุณสมบัติที่โดดเด่นของสถาปัตยกรรม "ความสนใจ" คือการเลือกพื้นที่ที่มีความสนใจเพิ่มขึ้นในภาพโดยอัตโนมัติ (RoI, Regions of Interest) โดยใช้โครงข่ายประสาทเทียมที่เรียกว่า Attention Unit พื้นที่ที่มีความสนใจเพิ่มขึ้นจะคล้ายกับกรอบล้อมรอบ แต่ไม่เหมือนกับบริเวณเหล่านี้ เนื่องจากไม่ได้ถูกกำหนดไว้ในภาพและอาจมีขอบเขตที่เบลอ จากนั้น จากบริเวณที่มีความสนใจเพิ่มขึ้น สัญญาณ (คุณสมบัติ) จะถูกแยกออก ซึ่งถูก "ป้อน" ให้กับโครงข่ายประสาทเทียมที่เกิดซ้ำด้วยสถาปัตยกรรม LSDM, GRU หรือวานิลลา RNN. โครงข่ายประสาทเทียมที่เกิดซ้ำสามารถวิเคราะห์ความสัมพันธ์ของฟีเจอร์ต่างๆ ตามลำดับได้ โครงข่ายประสาทเทียมแบบเกิดซ้ำถูกใช้ครั้งแรกเพื่อแปลข้อความเป็นภาษาอื่น และตอนนี้สำหรับการแปล รูปภาพเป็นข้อความ и ข้อความเป็นรูปภาพ.

ขณะที่เราสำรวจสถาปัตยกรรมเหล่านี้ ฉันรู้ว่าฉันไม่เข้าใจอะไรเลย. และไม่ใช่ว่าโครงข่ายประสาทเทียมของฉันมีปัญหากับกลไกความสนใจ การสร้างสถาปัตยกรรมทั้งหมดนี้เปรียบเสมือนแฮ็กกาธอนขนาดใหญ่ ที่ซึ่งผู้เขียนแข่งขันกันในการแฮ็ก การแฮ็กเป็นวิธีแก้ไขปัญหาซอฟต์แวร์ที่ยุ่งยากอย่างรวดเร็ว นั่นคือไม่มีการเชื่อมต่อเชิงตรรกะที่มองเห็นและเข้าใจได้ระหว่างสถาปัตยกรรมเหล่านี้ทั้งหมด สิ่งที่รวมพวกเขาเข้าด้วยกันคือชุดของแฮ็กที่ประสบความสำเร็จสูงสุดที่พวกเขายืมมาจากกันและกัน บวกกับแฮ็กทั่วไปสำหรับทุกคน การดำเนินการบิดแบบวงปิด (การเผยแพร่กลับข้อผิดพลาด การเผยแพร่กลับ) เลขที่ การคิดอย่างเป็นระบบ! ยังไม่ชัดเจนว่าจะต้องเปลี่ยนแปลงอะไรและจะเพิ่มประสิทธิภาพความสำเร็จที่มีอยู่อย่างไร

เนื่องจากขาดการเชื่อมโยงเชิงตรรกะระหว่างแฮ็ก จึงเป็นเรื่องยากมากที่จะจดจำและนำไปใช้ในทางปฏิบัติ นี่คือความรู้ที่กระจัดกระจาย อย่างดีที่สุดสามารถจดจำช่วงเวลาที่น่าสนใจและไม่คาดคิดได้ แต่สิ่งที่เข้าใจและเข้าใจไม่ได้ส่วนใหญ่จะหายไปจากความทรงจำภายในไม่กี่วัน คงจะดีถ้าในหนึ่งสัปดาห์คุณจำชื่อสถาปัตยกรรมได้อย่างน้อย แต่ใช้เวลาหลายชั่วโมงหรือหลายวันในการทำงานกับการอ่านบทความและดูวิดีโอบทวิจารณ์!

โครงข่ายประสาทเทียม ทั้งหมดนี้ไปไหน?

รูปที่ 2 – สวนสัตว์ของโครงข่ายประสาทเทียม

ในความเห็นส่วนตัวของฉัน ผู้เขียนบทความทางวิทยาศาสตร์ส่วนใหญ่ทำทุกอย่างที่เป็นไปได้เพื่อให้แน่ใจว่าผู้อ่านไม่เข้าใจแม้แต่ความรู้ที่กระจัดกระจายนี้ แต่วลีที่มีส่วนร่วมในประโยคสิบบรรทัดพร้อมสูตรที่นำ "ออกมาจากอากาศ" เป็นหัวข้อสำหรับบทความแยกต่างหาก (ปัญหา เผยแพร่หรือพินาศ).

ด้วยเหตุนี้ จึงมีความจำเป็นในการจัดระบบข้อมูลโดยใช้โครงข่ายประสาทเทียม และเพิ่มคุณภาพของความเข้าใจและการท่องจำ ดังนั้นหัวข้อหลักของการวิเคราะห์เทคโนโลยีและสถาปัตยกรรมส่วนบุคคลของโครงข่ายประสาทเทียมจึงเป็นงานต่อไปนี้: ค้นหาว่ามันจะไปที่ไหนและไม่ใช่อุปกรณ์ของโครงข่ายประสาทเทียมใดๆ แยกจากกัน

ทั้งหมดนี้ไปไหน? ผลลัพธ์หลัก:

  • จำนวนสตาร์ทอัพด้าน Machine Learning ในช่วง XNUMX ปีที่ผ่านมา ล้มลงอย่างรุนแรง. เหตุผลที่เป็นไปได้: “โครงข่ายประสาทเทียมไม่ใช่สิ่งใหม่อีกต่อไป”
  • ใครๆ ก็สามารถสร้างโครงข่ายประสาทเทียมที่ใช้งานได้เพื่อแก้ไขปัญหาง่ายๆ หากต้องการทำสิ่งนี้ ให้ใช้โมเดลสำเร็จรูปจาก "สวนสัตว์จำลอง" และฝึกฝนเลเยอร์สุดท้ายของโครงข่ายประสาทเทียม (ถ่ายทอดการเรียนรู้) บนข้อมูลสำเร็จรูปจาก การค้นหาชุดข้อมูลของ Google หรือจาก ชุดข้อมูล Kaggle 25 ชุด ฟรี สมุดบันทึกระบบคลาวด์ Jupyter.
  • ผู้ผลิตโครงข่ายประสาทเทียมรายใหญ่เริ่มสร้างขึ้น "สวนสัตว์จำลอง" (สวนสัตว์จำลอง) การใช้สิ่งเหล่านี้คุณสามารถสร้างแอปพลิเคชันเชิงพาณิชย์ได้อย่างรวดเร็ว: ทีเอฟฮับ สำหรับ TensorFlow การตรวจจับ MMD สำหรับ PyTorch เครื่องตรวจจับ สำหรับ Caffe2 chainer-modelzoo สำหรับเชนเนอร์และ คนอื่น ๆ.
  • โครงข่ายประสาทเทียมที่ทำงานใน ตามเวลาจริง (เรียลไทม์) บนอุปกรณ์เคลื่อนที่ จาก 10 ถึง 50 เฟรมต่อวินาที
  • การใช้โครงข่ายประสาทเทียมในโทรศัพท์ (TF Lite) ในเบราว์เซอร์ (TF.js) และใน ของใช้ในครัวเรือน (ไอโอที, Internet of Tฮิงส์) โดยเฉพาะในโทรศัพท์ที่รองรับโครงข่ายประสาทเทียมในระดับฮาร์ดแวร์อยู่แล้ว (ตัวเร่งประสาท)
  • “อุปกรณ์ทุกอย่าง เสื้อผ้า หรือแม้แต่อาหารก็จะมี ที่อยู่ IP-v6 และสื่อสารถึงกัน"- เซบาสเตียน ธรัน.
  • จำนวนสิ่งพิมพ์เกี่ยวกับการเรียนรู้ของเครื่องเริ่มเพิ่มขึ้น เกินกว่ากฎของมัวร์ (เพิ่มขึ้นเป็นสองเท่าทุกๆ สองปี) ตั้งแต่ปี 2015 แน่นอนว่าเราต้องการโครงข่ายประสาทเทียมเพื่อวิเคราะห์บทความ
  • เทคโนโลยีต่อไปนี้กำลังได้รับความนิยม:
    • ไพทอร์ช – ความนิยมเติบโตอย่างรวดเร็วและดูเหมือนว่าจะแซงหน้า TensorFlow
    • การเลือกไฮเปอร์พารามิเตอร์อัตโนมัติ ออโต้เอ็มแอล – ความนิยมมีการเติบโตอย่างราบรื่น
    • ความแม่นยำลดลงทีละน้อยและเพิ่มความเร็วในการคำนวณ: ตรรกะคลุมเครือ, อัลกอริธึม การส่งเสริม, การคำนวณที่ไม่แน่นอน (โดยประมาณ), การหาปริมาณ (เมื่อน้ำหนักของโครงข่ายประสาทเทียมถูกแปลงเป็นจำนวนเต็มและหาปริมาณ), ตัวเร่งประสาท
    • โอน รูปภาพเป็นข้อความ и ข้อความเป็นรูปภาพ.
    • การสร้าง วัตถุ XNUMX มิติจากวิดีโอแบบเรียลไทม์ได้แล้ว
    • สิ่งสำคัญเกี่ยวกับ DL คือมีข้อมูลจำนวนมาก แต่การรวบรวมและติดป้ายกำกับไม่ใช่เรื่องง่าย ดังนั้นระบบมาร์กอัปอัตโนมัติจึงกำลังพัฒนา (คำอธิบายประกอบอัตโนมัติ) สำหรับโครงข่ายประสาทเทียมที่ใช้โครงข่ายประสาทเทียม
  • ด้วยโครงข่ายประสาทเทียม วิทยาการคอมพิวเตอร์ก็กลายเป็น วิทยาศาสตร์ทดลอง และลุกขึ้น วิกฤตความสามารถในการทำซ้ำ.
  • เงินด้านไอทีและความนิยมของโครงข่ายประสาทเทียมเกิดขึ้นพร้อมกันเมื่อคอมพิวเตอร์กลายเป็นมูลค่าตลาด เศรษฐกิจกำลังเปลี่ยนจากเศรษฐกิจทองคำและสกุลเงินมาเป็น การคำนวณสกุลเงินทอง. ดูบทความของฉันเกี่ยวกับ เศรษฐศาสตร์ฟิสิกส์ และสาเหตุของการปรากฏตัวของเงินไอที

อันใหม่ก็ค่อยๆปรากฏขึ้น วิธีการเขียนโปรแกรม ML/DL (Machine Learning & Deep Learning) ซึ่งมีพื้นฐานมาจากการนำเสนอโปรแกรมเป็นชุดของโมเดลโครงข่ายประสาทเทียมที่ผ่านการฝึกอบรมแล้ว

โครงข่ายประสาทเทียม ทั้งหมดนี้ไปไหน?

รูปที่ 3 – ML/DL เป็นวิธีการเขียนโปรแกรมใหม่

อย่างไรก็ตาม มันไม่เคยปรากฏขึ้นเลย "ทฤษฎีโครงข่ายประสาทเทียม"โดยคุณสามารถคิดและทำงานอย่างเป็นระบบได้ สิ่งที่เรียกว่า "ทฤษฎี" ในปัจจุบันคืออัลกอริธึมเชิงทดลองและศึกษาพฤติกรรม

ลิงก์ไปยังแหล่งข้อมูลของฉันและแหล่งข้อมูลอื่นๆ:

ขอบคุณ!

ที่มา: will.com

เพิ่มความคิดเห็น