บทความนี้ประกอบด้วยสองส่วน:
- คำอธิบายโดยย่อของสถาปัตยกรรมเครือข่ายบางอย่างสำหรับการตรวจจับวัตถุในภาพและการแบ่งส่วนภาพพร้อมลิงก์ไปยังแหล่งข้อมูลที่เข้าใจได้มากที่สุดสำหรับฉัน ฉันพยายามเลือกคำอธิบายวิดีโอและควรเป็นภาษารัสเซีย
- ส่วนที่สองคือความพยายามที่จะเข้าใจทิศทางการพัฒนาสถาปัตยกรรมโครงข่ายประสาทเทียม และเทคโนโลยีบนพื้นฐานของพวกเขา
รูปที่ 1 – การทำความเข้าใจสถาปัตยกรรมเครือข่ายประสาทเทียมไม่ใช่เรื่องง่าย
ทั้งหมดนี้เริ่มต้นด้วยการสร้างแอปพลิเคชันสาธิตสองตัวสำหรับการจำแนกและการตรวจจับวัตถุบนโทรศัพท์ Android:
การสาธิตแบ็กเอนด์ เมื่อมีการประมวลผลข้อมูลบนเซิร์ฟเวอร์และส่งไปยังโทรศัพท์ การจัดหมวดหมู่รูปภาพของหมีสามประเภท: สีน้ำตาล สีดำ และเท็ดดี้การสาธิตส่วนหน้า เมื่อประมวลผลข้อมูลบนโทรศัพท์แล้ว การตรวจจับวัตถุ (Object Detection) สามประเภท: เฮเซลนัท มะเดื่อ และวันที่
มีความแตกต่างระหว่างงานการจัดหมวดหมู่ภาพ การตรวจจับวัตถุในภาพ และ
- ชุดสถาปัตยกรรมที่ใช้ R-CNN (Rภูมิภาคด้วย Cการเปลี่ยนแปลง Nเกี่ยวกับหู Nคุณสมบัติเครือข่าย): R-CNN, Fast R-CNN,
R-CNN ที่เร็วขึ้น ,หน้ากาก R-CNN . ในการตรวจจับวัตถุในรูปภาพ กล่องขอบเขตจะถูกจัดสรรโดยใช้กลไก Region Proposal Network (RPN) เริ่มแรก มีการใช้กลไก Selective Search ที่ช้ากว่าแทน RPN จากนั้นขอบเขตที่จำกัดที่เลือกไว้จะถูกป้อนเข้ากับอินพุตของโครงข่ายประสาทเทียมแบบธรรมดาสำหรับการจำแนกประเภท สถาปัตยกรรม R-CNN มีลูป "สำหรับ" ที่ชัดเจนสำหรับภูมิภาคที่จำกัด รวมมากถึง 2000 รันผ่านเครือข่ายภายในของ AlexNet ลูป “for” ที่ชัดเจนจะทำให้ความเร็วในการประมวลผลภาพช้าลง จำนวนการวนซ้ำที่ชัดเจนที่ทำงานผ่านโครงข่ายประสาทเทียมภายในลดลงตามสถาปัตยกรรมเวอร์ชันใหม่แต่ละเวอร์ชัน และมีการเปลี่ยนแปลงอื่นๆ อีกมากมายเพื่อเพิ่มความเร็วและแทนที่งานการตรวจจับวัตถุด้วยการแบ่งส่วนวัตถุใน Mask R-CNN YOLO (You Only LOOK Once) เป็นโครงข่ายประสาทเทียมแรกที่จดจำวัตถุแบบเรียลไทม์บนอุปกรณ์เคลื่อนที่ คุณลักษณะเด่น: แยกแยะวัตถุในการวิ่งครั้งเดียว (แค่ดูครั้งเดียว) นั่นคือในสถาปัตยกรรม YOLO ไม่มีลูป "สำหรับ" ที่ชัดเจน ซึ่งเป็นสาเหตุที่เครือข่ายทำงานได้อย่างรวดเร็ว ตัวอย่างเช่น การเปรียบเทียบนี้: ใน NumPy เมื่อดำเนินการกับเมทริกซ์ ก็ไม่มีลูป "for" ที่ชัดเจน ซึ่งใน NumPy จะถูกนำไปใช้ที่สถาปัตยกรรมระดับล่างผ่านภาษาการเขียนโปรแกรม C YOLO ใช้ตารางของหน้าต่างที่กำหนดไว้ล่วงหน้า เพื่อป้องกันไม่ให้วัตถุเดียวกันถูกกำหนดหลายครั้ง จึงมีการใช้ค่าสัมประสิทธิ์การเหลื่อมซ้อนของหน้าต่าง (IoU) Iจุดตัด oVer Uไอออน) สถาปัตยกรรมนี้ทำงานในช่วงกว้างและมีสูงความทนทาน : แบบจำลองสามารถฝึกเกี่ยวกับภาพถ่ายได้ แต่ยังคงทำงานได้ดีกับภาพวาดที่วาดด้วยมือSSD (Sแหล่งไฟ Sมัลติบ็อกซ์สุดฮอต Detector) - "แฮ็ก" ที่ประสบความสำเร็จมากที่สุดของสถาปัตยกรรม YOLO ถูกใช้ (เช่น การปราบปรามที่ไม่สูงสุด) และมีการเพิ่มอันใหม่เพื่อทำให้โครงข่ายประสาทเทียมทำงานเร็วขึ้นและแม่นยำยิ่งขึ้น คุณสมบัติที่โดดเด่น: แยกแยะวัตถุในการวิ่งครั้งเดียวโดยใช้ตารางที่กำหนดของหน้าต่าง (กล่องเริ่มต้น) บนปิรามิดรูปภาพ ปิรามิดภาพถูกเข้ารหัสในเทนเซอร์แบบบิดผ่านการดำเนินการแบบหมุนและการรวมกลุ่มที่ต่อเนื่องกัน (ด้วยการดำเนินการรวมสูงสุด มิติเชิงพื้นที่จะลดลง) ด้วยวิธีนี้ ทั้งวัตถุขนาดใหญ่และขนาดเล็กจะถูกกำหนดในการรันเครือข่ายเดียว- อุปกรณ์พกพา SSD (ตอบสนองเน็ตวี2+ SSD) คือการรวมกันของสถาปัตยกรรมโครงข่ายประสาทเทียมสองแบบ เครือข่ายแรก
โมบายเน็ทV2 ทำงานได้อย่างรวดเร็วและเพิ่มความแม่นยำในการจดจำ MobileNetV2 ใช้แทน VGG-16 ซึ่งเดิมใช้บทความต้นฉบับ . เครือข่าย SSD ตัวที่สองจะกำหนดตำแหน่งของวัตถุในภาพ สควีซเน็ต – โครงข่ายประสาทเทียมที่เล็กมากแต่แม่นยำ โดยตัวมันเองไม่สามารถแก้ปัญหาการตรวจจับวัตถุได้ อย่างไรก็ตาม สามารถใช้ร่วมกับสถาปัตยกรรมที่แตกต่างกันได้ และใช้ในอุปกรณ์เคลื่อนที่ คุณลักษณะที่โดดเด่นคือข้อมูลจะถูกบีบอัดเป็นครั้งแรกเป็นตัวกรองแบบคอนโวลูชั่นขนาด 1×1 สี่ตัว จากนั้นจึงขยายเป็นตัวกรองแบบคอนโวลูชั่นขนาด 1×1 สี่ตัวและตัวกรองแบบคอนโวลูชั่นขนาด 3×3 สี่ตัว การวนซ้ำของการขยายการบีบอัดข้อมูลดังกล่าวเรียกว่า "Fire Module"ดีพแล็บ (การแบ่งส่วนภาพความหมายด้วย Deep Convolutional Nets) – การแบ่งส่วนของวัตถุในภาพ ลักษณะเด่นของสถาปัตยกรรมคือการบิดแบบขยาย ซึ่งรักษาความละเอียดเชิงพื้นที่ ตามด้วยขั้นตอนหลังการประมวลผลของผลลัพธ์โดยใช้แบบจำลองความน่าจะเป็นแบบกราฟิก (ฟิลด์สุ่มแบบมีเงื่อนไข) ซึ่งช่วยให้คุณสามารถกำจัดสัญญาณรบกวนเล็กน้อยในการแบ่งส่วนและปรับปรุงคุณภาพของภาพที่แบ่งส่วนได้ เบื้องหลังชื่อที่น่าเกรงขาม "แบบจำลองความน่าจะเป็นแบบกราฟิก" ได้ซ่อนตัวกรองแบบเกาส์เซียนแบบเดิมซึ่งมีประมาณห้าจุด- พยายามค้นหาอุปกรณ์
ปรับแต่งDet (นัดเดียว ปรับแต่งment โครงข่ายประสาทเทียมสำหรับวัตถุ เดชอุดม) แต่ฉันก็ไม่ค่อยเข้าใจอะไรมากนัก - ฉันยังดูด้วยว่าเทคโนโลยี "ความสนใจ" ทำงานอย่างไร:
วิดีโอ1 ,วิดีโอ2 ,วิดีโอ3 . คุณสมบัติที่โดดเด่นของสถาปัตยกรรม "ความสนใจ" คือการเลือกพื้นที่ที่มีความสนใจเพิ่มขึ้นในภาพโดยอัตโนมัติ (RoI, Regions of Interest) โดยใช้โครงข่ายประสาทเทียมที่เรียกว่า Attention Unit พื้นที่ที่มีความสนใจเพิ่มขึ้นจะคล้ายกับกรอบล้อมรอบ แต่ไม่เหมือนกับบริเวณเหล่านี้ เนื่องจากไม่ได้ถูกกำหนดไว้ในภาพและอาจมีขอบเขตที่เบลอ จากนั้น จากบริเวณที่มีความสนใจเพิ่มขึ้น สัญญาณ (คุณสมบัติ) จะถูกแยกออก ซึ่งถูก "ป้อน" ให้กับโครงข่ายประสาทเทียมที่เกิดซ้ำด้วยสถาปัตยกรรมLSDM, GRU หรือวานิลลา RNN . โครงข่ายประสาทเทียมที่เกิดซ้ำสามารถวิเคราะห์ความสัมพันธ์ของฟีเจอร์ต่างๆ ตามลำดับได้ โครงข่ายประสาทเทียมแบบเกิดซ้ำถูกใช้ครั้งแรกเพื่อแปลข้อความเป็นภาษาอื่น และตอนนี้สำหรับการแปลรูปภาพเป็นข้อความ иข้อความเป็นรูปภาพ .
ขณะที่เราสำรวจสถาปัตยกรรมเหล่านี้ ฉันรู้ว่าฉันไม่เข้าใจอะไรเลย. และไม่ใช่ว่าโครงข่ายประสาทเทียมของฉันมีปัญหากับกลไกความสนใจ การสร้างสถาปัตยกรรมทั้งหมดนี้เปรียบเสมือนแฮ็กกาธอนขนาดใหญ่ ที่ซึ่งผู้เขียนแข่งขันกันในการแฮ็ก การแฮ็กเป็นวิธีแก้ไขปัญหาซอฟต์แวร์ที่ยุ่งยากอย่างรวดเร็ว นั่นคือไม่มีการเชื่อมต่อเชิงตรรกะที่มองเห็นและเข้าใจได้ระหว่างสถาปัตยกรรมเหล่านี้ทั้งหมด สิ่งที่รวมพวกเขาเข้าด้วยกันคือชุดของแฮ็กที่ประสบความสำเร็จสูงสุดที่พวกเขายืมมาจากกันและกัน บวกกับแฮ็กทั่วไปสำหรับทุกคน
เนื่องจากขาดการเชื่อมโยงเชิงตรรกะระหว่างแฮ็ก จึงเป็นเรื่องยากมากที่จะจดจำและนำไปใช้ในทางปฏิบัติ นี่คือความรู้ที่กระจัดกระจาย อย่างดีที่สุดสามารถจดจำช่วงเวลาที่น่าสนใจและไม่คาดคิดได้ แต่สิ่งที่เข้าใจและเข้าใจไม่ได้ส่วนใหญ่จะหายไปจากความทรงจำภายในไม่กี่วัน คงจะดีถ้าในหนึ่งสัปดาห์คุณจำชื่อสถาปัตยกรรมได้อย่างน้อย แต่ใช้เวลาหลายชั่วโมงหรือหลายวันในการทำงานกับการอ่านบทความและดูวิดีโอบทวิจารณ์!
รูปที่ 2 –
ในความเห็นส่วนตัวของฉัน ผู้เขียนบทความทางวิทยาศาสตร์ส่วนใหญ่ทำทุกอย่างที่เป็นไปได้เพื่อให้แน่ใจว่าผู้อ่านไม่เข้าใจแม้แต่ความรู้ที่กระจัดกระจายนี้ แต่วลีที่มีส่วนร่วมในประโยคสิบบรรทัดพร้อมสูตรที่นำ "ออกมาจากอากาศ" เป็นหัวข้อสำหรับบทความแยกต่างหาก (ปัญหา
ด้วยเหตุนี้ จึงมีความจำเป็นในการจัดระบบข้อมูลโดยใช้โครงข่ายประสาทเทียม และเพิ่มคุณภาพของความเข้าใจและการท่องจำ ดังนั้นหัวข้อหลักของการวิเคราะห์เทคโนโลยีและสถาปัตยกรรมส่วนบุคคลของโครงข่ายประสาทเทียมจึงเป็นงานต่อไปนี้: ค้นหาว่ามันจะไปที่ไหนและไม่ใช่อุปกรณ์ของโครงข่ายประสาทเทียมใดๆ แยกจากกัน
ทั้งหมดนี้ไปไหน? ผลลัพธ์หลัก:
- จำนวนสตาร์ทอัพด้าน Machine Learning ในช่วง XNUMX ปีที่ผ่านมา
ล้มลงอย่างรุนแรง . เหตุผลที่เป็นไปได้: “โครงข่ายประสาทเทียมไม่ใช่สิ่งใหม่อีกต่อไป” - ใครๆ ก็สามารถสร้างโครงข่ายประสาทเทียมที่ใช้งานได้เพื่อแก้ไขปัญหาง่ายๆ หากต้องการทำสิ่งนี้ ให้ใช้โมเดลสำเร็จรูปจาก "สวนสัตว์จำลอง" และฝึกฝนเลเยอร์สุดท้ายของโครงข่ายประสาทเทียม (
ถ่ายทอดการเรียนรู้ ) บนข้อมูลสำเร็จรูปจากการค้นหาชุดข้อมูลของ Google หรือจากชุดข้อมูล Kaggle 25 ชุด ฟรีสมุดบันทึกระบบคลาวด์ Jupyter . - ผู้ผลิตโครงข่ายประสาทเทียมรายใหญ่เริ่มสร้างขึ้น "สวนสัตว์จำลอง" (สวนสัตว์จำลอง) การใช้สิ่งเหล่านี้คุณสามารถสร้างแอปพลิเคชันเชิงพาณิชย์ได้อย่างรวดเร็ว:
ทีเอฟฮับ สำหรับ TensorFlowการตรวจจับ MMD สำหรับ PyTorchเครื่องตรวจจับ สำหรับ Caffe2chainer-modelzoo สำหรับเชนเนอร์และคนอื่น ๆ . - โครงข่ายประสาทเทียมที่ทำงานใน ตามเวลาจริง (เรียลไทม์) บนอุปกรณ์เคลื่อนที่ จาก 10 ถึง 50 เฟรมต่อวินาที
- การใช้โครงข่ายประสาทเทียมในโทรศัพท์ (TF Lite) ในเบราว์เซอร์ (TF.js) และใน
ของใช้ในครัวเรือน (ไอโอที, Internet of Tฮิงส์) โดยเฉพาะในโทรศัพท์ที่รองรับโครงข่ายประสาทเทียมในระดับฮาร์ดแวร์อยู่แล้ว (ตัวเร่งประสาท) - “อุปกรณ์ทุกอย่าง เสื้อผ้า หรือแม้แต่อาหารก็จะมี ที่อยู่ IP-v6 และสื่อสารถึงกัน"-
เซบาสเตียน ธรัน . - จำนวนสิ่งพิมพ์เกี่ยวกับการเรียนรู้ของเครื่องเริ่มเพิ่มขึ้น
เกินกว่ากฎของมัวร์ (เพิ่มขึ้นเป็นสองเท่าทุกๆ สองปี) ตั้งแต่ปี 2015 แน่นอนว่าเราต้องการโครงข่ายประสาทเทียมเพื่อวิเคราะห์บทความ - เทคโนโลยีต่อไปนี้กำลังได้รับความนิยม:
- ไพทอร์ช – ความนิยมเติบโตอย่างรวดเร็วและดูเหมือนว่าจะแซงหน้า TensorFlow
- การเลือกไฮเปอร์พารามิเตอร์อัตโนมัติ ออโต้เอ็มแอล – ความนิยมมีการเติบโตอย่างราบรื่น
- ความแม่นยำลดลงทีละน้อยและเพิ่มความเร็วในการคำนวณ:
ตรรกะคลุมเครือ , อัลกอริธึมการส่งเสริม , การคำนวณที่ไม่แน่นอน (โดยประมาณ), การหาปริมาณ (เมื่อน้ำหนักของโครงข่ายประสาทเทียมถูกแปลงเป็นจำนวนเต็มและหาปริมาณ), ตัวเร่งประสาท - โอน
รูปภาพเป็นข้อความ иข้อความเป็นรูปภาพ . - การสร้าง
วัตถุ XNUMX มิติจากวิดีโอ แบบเรียลไทม์ได้แล้ว - สิ่งสำคัญเกี่ยวกับ DL คือมีข้อมูลจำนวนมาก แต่การรวบรวมและติดป้ายกำกับไม่ใช่เรื่องง่าย ดังนั้นระบบมาร์กอัปอัตโนมัติจึงกำลังพัฒนา (
คำอธิบายประกอบอัตโนมัติ ) สำหรับโครงข่ายประสาทเทียมที่ใช้โครงข่ายประสาทเทียม
- ด้วยโครงข่ายประสาทเทียม วิทยาการคอมพิวเตอร์ก็กลายเป็น วิทยาศาสตร์ทดลอง และลุกขึ้น
วิกฤตความสามารถในการทำซ้ำ . - เงินด้านไอทีและความนิยมของโครงข่ายประสาทเทียมเกิดขึ้นพร้อมกันเมื่อคอมพิวเตอร์กลายเป็นมูลค่าตลาด เศรษฐกิจกำลังเปลี่ยนจากเศรษฐกิจทองคำและสกุลเงินมาเป็น การคำนวณสกุลเงินทอง. ดูบทความของฉันเกี่ยวกับ
เศรษฐศาสตร์ฟิสิกส์ และสาเหตุของการปรากฏตัวของเงินไอที
อันใหม่ก็ค่อยๆปรากฏขึ้น
รูปที่ 3 – ML/DL เป็นวิธีการเขียนโปรแกรมใหม่
อย่างไรก็ตาม มันไม่เคยปรากฏขึ้นเลย "ทฤษฎีโครงข่ายประสาทเทียม"โดยคุณสามารถคิดและทำงานอย่างเป็นระบบได้ สิ่งที่เรียกว่า "ทฤษฎี" ในปัจจุบันคืออัลกอริธึมเชิงทดลองและศึกษาพฤติกรรม
ลิงก์ไปยังแหล่งข้อมูลของฉันและแหล่งข้อมูลอื่นๆ:
- จดหมายข่าววิทยาศาสตร์ข้อมูล การประมวลผลภาพเป็นหลัก ใครก็ตามที่ต้องการรับควรส่งอีเมล (foobar167<gaf-gaf>gmail<dot>com) ฉันส่งลิงก์ไปยังบทความและวิดีโอเมื่อมีเนื้อหาสะสม
- ทั่วไป
รายชื่อหลักสูตรและบทความ ซึ่งข้าพเจ้าได้ผ่านไปแล้วและข้าพเจ้าอยากจะผ่าน หลักสูตรและวิดีโอสำหรับผู้เริ่มต้น ที่คุณควรเริ่มเรียนโครงข่ายประสาทเทียม แถมโบรชัวร์"ความรู้เบื้องต้นเกี่ยวกับการเรียนรู้ของเครื่องและโครงข่ายประสาทเทียม" .เครื่องมือที่มีประโยชน์ ที่ทุกคนจะได้พบกับสิ่งที่น่าสนใจให้กับตัวเอง- เราพบว่ามันมีประโยชน์อย่างยิ่ง ช่องวิดีโอวิเคราะห์บทความทางวิทยาศาสตร์ โดยวิทยาศาสตร์ข้อมูล ค้นหา สมัครสมาชิก และส่งลิงก์ไปยังเพื่อนร่วมงานของคุณและฉันก็ด้วย ตัวอย่าง:
เอกสารสองนาที เฮนรี เอไอ แล็บส์ ยานนิค คิลเชอร์ โค้ดเอ็มโพเรียม บล็อกเฉิงเว่ยจาง อาคาTony607 พร้อมคำแนะนำทีละขั้นตอนและโอเพ่นซอร์ส
ขอบคุณ!
ที่มา: will.com