นักวิจัยจาก Microsoft และ Central China University ที่พัฒนา วิธีการประสิทธิภาพสูงใหม่สำหรับการติดตามวัตถุหลายรายการในวิดีโอโดยใช้เทคโนโลยีการเรียนรู้ของเครื่อง - FairMOT (การติดตามหลายวัตถุอย่างยุติธรรม) โค้ดที่มีการใช้วิธีการตาม Pytorch และโมเดลที่ผ่านการฝึกอบรม ที่ตีพิมพ์ บน GitHub
วิธีการติดตามวัตถุที่มีอยู่ส่วนใหญ่ใช้สองขั้นตอน แต่ละขั้นตอนใช้งานโดยโครงข่ายประสาทเทียมที่แยกจากกัน ระยะแรกรันแบบจำลองเพื่อระบุตำแหน่งของวัตถุที่สนใจ และระยะที่สองใช้แบบจำลองการค้นหาการเชื่อมโยงที่ใช้ในการระบุวัตถุอีกครั้งและแนบจุดยึดเข้ากับวัตถุเหล่านั้น
FairMOT ใช้การใช้งานขั้นตอนเดียวโดยอิงตามโครงข่ายประสาทเทียมแบบบิดเบี้ยวที่เปลี่ยนรูปได้ (DCNv2 , Deformable Convolutional Network) ซึ่งช่วยให้คุณเพิ่มความเร็วในการติดตามวัตถุได้อย่างเห็นได้ชัด FairMOT ทำงานโดยไม่มีจุดยึด โดยใช้กลไกการระบุตัวตนอีกครั้งเพื่อกำหนดออฟเซ็ตของศูนย์กลางวัตถุบนแผนที่วัตถุที่มีความแม่นยำสูง ในแบบคู่ขนาน โปรเซสเซอร์จะถูกดำเนินการเพื่อประเมินคุณสมบัติแต่ละอย่างของวัตถุที่สามารถใช้เพื่อทำนายตัวตนของมันได้ และโมดูลหลักจะทำการบรรจบกันของคุณสมบัติเหล่านี้เพื่อจัดการวัตถุที่มีขนาดต่างกัน
เพื่อฝึกโมเดลใน FairMOT มีการใช้ชุดข้อมูลสาธารณะหกชุดร่วมกันสำหรับการตรวจจับและค้นหาบุคคล (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU) แบบจำลองได้รับการทดสอบโดยใช้ชุดทดสอบวิดีโอ 2DMOT15 , มท.16 , มท.17 и มท.20 จัดทำโดยโครงการ ความท้าทายของ มท และครอบคลุมสถานการณ์ต่างๆ การเคลื่อนไหวหรือการหมุนกล้อง มุมมองต่างๆ การทดสอบแสดงให้เห็นว่า
ยุติธรรมMOT เหนือกว่า รุ่นแข่งขันที่เร็วที่สุด ติดตามRCNN и เจ.ดี เมื่อทดสอบกับสตรีมวิดีโอ 30 เฟรมต่อวินาที ซึ่งแสดงให้เห็นถึงประสิทธิภาพที่เพียงพอที่จะวิเคราะห์สตรีมวิดีโอปกติได้ทันที
ที่มา: opennet.ru