FairMOT، سیستمی برای ردیابی سریع چندین شی در ویدئو
محققان مایکروسافت و دانشگاه مرکزی چین توسعه یافته یک روش جدید با کارایی بالا برای ردیابی چندین شی در ویدیو با استفاده از فناوری های یادگیری ماشین - FairMOT (Fair Multi-Object Tracking). کد با پیاده سازی متد بر اساس Pytorch و مدل های آموزش دیده منتشر شده در GitHub.
اکثر روشهای ردیابی شی موجود از دو مرحله استفاده میکنند که هر کدام توسط یک شبکه عصبی مجزا پیادهسازی میشوند. مرحله اول مدلی را برای تعیین مکان اشیاء مورد علاقه اجرا می کند و مرحله دوم از یک مدل جستجوی انجمن استفاده می کند که برای شناسایی مجدد اشیاء و اتصال لنگرها به آنها استفاده می شود.
FairMOT از یک پیاده سازی یک مرحله ای مبتنی بر یک شبکه عصبی کانولوشن تغییر شکل پذیر استفاده می کند.DCNv2, Deformable Convolutional Network) که به شما امکان می دهد سرعت ردیابی اشیا را افزایش دهید. FairMOT بدون لنگر کار می کند و با استفاده از یک مکانیسم شناسایی مجدد برای تعیین انحراف مراکز شی در یک نقشه شی با دقت بالا. به موازات آن، پردازنده ای اجرا می شود که ویژگی های فردی اشیاء را که می توان برای پیش بینی هویت آنها مورد استفاده قرار داد، ارزیابی می کند و ماژول اصلی همگرایی این ویژگی ها را برای دستکاری اشیاء در مقیاس های مختلف انجام می دهد.
برای آموزش مدل در FairMOT، ترکیبی از شش مجموعه داده عمومی برای شناسایی و جستجوی افراد (ETH، CityPerson، CalTech، MOT17، CUHK-SYSU) استفاده شد. این مدل با استفاده از مجموعههای آزمایشی ویدیوها مورد آزمایش قرار گرفت 2DMOT15, MOT16, MOT17 и MOT20توسط پروژه ارائه شده است چالش MOT و پوشش موقعیت های مختلف، حرکت یا چرخش دوربین، زوایای دید متفاوت. آزمایش این را نشان داد
FairMOT بیرون از منزل سریع ترین مدل های رقیب TrackRCNN и J.D.E. هنگامی که بر روی جریان های ویدئویی 30 فریم در ثانیه آزمایش می شود، عملکرد کافی برای تجزیه و تحلیل جریان های ویدئویی معمولی را نشان می دهد.