FairMOT, een systeem om snel meerdere objecten op video te volgen

Onderzoekers van Microsoft en Central China University ontwikkeld een nieuwe krachtige methode voor het volgen van meerdere objecten in video met behulp van machine learning-technologieën: FairMOT (Fair Multi-Object Tracking). Code met methode-implementatie op basis van Pytorch en getrainde modellen gepubliceerd op GitHub.

De meeste bestaande methoden voor het volgen van objecten maken gebruik van twee fasen, elk geïmplementeerd door een afzonderlijk neuraal netwerk. In de eerste fase wordt een model uitgevoerd voor het bepalen van de locatie van interessante objecten, en in de tweede fase wordt een associatiezoekmodel gebruikt dat wordt gebruikt om objecten opnieuw te identificeren en er ankers aan te koppelen.

FairMOT maakt gebruik van een eenfasige implementatie gebaseerd op een vervormbaar convolutioneel neuraal netwerk (DCNv2, Deformable Convolutional Network), waarmee u een merkbare toename van de snelheid van het volgen van objecten kunt bereiken. FairMOT werkt zonder ankers en maakt gebruik van een heridentificatiemechanisme om de verschuivingen van objectcentra op een uiterst nauwkeurige objectkaart te bepalen. Tegelijkertijd wordt een processor uitgevoerd die de individuele kenmerken van objecten evalueert die kunnen worden gebruikt om hun identiteit te voorspellen, en de hoofdmodule voert een convergentie van deze kenmerken uit om objecten van verschillende schalen te manipuleren.

FairMOT, een systeem om snel meerdere objecten op video te volgen

Om het model in FairMOT te trainen, werd een combinatie van zes openbare datasets voor het detecteren en zoeken van mensen gebruikt (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU). Het model is getest met behulp van testsets met video's 2DMOT15, APK 16, APK 17 и APK 20geleverd door het project APK-uitdaging en bestrijkt verschillende situaties, camerabeweging of -rotatie, verschillende kijkhoeken. Uit de testen bleek dat
Eerlijke APK overtreft snelste concurrerende modellen VolgRCNN и JDE bij testen op videostreams van 30 frames per seconde, wat voldoende prestaties aantoont om reguliere videostreams direct te analyseren.

Bron: opennet.ru

Voeg een reactie