FairMOT, un sistema per fer un seguiment ràpid de diversos objectes en vídeo

Investigadors de Microsoft i de la Central China University desenvolupat un nou mètode d'alt rendiment per fer el seguiment de diversos objectes en vídeo mitjançant tecnologies d'aprenentatge automàtic: FairMOT (Fair Multi-Object Tracking). Codi amb implementació de mètodes basat en Pytorch i models entrenats publicat a GitHub.

La majoria dels mètodes de seguiment d'objectes existents utilitzen dues etapes, cadascuna de les quals està implementada per una xarxa neuronal independent. La primera etapa executa un model per localitzar objectes d'interès, i la segona etapa utilitza un model de cerca d'associació per tornar a identificar objectes i adjuntar-hi ancoratges.

FairMOT utilitza una implementació d'una etapa basada en una xarxa neuronal convolucional deformable (DCNv2, Xarxa convolucional deformable), que permet aconseguir un augment notable de la velocitat de seguiment d'objectes. FairMOT funciona sense ancoratges, utilitzant un mecanisme de reidentificació per determinar els desplaçaments dels centres d'objectes en un mapa d'objectes d'alta precisió. Paral·lelament, s'executa un processador que avalua les característiques individuals dels objectes que es poden utilitzar per predir la seva identitat, i el mòdul principal realitza una convergència d'aquestes característiques per manipular objectes de diferents escales.

FairMOT, un sistema per fer un seguiment ràpid de diversos objectes en vídeo

Per entrenar el model a FairMOT, es va utilitzar una combinació de sis conjunts de dades públiques per a la detecció i la cerca de persones (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU). El model es va provar mitjançant conjunts de prova de vídeos 2DMOT15, MOT16, MOT17 и MOT20proporcionada pel projecte Repte ITV i cobrint diferents situacions, moviment o rotació de la càmera, diferents angles de visió. Les proves ho van demostrar
FairMOT supera models competidors més ràpids TrackRCNN и J.D.E. quan es prova en fluxos de vídeo de 30 fotogrames per segon, demostrant un rendiment suficient per analitzar els fluxos de vídeo habituals sobre la marxa.

Font: opennet.ru

Afegeix comentari