FairMOT, un sistema para rastrexar rapidamente varios obxectos en vídeo

Investigadores de Microsoft e da Central China University desenvolveron un novo método de alto rendemento para rastrexar varios obxectos en vídeo mediante tecnoloxías de aprendizaxe automática - FairMOT (Fair Multi-Object Tracking). Código con implementación de método baseado en Pytorch e modelos adestrados publicado en GitHub.

A maioría dos métodos de seguimento de obxectos existentes usan dúas etapas, cada unha implementada por unha rede neuronal separada. Na primeira etapa execútase un modelo para determinar a localización dos obxectos de interese, e a segunda etapa utiliza un modelo de busca de asociacións usado para reidentificar obxectos e conectarlles ancoraxes.

FairMOT usa unha implementación dunha etapa baseada nunha rede neuronal convolucional deformable (DCNv2, Rede convolucional deformable), que permite conseguir un aumento notable da velocidade de seguimento de obxectos. FairMOT funciona sen ancoraxes, utilizando un mecanismo de reidentificación para determinar os desplazamentos dos centros de obxectos nun mapa de obxectos de alta precisión. Paralelamente, execútase un procesador que avalía as características individuais dos obxectos que se poden utilizar para predicir a súa identidade, e o módulo principal realiza unha converxencia destas características para manipular obxectos de diferentes escalas.

FairMOT, un sistema para rastrexar rapidamente varios obxectos en vídeo

Para adestrar o modelo en FairMOT, utilizouse unha combinación de seis conxuntos de datos públicos para a detección e busca de persoas (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU). Probouse o modelo mediante xogos de proba de vídeos 2DMOT15, MOT16, MOT17 и MOT20proporcionado polo proxecto Desafío ITV e cubrindo diferentes situacións, movemento ou rotación da cámara, diferentes ángulos de visión. As probas mostraron iso
FairMOT avanza modelos competidores máis rápidos TrackRCNN и J.D.E. cando se proba en fluxos de vídeo de 30 fotogramas por segundo, demostrando un rendemento suficiente para analizar fluxos de vídeo habituais sobre a marcha.

Fonte: opennet.ru

Engadir un comentario