FairMOT, um sistema para rastrear rapidamente vários objetos em vídeo

Pesquisadores da Microsoft e da Universidade Central da China desenvolveram um novo método de alto desempenho para rastrear vários objetos em vídeo usando tecnologias de aprendizado de máquina - FairMOT (Fair Multi-Object Tracking). Código com implementação de método baseado em Pytorch e modelos treinados publicado no GitHub.

A maioria dos métodos existentes de rastreamento de objetos usa dois estágios, cada um implementado por uma rede neural separada. O primeiro estágio executa um modelo para determinar a localização de objetos de interesse, e o segundo estágio usa um modelo de pesquisa de associação usado para reidentificar objetos e anexar âncoras a eles.

FairMOT usa uma implementação de estágio único baseada em uma rede neural convolucional deformável (DCNv2, Rede Convolucional Deformável), que permite obter um aumento notável na velocidade de rastreamento de objetos. O FairMOT funciona sem âncoras, usando um mecanismo de reidentificação para determinar os deslocamentos dos centros dos objetos em um mapa de objetos de alta precisão. Paralelamente, é executado um processador que avalia as características individuais dos objetos que podem ser usados ​​para prever sua identidade, e o módulo principal realiza uma convergência dessas características para manipular objetos de diferentes escalas.

FairMOT, um sistema para rastrear rapidamente vários objetos em vídeo

Para treinar o modelo no FairMOT, foi utilizada uma combinação de seis conjuntos de dados públicos para detecção e busca de pessoas (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU). O modelo foi testado usando conjuntos de teste de vídeos 2DMOT15, MOT16, MOT17 и MOT20fornecido pelo projeto Desafio MOT e cobrindo diferentes situações, movimento ou rotação da câmera, diferentes ângulos de visão. Os testes mostraram que
FairMOT ultrapassar modelos concorrentes mais rápidos RastrearRCNN и J.D.E. quando testado em fluxos de vídeo de 30 quadros por segundo, demonstrando desempenho suficiente para analisar fluxos de vídeo regulares em tempo real.

Fonte: opennet.ru

Adicionar um comentário