FairMOT, un sistema para rastrear rápidamente múltiples objetos en video

Investigadores de Microsoft y la Universidad Central de China han desarrollado un nuevo método de alto rendimiento para rastrear múltiples objetos en video utilizando tecnologías de aprendizaje automático: FairMOT (Fair Multi-Object Tracking). Código con implementación de método basado en Pytorch y modelos entrenados. publicado en GitHub.

La mayoría de los métodos de seguimiento de objetos existentes utilizan dos etapas, cada una implementada por una red neuronal independiente. La primera etapa ejecuta un modelo para determinar la ubicación de objetos de interés, y la segunda etapa utiliza un modelo de búsqueda de asociación utilizado para reidentificar objetos y adjuntarles anclajes.

FairMOT utiliza una implementación de una etapa basada en una red neuronal convolucional deformable (DCNv2, Red convolucional deformable), que le permite lograr un aumento notable en la velocidad de seguimiento de objetos. FairMOT funciona sin anclajes y utiliza un mecanismo de reidentificación para determinar los desplazamientos de los centros de los objetos en un mapa de objetos de alta precisión. En paralelo, se ejecuta un procesador que evalúa las características individuales de los objetos que pueden usarse para predecir su identidad, y el módulo principal realiza una convergencia de estas características para manipular objetos de diferentes escalas.

FairMOT, un sistema para rastrear rápidamente múltiples objetos en video

Para entrenar el modelo en FairMOT, se utilizó una combinación de seis conjuntos de datos públicos para detección y búsqueda de personas (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU). El modelo se probó utilizando conjuntos de pruebas de vídeos. 2DMOT15, ITV16, ITV17 и ITV20proporcionado por el proyecto Desafío ITV y cubriendo diferentes situaciones, movimiento o rotación de la cámara, diferentes ángulos de visión. Las pruebas demostraron que
MOT justo está por delante modelos competidores más rápidos SeguimientoRCNN и J.D.E. cuando se probó en transmisiones de video de 30 cuadros por segundo, demostró un rendimiento suficiente para analizar transmisiones de video regulares sobre la marcha.

Fuente: opennet.ru

Añadir un comentario