FairMOT, un système pour suivre rapidement plusieurs objets en vidéo

Chercheurs de Microsoft et de l’Université de Chine centrale ont développé une nouvelle méthode haute performance pour suivre plusieurs objets en vidéo à l'aide de technologies d'apprentissage automatique - FairMOT (Fair Multi-Object Tracking). Code avec implémentation de méthode basée sur Pytorch et modèles formés publié sur GitHub.

La plupart des méthodes de suivi d'objets existantes utilisent deux étapes, chacune mise en œuvre par un réseau neuronal distinct. La première étape exécute un modèle pour déterminer l'emplacement des objets d'intérêt, et la deuxième étape utilise un modèle de recherche d'association utilisé pour réidentifier les objets et leur attacher des ancres.

FairMOT utilise une implémentation en une étape basée sur un réseau neuronal convolutionnel déformable (DCNv2, Deformable Convolutional Network), qui vous permet d'obtenir une augmentation notable de la vitesse de suivi des objets. FairMOT fonctionne sans ancres, en utilisant un mécanisme de ré-identification pour déterminer les décalages des centres d'objets sur une carte d'objets de haute précision. En parallèle, un processeur est exécuté qui évalue les caractéristiques individuelles des objets pouvant être utilisées pour prédire leur identité, et le module principal effectue une convergence de ces caractéristiques pour manipuler des objets de différentes échelles.

FairMOT, un système pour suivre rapidement plusieurs objets en vidéo

Pour entraîner le modèle dans FairMOT, une combinaison de six ensembles de données publiques pour la détection et la recherche de personnes a été utilisée (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU). Le modèle a été testé à l'aide d'ensembles de tests de vidéos 2DMOT15, CT16, CT17 и CT20apporté par le projet Défi MOT et couvrant différentes situations, mouvements ou rotations de la caméra, différents angles de vision. Les tests ont montré que
FoireMOT est en avance modèles concurrents les plus rapides PisteRCNN и J.D.E. lorsqu'il est testé sur des flux vidéo de 30 images par seconde, démontrant des performances suffisantes pour analyser des flux vidéo réguliers à la volée.

Source: opennet.ru

Ajouter un commentaire