FairMOT, un sistema per tracciare rapidamente più oggetti su video

Ricercatori di Microsoft e Central China University si sono sviluppati un nuovo metodo ad alte prestazioni per tracciare più oggetti in video utilizzando tecnologie di apprendimento automatico - FairMOT (Fair Multi-Object Tracking). Codice con implementazione del metodo basato su Pytorch e modelli addestrati pubblicato su GitHub.

La maggior parte dei metodi di tracciamento degli oggetti esistenti utilizza due fasi, ciascuna implementata da una rete neurale separata. La prima fase esegue un modello per determinare la posizione degli oggetti di interesse, mentre la seconda fase utilizza un modello di ricerca associativa utilizzato per identificare nuovamente gli oggetti e collegarvi degli ancoraggi.

FairMOT utilizza un'implementazione a uno stadio basata su una rete neurale convoluzionale deformabile (DCNv2, Deformable Convolutional Network), che consente di ottenere un notevole aumento della velocità di tracciamento degli oggetti. FairMOT funziona senza ancoraggi, utilizzando un meccanismo di reidentificazione per determinare gli offset dei centri degli oggetti su una mappa degli oggetti ad alta precisione. In parallelo, viene eseguito un processore che valuta le caratteristiche individuali degli oggetti che possono essere utilizzate per prevederne l'identità, e il modulo principale esegue una convergenza di queste caratteristiche per manipolare oggetti di diverse scale.

FairMOT, un sistema per tracciare rapidamente più oggetti su video

Per addestrare il modello in FairMOT, è stata utilizzata una combinazione di sei set di dati pubblici per il rilevamento e la ricerca di persone (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU). Il modello è stato testato utilizzando serie di video di prova 2DMOT15, MOT16, MOT17 и MOT20forniti dal progetto Sfida MOT e coprendo diverse situazioni, movimento o rotazione della telecamera, diversi angoli di visione. I test lo hanno dimostrato
DiscretoMOT è avanti modelli concorrenti più veloci TracciaRCNN и J.D.E. quando testato su flussi video a 30 fotogrammi al secondo, dimostrando prestazioni sufficienti per analizzare al volo flussi video regolari.

Fonte: opennet.ru

Aggiungi un commento