Naukowcy z Microsoftu i Central China University nowa, wysokowydajna metoda śledzenia wielu obiektów w wideo przy użyciu technologii uczenia maszynowego — FairMOT (Fair Multi-Object Tracking). Kod z implementacją metody opartą na Pytorch i wytrenowanych modelach na GitHubie.
Większość istniejących metod śledzenia obiektów wykorzystuje dwa etapy, każdy implementowany przez oddzielną sieć neuronową. Pierwszy etap implementuje model do określania lokalizacji obiektów zainteresowania, a drugi etap wykorzystuje model wyszukiwania skojarzeń do ponownej identyfikacji obiektów i przypisywania im punktów zaczepienia.
FairMOT wykorzystuje implementację jednoetapową opartą na odkształcalnej sieci neuronowej splotowej (, Deformable Convolutional Network), co pozwala na znaczne zwiększenie szybkości śledzenia obiektów. FairMOT działa bez punktów zaczepienia, wykorzystując mechanizm ponownej identyfikacji w celu określenia przemieszczeń środków obiektów na mapie obiektów o wysokiej precyzji. Równolegle wykonywany jest procesor, który ocenia indywidualne cechy obiektów, które mogą być wykorzystane do przewidywania ich tożsamości, a moduł główny wykonuje redukcję tych cech w celu manipulowania obiektami o różnych skalach.

Aby wytrenować model, FairMOT użył kombinacji sześciu publicznych zestawów danych do wykrywania i wyszukiwania osób (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU). Model został przetestowany przy użyciu zestawów wideo walidacyjnych , , и , dostarczone przez projekt i obejmujące różne sytuacje, ruch kamery lub obrót, różne kąty widzenia. Przeprowadzone testy wykazały, że
FairMOT najszybsze modele konkurencyjne и w teście na strumieniach wideo przy 30 klatkach na sekundę wykazano wydajność wystarczającą do analizowania zwykłych strumieni wideo na bieżąco.
Źródło: opennet.ru
