FairMOT, ein System zur schnellen Verfolgung mehrerer Objekte auf Video

Forscher von Microsoft und der Central China University entwickelt haben eine neue Hochleistungsmethode zur Verfolgung mehrerer Objekte in Videos mithilfe maschineller Lerntechnologien – FairMOT (Fair Multi-Object Tracking). Code mit Methodenimplementierung basierend auf Pytorch und trainierten Modellen veröffentlicht auf GitHub.

Die meisten vorhandenen Objektverfolgungsmethoden verwenden zwei Stufen, die jeweils durch ein separates neuronales Netzwerk implementiert werden. In der ersten Stufe wird ein Modell zur Bestimmung des Standorts von Objekten von Interesse ausgeführt, und in der zweiten Stufe wird ein Assoziationssuchmodell verwendet, das zur Neuidentifizierung von Objekten und zum Anbringen von Ankern an ihnen verwendet wird.

FairMOT verwendet eine einstufige Implementierung, die auf einem verformbaren Faltungs-Neuronalen Netzwerk basiert (DCNv2, Deformable Convolutional Network), mit dem Sie die Geschwindigkeit der Objektverfolgung spürbar steigern können. FairMOT funktioniert ohne Anker und verwendet einen Neuidentifizierungsmechanismus, um die Versätze von Objektzentren auf einer hochpräzisen Objektkarte zu bestimmen. Parallel dazu wird ein Prozessor ausgeführt, der die individuellen Merkmale von Objekten auswertet, die zur Vorhersage ihrer Identität verwendet werden können, und das Hauptmodul führt eine Konvergenz dieser Merkmale durch, um Objekte unterschiedlichen Maßstabs zu manipulieren.

FairMOT, ein System zur schnellen Verfolgung mehrerer Objekte auf Video

Um das Modell in FairMOT zu trainieren, wurde eine Kombination aus sechs öffentlichen Datensätzen zur Personenerkennung und -suche verwendet (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU). Das Modell wurde anhand von Testvideos getestet 2DMOT15, TÜV 16, TÜV 17 и TÜV 20vom Projekt bereitgestellt TÜV-Herausforderung und deckt unterschiedliche Situationen, Kamerabewegungen oder -drehungen und unterschiedliche Betrachtungswinkel ab. Das hat der Test gezeigt
FairMOT ist voraus schnellste Konkurrenzmodelle TrackRCNN и JDE Bei Tests mit Videostreams mit 30 Bildern pro Sekunde zeigte es eine ausreichende Leistung, um normale Videostreams im laufenden Betrieb zu analysieren.

Source: opennet.ru

Kommentar hinzufügen