A Microsoft és a Közép-Kínai Egyetem kutatói egy új, nagy teljesítményű módszer több objektum nyomon követésére videóban gépi tanulási technológiák segítségével – FairMOT (Fair Multi-Object Tracking). Kód metódusmegvalósítással Pytorch és betanított modellek alapján a GitHubon.
A legtöbb létező objektumkövetési módszer két szakaszt használ, mindegyiket külön neurális hálózat valósítja meg. Az első szakasz egy modellt futtat az érdeklődésre számot tartó objektumok helyének meghatározására, a második szakasz pedig egy asszociációs keresési modellt használ az objektumok újraazonosítására és horgonyok rögzítésére.
A FairMOT egy egylépcsős megvalósítást használ, amely egy deformálható konvolúciós neurális hálózaton alapul (, Deformable Convolutional Network), amely lehetővé teszi az objektumkövetés sebességének észrevehető növekedését. A FairMOT horgonyok nélkül működik, egy újraazonosítási mechanizmus segítségével határozza meg az objektumok középpontjainak eltolásait egy nagy pontosságú objektumtérképen. Ezzel párhuzamosan egy processzor kerül végrehajtásra, amely kiértékeli az objektumok egyedi jellemzőit, amelyek segítségével megjósolható az azonosságuk, és a fő modul ezeknek a jellemzőknek a konvergenciáját hajtja végre a különböző léptékű objektumok manipulálásához.

A modell FairMOT-ban való betanításához hat nyilvános adatkészlet kombinációját használtuk az emberek észlelésére és keresésére (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU). A modellt tesztvideók segítségével tesztelték , , и a projekt biztosítja és különböző helyzetek, kameramozgás vagy forgás, különböző látószögek lefedése. A teszt azt mutatta
FairMOT leggyorsabb versenytárs modellek и 30 képkocka/másodperc sebességű videofolyamon tesztelve, amely elegendő teljesítményt mutat a normál videofolyamok menet közbeni elemzéséhez.
Forrás: opennet.ru
