FairMOT, sistem untuk menjejak berbilang objek dengan cepat pada video

Penyelidik dari Microsoft dan Central China University dibangunkan kaedah berprestasi tinggi baharu untuk menjejak berbilang objek dalam video menggunakan teknologi pembelajaran mesin - FairMOT (Fair Multi-Object Tracking). Kod dengan pelaksanaan kaedah berdasarkan Pytorch dan model terlatih diterbitkan pada GitHub.

Kebanyakan kaedah pengesanan objek sedia ada menggunakan dua peringkat, setiap satu dilaksanakan oleh rangkaian saraf yang berasingan. Peringkat pertama menjalankan model untuk menentukan lokasi objek yang diminati, dan peringkat kedua menggunakan model carian persatuan yang digunakan untuk mengenal pasti semula objek dan melampirkan sauh padanya.

FairMOT menggunakan pelaksanaan satu peringkat berdasarkan rangkaian neural convolutional boleh ubah bentuk (DCNv2, Deformable Convolutional Network), yang membolehkan anda mencapai peningkatan ketara dalam kelajuan pengesanan objek. FairMOT berfungsi tanpa sauh, menggunakan mekanisme pengenalan semula untuk menentukan offset pusat objek pada peta objek berketepatan tinggi. Secara selari, pemproses dilaksanakan yang menilai ciri individu objek yang boleh digunakan untuk meramalkan identiti mereka, dan modul utama melakukan penumpuan ciri ini untuk memanipulasi objek dengan skala yang berbeza.

FairMOT, sistem untuk menjejak berbilang objek dengan cepat pada video

Untuk melatih model dalam FairMOT, gabungan enam set data awam untuk pengesanan dan carian orang telah digunakan (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU). Model telah diuji menggunakan set ujian video 2DMOT15, MOT16, MOT17 ΠΈ MOT20disediakan oleh projek Cabaran MOT dan meliputi situasi yang berbeza, pergerakan atau putaran kamera, sudut tontonan yang berbeza. Ujian menunjukkan bahawa
FairMOT melangkaui model bersaing terpantas TrackRCNN ΠΈ J.D.E. apabila diuji pada strim video 30 bingkai sesaat, menunjukkan prestasi yang mencukupi untuk menganalisis strim video biasa dengan cepat.

Sumber: opennet.ru

Tambah komen