මයික්රොසොෆ්ට් සහ මධ්යම චීන විශ්ව විද්යාලයේ පර්යේෂකයින් යන්ත්ර ඉගෙනුම් තාක්ෂණයන් භාවිතයෙන් වීඩියෝවේ බහු වස්තු ලුහුබැඳීම සඳහා නව ඉහළ කාර්ය සාධන ක්රමයක් - FairMOT (සාධාරණ බහු-වස්තු ලුහුබැඳීම). Pytorch හි ක්රමය ක්රියාත්මක කරන කේතය සහ පුහුණු කරන ලද ආකෘති. GitHub මත.
බොහෝ පවතින වස්තු ලුහුබැඳීමේ ක්රම අදියර දෙකක් භාවිතා කරන අතර, ඒ සෑම එකක්ම වෙනම ස්නායු ජාලයක් මගින් ක්රියාත්මක කෙරේ. පළමු අදියරේදී උනන්දුවක් දක්වන වස්තූන් ස්ථානගත කිරීම සඳහා ආකෘතියක් ක්රියාත්මක කරන අතර, දෙවන අදියරේදී වස්තූන් නැවත හඳුනා ගැනීම සහ ඒවාට නැංගුරම් පැවරීම සඳහා සංගම් ආකෘතියක් භාවිතා කරයි.
FairMOT විකෘති කළ හැකි සංවෘත ස්නායු ජාලයක් මත පදනම් වූ තනි-අදියර ක්රියාත්මක කිරීමක් භාවිතා කරයි (FairMOT (විකෘති කළ හැකි පරිවර්තන ජාලය), එය වස්තු ලුහුබැඳීමේ වේගය සැලකිය යුතු ලෙස වැඩි දියුණු කරයි. ඉහළ නිරවද්යතාවයකින් යුත් වස්තු සිතියමක වස්තු මධ්යස්ථාන ඕෆ්සෙට් තීරණය කිරීම සඳහා නැවත හඳුනාගැනීමේ යාන්ත්රණයක් භාවිතා කරමින්, FairMOT නැංගුරම් නොමැතිව ක්රියාත්මක වේ. සමාන්තර සකසනයක් ඒවායේ අනන්යතාවය පුරෝකථනය කිරීමට භාවිතා කළ හැකි තනි වස්තු ලක්ෂණ ඇගයීමට ලක් කරන අතර, ප්රධාන මොඩියුලය විවිධ පරිමාණයන්ගෙන් යුත් වස්තූන් හැසිරවීමට මෙම ලක්ෂණ ඒකාබද්ධ කරයි.

FairMOT ආකෘතිය පුහුණු කිරීම සඳහා, පුද්ගලයින් හඳුනාගැනීම සහ සෙවීම සඳහා පොදු දත්ත කට්ටල හයක එකතුවක් (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU) භාවිතා කරන ලදී. වලංගුකරණ වීඩියෝ කට්ටල භාවිතයෙන් ආකෘතිය පරීක්ෂා කරන ලදී. , , и ව්යාපෘතිය මගින් සපයන ලදී සහ විවිධ අවස්ථා, කැමරා චලනය හෝ භ්රමණය සහ විවිධ නැරඹුම් කෝණ ආවරණය කරයි. පරීක්ෂණවලින් පෙනී ගියේ
ෆෙයාර්මොට් වේගවත්ම තරඟකාරී මාදිලි и තත්පරයට රාමු 30 ක වේගයෙන් වීඩියෝ ප්රවාහ මත පරීක්ෂා කළ විට, පියාසර කරන විට සාමාන්ය වීඩියෝ ප්රවාහ විශ්ලේෂණය කිරීමට ප්රමාණවත් කාර්ය සාධනයක් පෙන්නුම් කරයි.
මූලාශ්රය: opennet.ru
