FairMOT, වීඩියෝ මත වස්තු කිහිපයක් ඉක්මනින් නිරීක්ෂණය කිරීමේ පද්ධතියකි

මයික්‍රොසොෆ්ට් සහ මධ්‍යම චීන විශ්ව විද්‍යාලයේ පර්යේෂකයන් සංවර්ධිත යන්ත්‍ර ඉගෙනීමේ තාක්ෂණය භාවිතයෙන් වීඩියෝවල බහුවිධ වස්තූන් ලුහුබැඳීම සඳහා නව ඉහළ කාර්ය සාධන ක්‍රමයක් - FairMOT (සාධාරණ බහු-වස්තු ලුහුබැඳීම). Pytorch සහ පුහුණු ආකෘති මත පදනම් වූ ක්‍රමවේදය ක්‍රියාත්මක කිරීම සහිත කේතය ප්‍රකාශයට පත් කරන ලදි GitHub මත.

පවතින බොහෝ වස්තු ලුහුබැඳීමේ ක්‍රම අදියර දෙකක් භාවිතා කරයි, ඒ සෑම එකක්ම වෙනම ස්නායුක ජාලයක් මගින් ක්‍රියාත්මක කරයි. පළමු අදියරේදී උනන්දුවක් දක්වන වස්තූන් පිහිටීම තීරණය කිරීම සඳහා ආකෘතියක් ක්රියාත්මක වන අතර, දෙවන අදියරේදී වස්තූන් නැවත හඳුනා ගැනීමට සහ ඒවාට නැංගුරම් ඇමිණීමට භාවිතා කරන ආශ්රිත සෙවුම් ආකෘතියක් භාවිතා කරයි.

FairMOT විකෘති කළ හැකි විකෘති ස්නායු ජාලයක් මත පදනම් වූ එක්-අදියර ක්‍රියාත්මක කිරීමක් භාවිතා කරයි (DCNv2, විකෘති කළ හැකි Convolutional Network), වස්තු ලුහුබැඳීමේ වේගයෙහි කැපී පෙනෙන වැඩි වීමක් ලබා ගැනීමට ඔබට ඉඩ සලසයි. FairMOT නැංගුරම් නොමැතිව ක්‍රියා කරයි, ඉහළ නිරවද්‍ය වස්තු සිතියමක වස්තු මධ්‍යස්ථානවල ඕෆ්සෙට් තීරණය කිරීමට නැවත හඳුනාගැනීමේ යාන්ත්‍රණයක් භාවිතා කරයි. සමාන්තරව, ඒවායේ අනන්‍යතාවය පුරෝකථනය කිරීමට භාවිතා කළ හැකි වස්තූන්ගේ තනි ලක්ෂණ ඇගයීමට ලක් කරන ප්‍රොසෙසරයක් ක්‍රියාත්මක වන අතර, ප්‍රධාන මොඩියුලය විවිධ පරිමාණයේ වස්තු හැසිරවීමට මෙම විශේෂාංගවල අභිසාරීතාවයක් සිදු කරයි.

FairMOT, වීඩියෝ මත වස්තු කිහිපයක් ඉක්මනින් නිරීක්ෂණය කිරීමේ පද්ධතියකි

FairMOT හි ආකෘතිය පුහුණු කිරීම සඳහා, පුද්ගලයන් හඳුනා ගැනීම සහ සෙවීම සඳහා පොදු දත්ත කට්ටල හයක එකතුවක් භාවිතා කරන ලදී (ETH, CityPerson, CalTech, MOT17, CUHK-SYSU). වීඩියෝවල පරීක්ෂණ කට්ටල භාවිතයෙන් ආකෘතිය පරීක්ෂා කරන ලදී 2DMOT15, MOT16, MOT17 и MOT20ව්යාපෘතිය මගින් සපයනු ලැබේ MOT අභියෝගය සහ විවිධ අවස්ථා, කැමරා චලනය හෝ භ්‍රමණය, විවිධ දෘෂ්ටි කෝණ ආවරණය කිරීම. පරීක්ෂණයෙන් පෙන්නුම් කළේ එයයි
FairMOT පිටත වේගවත්ම තරඟකාරී මාදිලි TrackRCNN и ජේඩීඊ තත්පරයකට රාමු 30ක වීඩියෝ ප්‍රවාහයන් මත පරීක්‍ෂා කරන විට, පියාසර කරන විට සාමාන්‍ය වීඩියෝ ප්‍රවාහයන් විශ්ලේෂණය කිරීමට ප්‍රමාණවත් කාර්ය සාධනයක් පෙන්නුම් කරයි.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න