රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

අපගේ අනාගත පරිගණක දර්ශන පද්ධතිය සඳහා තාක්ෂණයන් සහ මාදිලි අපගේ සමාගමෙහි ක්‍රමයෙන් සහ විවිධ ව්‍යාපෘති තුළ - තැපෑලෙන්, වලාකුළුවලින්, සෙවුමෙන් නිර්මාණය කර වැඩිදියුණු කරන ලදී. ඔවුන් හොඳ චීස් හෝ කොග්නැක් මෙන් පරිණත විය. අපගේ ස්නායුක ජාල හඳුනාගැනීමේ විශිෂ්ට ප්‍රතිඵල පෙන්වන බව දිනක් අපට වැටහුණු අතර, ඒවා එක් b2b නිෂ්පාදනයක් - විෂන් - බවට ඒකාබද්ධ කිරීමට අපි තීරණය කළෙමු, එය අපි දැන් අප විසින්ම භාවිතා කර ඔබට භාවිතා කිරීමට ඉදිරිපත් කරමු.

අද වන විට Mail.Ru Cloud Solutions වේදිකාවේ අපගේ පරිගණක දර්ශන තාක්ෂණය සාර්ථකව ක්‍රියාත්මක වන අතර ඉතා සංකීර්ණ ප්‍රායෝගික ගැටළු විසඳයි. එය පදනම් වී ඇත්තේ අපගේ දත්ත කට්ටල මත පුහුණු කරන ලද සහ ව්‍යවහාරික ගැටළු විසඳීමට විශේෂ වූ ස්නායුක ජාල ගණනාවක් මතය. සියලුම සේවාවන් අපගේ සේවාදායක පහසුකම් මත ක්‍රියාත්මක වේ. ඔබට ඔබගේ යෙදුම් වලට public Vision API අනුකලනය කළ හැක, එමගින් සේවාවේ සියලු හැකියාවන් ඇත. API වේගවත් වේ - සේවාදායක GPU වලට ස්තූතියි, අපගේ ජාලය තුළ සාමාන්‍ය ප්‍රතිචාර කාලය 100 ms වේ.

බළලා වෙත යන්න, සවිස්තරාත්මක කථාවක් සහ විෂන්ගේ වැඩ පිළිබඳ බොහෝ උදාහරණ ඇත.

අප විසින්ම සඳහන් කරන ලද මුහුණු හඳුනාගැනීමේ තාක්ෂණයන් භාවිතා කරන සේවාවක උදාහරණයක් වන්නේ සිදුවීම්. එහි එක් අංගයක් වන්නේ අපි විවිධ සම්මන්ත්‍රණවලදී ස්ථාපනය කරන විෂන් ෆොටෝ ස්ටෑන්ඩ් ය. ඔබ එවැනි ෆොටෝ ස්ටෑන්ඩ් එකකට ළං වන්නේ නම්, බිල්ට් කැමරාවෙන් ඡායාරූපයක් ගෙන ඔබේ විද්‍යුත් තැපෑල ඇතුළත් කළහොත්, සමුළුවේ කාර්ය මණ්ඩල ඡායාරූප ශිල්පීන් විසින් ඔබ අල්ලා ගන්නා ලද ඡායාරූප මාලාව පද්ධතිය වහාම සොයා ගනු ඇත, සහ, අවශ්‍ය නම්, සොයාගත් ඡායාරූප ඔබට විද්‍යුත් තැපෑලෙන් එවනු ඇත. තවද අපි කතා කරන්නේ වේදිකාගත කරන ලද පෝට්රේට් රූගත කිරීම් ගැන නොවේ - නරඹන්නන් සමූහයක් තුළ පසුබිමේ පවා විෂන් ඔබව හඳුනා ගනී. ඇත්ත වශයෙන්ම, එය හඳුනාගෙන ඇත්තේ ඡායාරූප ස්ටෑන්ඩ් නොවේ, මේවා අලංකාර ස්ටෑන්ඩ් වල ඇති ටැබ්ලට් පමණක් වන අතර එමඟින් අමුත්තන්ගේ ඡායාරූප ඔවුන්ගේ බිල්ට් කැමරාවලින් ලබාගෙන තොරතුරු සේවාදායකයන් වෙත සම්ප්‍රේෂණය කරයි, එහිදී සියලු හඳුනාගැනීමේ මැජික් සිදු වේ. රූප හඳුනාගැනීමේ විශේෂඥයින් අතර පවා තාක්‍ෂණයේ කාර්යක්ෂමතාවය කෙතරම් විස්මිතද යන්න අපි කිහිප වතාවක්ම දැක ඇත්තෙමු. පහත අපි උදාහරණ කිහිපයක් ගැන කතා කරමු.

1. අපගේ මුහුණු හඳුනාගැනීමේ ආකෘතිය

1.1 ස්නායු ජාලය සහ සැකසුම් වේගය

හඳුනා ගැනීම සඳහා, අපි ResNet 101 ස්නායු ජාල ආකෘතියේ වෙනස් කිරීමක් භාවිතා කරමු. අවසානයේ සාමාන්‍ය සංචිතය ArcFace හි සිදු කරන ආකාරයටම සම්පුර්ණයෙන්ම සම්බන්ධිත ස්ථරයකින් ප්‍රතිස්ථාපනය වේ. කෙසේ වෙතත්, දෛශික නිරූපණවල ප්‍රමාණය 128ක් මිස 512ක් නොවේ. අපගේ පුහුණු කට්ටලය තුළ පුද්ගලයන් 10කගේ ඡායාරූප මිලියන 273ක් පමණ අඩංගු වේ.

ප්‍රවේශමෙන් තෝරාගත් සේවාදායක වින්‍යාස ගෘහ නිර්මාණ ශිල්පය සහ GPU පරිගණනයට ස්තූතිවන්ත වන පරිදි ආකෘතිය ඉතා ඉක්මනින් ක්‍රියාත්මක වේ. අපගේ අභ්‍යන්තර ජාලවල API වෙතින් ප්‍රතිචාරයක් ලැබීමට ms 100 සිට ගත වේ - මෙයට මුහුණු හඳුනාගැනීම (ඡායාරූපයක මුහුණක් හඳුනා ගැනීම), API ප්‍රතිචාරයේ PersonID හඳුනා ගැනීම සහ ආපසු ලබා දීම ඇතුළත් වේ. ලැබෙන දත්ත විශාල ප්‍රමාණයක් සමඟ - ඡායාරූප සහ වීඩියෝ - දත්ත සේවාව වෙත මාරු කිරීමට සහ ප්‍රතිචාරයක් ලැබීමට වැඩි කාලයක් ගතවනු ඇත.

1.2 ආකෘතියේ කාර්යක්ෂමතාවය තක්සේරු කිරීම

නමුත් ස්නායු ජාල වල කාර්යක්ෂමතාව තීරණය කිරීම ඉතා අපැහැදිලි කාර්යයකි. ඔවුන්ගේ කාර්යයේ ගුණාත්මක භාවය රඳා පවතින්නේ ආකෘති පුහුණු කරන ලද දත්ත කට්ටල මොනවාද සහ නිශ්චිත දත්ත සමඟ වැඩ කිරීම සඳහා ඒවා ප්‍රශස්ත කර තිබේද යන්න මතය.

අපි ජනප්‍රිය LFW සත්‍යාපන පරීක්ෂණය සමඟ අපගේ ආකෘතියේ නිරවද්‍යතාවය ඇගයීමට පටන් ගත්තෙමු, නමුත් එය ඉතා කුඩා හා සරල ය. 99,8% නිරවද්‍යතාවයට ළඟා වූ පසු, එය තවදුරටත් ප්‍රයෝජනවත් නොවේ. හඳුනාගැනීමේ ආකෘති ඇගයීම සඳහා හොඳ තරඟයක් ඇත - Megaface, අපි ක්‍රමයෙන් 82% ශ්‍රේණිගත කිරීම් 1 කරා ළඟා වූවෙමු. Megaface පරීක්ෂණය මිලියනයකින් ඡායාරූප - distractors - සමන්විත වන අතර Facescrub වෙතින් ප්‍රසිද්ධ පුද්ගලයින්ගේ ඡායාරූප දහස් ගණනක් වෙන්කර හඳුනා ගැනීමට ආකෘතියට හැකි විය යුතුය. distractors වෙතින් දත්ත කට්ටලය. කෙසේ වෙතත්, Megaface දෝෂ පරීක්ෂාව ඉවත් කිරීමෙන් පසුව, නිෂ්කාශනය කරන ලද අනුවාදය සමඟ අපි 98% ශ්‍රේණිගත 1 ක නිරවද්‍යතාවයක් ලබා ගන්නා බව අපට පෙනී ගියේය (ප්‍රසිද්ධ පුද්ගලයින්ගේ ඡායාරූප සාමාන්‍යයෙන් තරමක් නිශ්චිත ය). එමනිසා, ඔවුන් මෙගාෆේස් හා සමාන නමුත් “සාමාන්‍ය” පුද්ගලයින්ගේ ඡායාරූප සමඟ වෙනම හඳුනාගැනීමේ පරීක්ෂණයක් නිර්මාණය කළහ. ඉන්පසුව අපි අපගේ දත්ත කට්ටලවල හඳුනාගැනීමේ නිරවද්‍යතාවය වැඩිදියුණු කර බොහෝ ඉදිරියට ගියෙමු. ඊට අමතරව, අපි ඡායාරූප දහස් ගණනකින් සමන්විත පොකුරු තත්ත්ව පරීක්ෂණයක් භාවිතා කරමු; එය පරිශීලකයාගේ වලාකුළෙහි මුහුණු ටැග් කිරීම අනුකරණය කරයි. මෙම අවස්ථාවෙහිදී, පොකුරු යනු සමාන පුද්ගලයින්ගේ කණ්ඩායම්, එක් එක් හඳුනාගත හැකි පුද්ගලයා සඳහා එක් කණ්ඩායමකි. අපි සැබෑ කණ්ඩායම්වල කාර්යයේ ගුණාත්මකභාවය පරීක්ෂා කළෙමු (සත්‍ය).

ඇත්ත වශයෙන්ම, ඕනෑම ආකෘතියක් සමඟ හඳුනාගැනීමේ දෝෂ සිදු වේ. නමුත් එවැනි තත්වයන් බොහෝ විට විසඳනු ලබන්නේ නිශ්චිත කොන්දේසි සඳහා එළිපත්ත මනාව සකස් කිරීමෙනි (සියලු සම්මන්ත්‍රණ සඳහා අපි එකම සීමාවන් භාවිතා කරමු, නමුත්, උදාහරණයක් ලෙස, ප්‍රවේශ පාලන පද්ධති සඳහා, අපට ව්‍යාජ ධනාත්මක කරුණු අඩු වන පරිදි එළිපත්ත විශාල ලෙස වැඩි කළ යුතුය). සම්මන්ත්‍රණ නරඹන්නන්ගෙන් අතිමහත් බහුතරයක් අපගේ විෂන් ඡායාරූප කුටි මගින් නිවැරදිව හඳුනාගෙන ඇත. සමහර විට කවුරුහරි කපන ලද පෙරදසුන දෙස බලමින්, “ඔබේ පද්ධතිය වැරදී ඇත, ඒ මම නොවේ” යැයි පවසනු ඇත. ඉන්පසු අපි ඡායාරූපය සම්පූර්ණයෙන්ම විවෘත කළ අතර, ඡායාරූපයේ ඇත්ත වශයෙන්ම මෙම අමුත්තෙක් සිටි බව පෙනී ගියේය, අපි ඔහුව ඡායාරූපගත කළේ නැත, නමුත් වෙනත් අයෙකු, පුද්ගලයා බොඳ කලාපයේ පසුබිමේ සිටියේය. එපමණක් නොව, මුහුණේ කොටසක් නොපෙනෙන විට හෝ පුද්ගලයා පැතිකඩෙහි සිටගෙන සිටින විට හෝ අඩක් හැරී ඇති විට පවා ස්නායුක ජාලය බොහෝ විට නිවැරදිව හඳුනා ගනී. පුළුල් කෝණ කාචයකින් වෙඩි තැබීමේදී මුහුණ දෘශ්‍ය විකෘති ප්‍රදේශයක තිබුණත් පද්ධතියට පුද්ගලයෙකු හඳුනාගත හැකිය.

1.3 දුෂ්කර අවස්ථාවන්හිදී පරීක්ෂණ සඳහා උදාහරණ

අපගේ ස්නායුක ජාලය ක්‍රියා කරන ආකාරය පිළිබඳ උදාහරණ පහත දැක්වේ. පුද්ගල අනන්‍ය හඳුනාගැනීමක් වන PersonID භාවිතයෙන් ඇය ලේබල් කළ යුතු ආදානයට ඡායාරූප ඉදිරිපත් කෙරේ. පින්තූර දෙකකට හෝ වැඩි ගණනකට එකම හැඳුනුම්පත තිබේ නම්, ආකෘති වලට අනුව, මෙම ඡායාරූප එකම පුද්ගලයා නිරූපණය කරයි.

පරීක්ෂා කිරීමේදී, විශේෂිත ප්රතිඵලය සාක්ෂාත් කර ගැනීම සඳහා අපට වින්යාසගත කළ හැකි විවිධ පරාමිති සහ ආකෘති සීමාවන් වෙත ප්රවේශය ඇති බව අපි වහාම සටහන් කරමු. පොදු API පොදු අවස්ථාවන්හි උපරිම නිරවද්‍යතාවය සඳහා ප්‍රශස්ත කර ඇත.

ඉදිරිපස මුහුණ හඳුනාගැනීමෙන් සරලම දේ සමඟ ආරම්භ කරමු.

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

හොඳයි, එය ඉතා පහසු විය. කාර්යය සංකීර්ණ කරමු, රැවුල සහ වසර අතලොස්සක් එකතු කරන්න.

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

මේ අවස්ථා දෙකේදීම මුළු මුහුණම පෙනෙන නිසාත්, මුහුණ පිළිබඳ බොහෝ තොරතුරු ඇල්ගොරිතමයට තිබෙන නිසාත් මෙයද එතරම් අපහසු නොවූ බව සමහරු කියනු ඇත. හරි, අපි Tom Hardy පැතිකඩ බවට පත් කරමු. මෙම ගැටළුව වඩාත් සංකීර්ණ වන අතර, අඩු දෝෂ අනුපාතයක් පවත්වා ගනිමින් එය සාර්ථකව විසඳීමට අපි විශාල උත්සාහයක් දැරුවෙමු: අපි පුහුණු කට්ටලයක් තෝරාගෙන, ස්නායුක ජාලයේ ගෘහ නිර්මාණ ශිල්පය හරහා සිතා, පාඩු ක්‍රියාකාරකම් ඔප් නංවා පෙර-සැකසුම වැඩිදියුණු කළෙමු. ඡායාරූප වලින්.

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

අපි ඔහුට හිස් වැස්මක් දමමු:

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

මාර්ගය වන විට, මෙය විශේෂයෙන් දුෂ්කර තත්වයකට උදාහරණයකි, මන්දයත් මුහුණ දැඩි ලෙස අපැහැදිලි වන අතර පහළ ඡායාරූපයෙහි ඇස් සැඟවී ඇති ගැඹුරු සෙවනැල්ලක් ද ඇත. සැබෑ ජීවිතයේ දී, මිනිසුන් බොහෝ විට අඳුරු වීදුරු ආධාරයෙන් ඔවුන්ගේ පෙනුම වෙනස් කරයි. ටොම් එක්කත් එහෙම කරමු.

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

හරි, අපි විවිධ වයස්වල ඡායාරූප විසි කිරීමට උත්සාහ කරමු, මෙවර අපි වෙනස් නළුවෙකු සමඟ අත්හදා බලමු. වයසට අදාළ වෙනස්කම් විශේෂයෙන් උච්චාරණය කරන වඩාත් සංකීර්ණ උදාහරණයක් ගනිමු. තත්වය දුරදිග ගොස් නැත; විදේශ ගමන් බලපත්‍රයේ ඇති ඡායාරූපය දරන්නාගේ මුහුණ සමඟ සැසඳීමට අවශ්‍ය වූ විට එය බොහෝ විට සිදු වේ. ඇත්ත වශයෙන්ම, හිමිකරුට වයස අවුරුදු 20 ක් වන විට පළමු ඡායාරූපය විදේශ ගමන් බලපත්‍රයට එකතු කරනු ලබන අතර වයස අවුරුදු 45 වන විට පුද්ගලයෙකුට විශාල වශයෙන් වෙනස් විය හැකිය:

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

කළ නොහැකි මෙහෙයුම් පිළිබඳ ප්‍රධාන විශේෂඥයා වයස සමඟ බොහෝ වෙනස් වී නැති බව ඔබ සිතනවාද? මම හිතන්නේ කිහිප දෙනෙක් පවා ඉහළ සහ පහළ ඡායාරූප ඒකාබද්ධ කරයි, පිරිමි ළමයා වසර ගණනාවක් තිස්සේ බොහෝ වෙනස් වී ඇත.

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

ස්නායු ජාල බොහෝ විට පෙනුමේ වෙනස්කම් වලට මුහුණ දෙයි. නිදසුනක් වශයෙන්, සමහර විට කාන්තාවන්ට ආලේපන ආධාරයෙන් ඔවුන්ගේ රූපය විශාල වශයෙන් වෙනස් කළ හැකිය:

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

දැන් අපි කාර්යය වඩාත් සංකීර්ණ කරමු: මුහුණේ විවිධ කොටස් විවිධ ඡායාරූප වලින් ආවරණය වී ඇතැයි සිතමු. එවැනි අවස්ථාවන්හිදී, ඇල්ගොරිතමයට සම්පූර්ණ සාම්පල සැසඳිය නොහැක. කෙසේ වෙතත්, විෂන් මෙවැනි තත්වයන් හොඳින් හසුරුවයි.

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

මාර්ගය වන විට, ඡායාරූපයක මුහුණු විශාල ප්‍රමාණයක් තිබිය හැකිය; නිදසුනක් වශයෙන්, ශාලාවක සාමාන්‍ය ඡායාරූපයකට පුද්ගලයින් 100 කට වැඩි පිරිසකට ගැලපේ. බොහෝ මුහුණු වෙනස් ලෙස දැල්විය හැකි බැවින්, සමහරක් අවධානයෙන් බැහැර වන බැවින් මෙය ස්නායුක ජාල සඳහා දුෂ්කර තත්වයකි. කෙසේ වෙතත්, ඡායාරූපය ප්‍රමාණවත් විභේදනයකින් සහ ගුණාත්මක භාවයකින් (මුහුණේ ආවරණය වන පරිදි අවම වශයෙන් පික්සල 75ක්) ඡායාරූපය ලබා ගන්නේ නම්, එය හඳුනා ගැනීමට සහ හඳුනා ගැනීමට Vision හට හැකි වේ.

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

නිරීක්ෂණ කැමරාවලින් වාර්තාගත ඡායාරූප සහ පින්තූරවල විශේෂත්වය නම්, මිනිසුන් බොහෝ විට නොපැහැදිලි වන්නේ ඔවුන් අවධානයෙන් බැහැරව හෝ ඒ මොහොතේ චලනය වන බැවිනි:

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

එසේම, ආලෝකයේ තීව්රතාවය රූපයෙන් රූපයට බෙහෙවින් වෙනස් විය හැක. මෙයද බොහෝ විට බාධාවක් බවට පත් වේ; බොහෝ ඇල්ගොරිතමවලට ඉතා අඳුරු සහ සැහැල්ලු රූප නිවැරදිව සැකසීමට විශාල දුෂ්කරතාවයක් ඇත, ඒවා නිවැරදිව ගැලපීම ගැන සඳහන් නොකරන්න. මෙම ප්‍රතිඵලය සාක්ෂාත් කර ගැනීම සඳහා ඔබ යම් ආකාරයකට එළිපත්ත වින්‍යාස කිරීමට අවශ්‍ය බව මම ඔබට මතක් කරමි; මෙම විශේෂාංගය තවමත් ප්‍රසිද්ධියේ නොමැත. අපි සියලුම සේවාදායකයින් සඳහා එකම ස්නායුක ජාලය භාවිතා කරමු; බොහෝ ප්‍රායෝගික කාර්යයන් සඳහා සුදුසු සීමාවන් එයට ඇත.

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

ඉහළ නිරවද්‍යතාවයකින් ආසියානු මුහුණු හඳුනා ගන්නා මාදිලියේ නව අනුවාදයක් අපි මෑතකදී එළිදැක්වුවෙමු. මෙය "යන්ත්‍ර ඉගෙනීම" (හෝ "ස්නායු ජාලය") ජාතිවාදය ලෙස පවා හැඳින්වූ විශාල ගැටලුවක් විය. යුරෝපීය සහ ඇමරිකානු ස්නායුක ජාල කොකේසියානු මුහුණු හොඳින් හඳුනාගෙන ඇත, නමුත් Mongoloid සහ Negroid මුහුණු සමඟ තත්වය වඩාත් නරක විය. බොහෝ විට, චීනයේ තත්වය හරියටම ප්රතිවිරුද්ධ විය. ඒ සියල්ල යම් රටක ප්‍රමුඛ පුද්ගලයින් පිළිබිඹු කරන පුහුණු දත්ත කට්ටල ගැන ය. කෙසේ වෙතත්, තත්වය වෙනස් වෙමින් පවතී; අද මෙම ගැටළුව එතරම් උග්‍ර නොවේ. විවිධ ජාතීන්ට අයත් අය සමඟ දැක්මට ගැටලුවක් නැත.

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

මුහුණු හඳුනාගැනීම අපගේ තාක්ෂණයේ බොහෝ යෙදුම් වලින් එකක් පමණි; ඕනෑම දෙයක් හඳුනා ගැනීමට දැක්ම පුහුණු කළ හැක. උදාහරණයක් ලෙස, බලපත්‍ර තහඩු, ඇල්ගොරිතම සඳහා අපහසු කොන්දේසි ඇතුළුව: තියුණු කෝණවලදී, අපිරිසිදු සහ බලපත්‍ර තහඩු කියවීමට අපහසුය.

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

2. ප්‍රායෝගික භාවිත අවස්ථා

2.1 භෞතික ප්‍රවේශ පාලනය: පුද්ගලයන් දෙදෙනෙකු එකම අවසර පත්‍රය භාවිතා කරන විට

විෂන් ආධාරයෙන්, සේවකයින්ගේ පැමිණීම සහ පිටවීම වාර්තා කිරීම සඳහා පද්ධති ක්රියාත්මක කළ හැකිය. ඉලෙක්ට්රොනික අවසරපත් මත පදනම් වූ සාම්ප්රදායික පද්ධතියට පැහැදිලි අවාසි ඇත, උදාහරණයක් ලෙස, ඔබට එක් ලාංඡනයක් භාවිතා කරමින් පුද්ගලයන් දෙදෙනෙකු සමත් විය හැකිය. ප්‍රවේශ පාලන පද්ධතිය (ACS) Vision සමඟ පරිපූරණය කර ඇත්නම්, එය පැමිණියේ කවුරුන් / පිටත්ව ගියේද සහ කවදාද යන්න අවංකව සටහන් කරයි.

2.2 කාලය නිරීක්ෂණය කිරීම

මෙම Vision භාවිත නඩුව පෙර එකට සමීපව සම්බන්ධ වේ. ඔබ අපගේ මුහුණු හඳුනාගැනීමේ සේවාව සමඟ ප්‍රවේශ පද්ධතියට අතිරේකව සපයන්නේ නම්, එයට ප්‍රවේශ පාලන උල්ලංඝනයන් හඳුනා ගැනීමට පමණක් නොව, ගොඩනැගිල්ලේ හෝ පහසුකම්වල සේවකයින්ගේ සැබෑ පැවැත්ම ලියාපදිංචි කිරීමටද හැකි වේ. වෙනත් වචන වලින් කිවහොත්, ඔහුගේ සගයන් ඔහුගේ ඉහළ නිලධාරීන් ඉදිරියේ ඔහු වෙනුවෙන් ආවරණය කළත්, රැකියාවට පැමිණියේ කුමන වේලාවට පිටත්ව ගියේ කවුරුන්ද සහ රැකියාව සම්පූර්ණයෙන්ම මඟ හැරියේ කවුරුන්ද යන්න අවංකව සැලකිල්ලට ගැනීමට විෂන් ඔබට උපකාරී වනු ඇත.

2.3 වීඩියෝ විශ්ලේෂණ: පුද්ගලයින් ලුහුබැඳීම සහ ආරක්ෂාව

Vision භාවිතා කරන පුද්ගලයින් ලුහුබැඳීමෙන්, ඔබට සාප්පු සවාරි, දුම්රිය ස්ථාන, මාර්ග, වීදි සහ වෙනත් බොහෝ පොදු ස්ථානවල සැබෑ ගමනාගමනය නිවැරදිව තක්සේරු කළ හැකිය. අපගේ ලුහුබැඳීම, උදාහරණයක් ලෙස, ගබඩාවකට හෝ වෙනත් වැදගත් කාර්යාල පරිශ්‍රයකට ප්‍රවේශය පාලනය කිරීමට විශාල උපකාරයක් විය හැක. ඇත්ත වශයෙන්ම, පුද්ගලයින් සහ මුහුණු නිරීක්ෂණය කිරීම ආරක්ෂක ගැටළු විසඳීමට උපකාරී වේ. කවුරුහරි ඔබේ වෙළඳසැලෙන් සොරකම් කළාද? Vision විසින් ආපසු ලබා දුන් ඔහුගේ PersonID ඔබේ වීඩියෝ විශ්ලේෂණ මෘදුකාංගයේ අසාදු ලේඛනයට එක් කරන්න, ඊළඟ වතාවේ මෙම වර්ගය නැවත දිස් වුවහොත් පද්ධතිය වහාම ආරක්ෂාව ගැන අනතුරු අඟවයි.

2.4 වෙළඳාමේ

සිල්ලර සහ විවිධ සේවා ව්‍යාපාර පෝලිම් හඳුනාගැනීම ගැන උනන්දු වෙති. විෂන් ආධාරයෙන්, මෙය අහඹු සෙනඟක් නොව පෝලිමක් බව හඳුනාගෙන එහි දිග තීරණය කළ හැකිය. එවිට පද්ධතිය වගකිවයුත්තන්ට පෝලිමක් ගැන දැනුම් දෙයි, එවිට ඔවුන්ට තත්වය තේරුම් ගත හැකිය: එක්කෝ අමුත්තන් පැමිණීමක් ඇති අතර අමතර සේවකයින් කැඳවිය යුතුය, නැතහොත් යමෙකු ඔවුන්ගේ රැකියා රාජකාරි මන්දගාමී කරයි.

තවත් රසවත් කාර්යයක් වන්නේ අමුත්තන්ගෙන් ශාලාවේ සමාගම් සේවකයින් වෙන් කිරීමයි. සාමාන්‍යයෙන්, පද්ධතිය යම් යම් ඇඳුම් ඇඳගෙන (ඇඳුම් කේතය) හෝ යම් සුවිශේෂී ලක්ෂණයක් (වෙළඳනාම සහිත ස්කාෆ්, පපුවේ ලාංඡනය සහ යනාදිය) සහිත වස්තූන් වෙන් කිරීමට පුහුණු කර ඇත. මෙය පැමිණීම වඩාත් නිවැරදිව තක්සේරු කිරීමට උපකාරී වේ (සේවකයින් ශාලාවේ සිටින පුද්ගලයින්ගේ සංඛ්‍යාලේඛන ඔවුන්ගේ පැමිණීමෙන් “පුම්බා නොයනු” ඇත).

මුහුණු හඳුනාගැනීම භාවිතා කරමින්, ඔබට ඔබේ ප්‍රේක්ෂකයින් ඇගයීමටද හැකිය: අමුත්තන්ගේ පක්ෂපාතිත්වය කුමක්ද, එනම් ඔබේ ආයතනයට කී දෙනෙක් ආපසු පැමිණෙන්නේද සහ කුමන සංඛ්‍යාතයකින්ද යන්නයි. මසකට ඔබ වෙත පැමිණෙන අද්විතීය අමුත්තන් ගණන ගණනය කරන්න. ආකර්ෂණය සහ රඳවා ගැනීමේ පිරිවැය ප්‍රශස්ත කිරීම සඳහා, ඔබට සතියේ දිනය සහ දවසේ වේලාව අනුව ගමනාගමනයේ වෙනස ද සොයාගත හැකිය.

ෆ්‍රැන්චයිසර් සහ දාම සමාගම්වලට විවිධ සිල්ලර වෙළඳසැල්වල වෙළඳ නාමකරණයේ ගුණාත්මකභාවය පිළිබඳ ඡායාරූප මත පදනම්ව තක්සේරුවක් ඇණවුම් කළ හැකිය: ලාංඡන, සලකුණු, පෝස්ටර්, බැනර් සහ යනාදිය තිබීම.

2.5 ප්රවාහනය මගින්

වීඩියෝ විශ්ලේෂණ භාවිතයෙන් ආරක්ෂාව සහතික කිරීම සඳහා තවත් උදාහරණයක් වන්නේ ගුවන් තොටුපලවල හෝ දුම්රිය ස්ථානවල ශාලා තුළ අතහැර දමා ඇති අයිතම හඳුනා ගැනීමයි. පන්ති සිය ගණනක වස්තූන් හඳුනා ගැනීමට දැක්ම පුහුණු කළ හැකිය: ගෘහ භාණ්ඩ කෑලි, බෑග්, සූට්කේස්, කුඩ, විවිධ වර්ගයේ ඇඳුම්, බෝතල්, ආදිය. ඔබේ වීඩියෝ විශ්ලේෂණ පද්ධතිය හිමිකරු නැති වස්තුවක් හඳුනාගෙන එය විෂන් භාවිතයෙන් හඳුනා ගන්නේ නම්, එය ආරක්ෂක සේවාව වෙත සංඥාවක් යවයි. සමාන කාර්යයක් පොදු ස්ථානවල අසාමාන්‍ය තත්වයන් ස්වයංක්‍රීයව හඳුනා ගැනීම සමඟ සම්බන්ධ වේ: යමෙකු අසනීප වේ, නැතහොත් යමෙකු වැරදි ස්ථානයක දුම් පානය කිරීම, හෝ පුද්ගලයෙකු රේල් පීලි මත වැටේ, සහ යනාදිය - මෙම සියලු රටා වීඩියෝ විශ්ලේෂණ පද්ධති මගින් හඳුනාගත හැකිය. Vision API හරහා.

2.6 ලේඛන ප්රවාහය

අප දැනට සංවර්ධනය කරමින් සිටින Vision හි තවත් රසවත් අනාගත යෙදුමක් වන්නේ ලේඛන හඳුනාගැනීම සහ ඒවා දත්ත සමුදායන් වෙත ස්වයංක්‍රීයව විග්‍රහ කිරීමයි. නිමක් නැති ශ්‍රේණි, අංක, නිකුත් කළ දින, ගිණුම් අංක, බැංකු විස්තර, දින සහ උපන් ස්ථාන සහ තවත් බොහෝ විධිමත් දත්ත හස්තීයව ඇතුළත් කිරීම වෙනුවට (හෝ නරක ලෙස ඇතුළු කිරීම) ඔබට ලේඛන පරිලෝකනය කර ඒවා ස්වයංක්‍රීයව ආරක්ෂිත නාලිකාවක් හරහා යැවිය හැක. ක්ලවුඩ් වෙත API, එහිදී පද්ධතිය පියාසර කරන විට මෙම ලේඛන හඳුනාගෙන, ඒවා විග්‍රහ කර දත්ත සමුදායට ස්වයංක්‍රීයව ඇතුළත් කිරීම සඳහා අවශ්‍ය ආකෘතියෙන් දත්ත සමඟ ප්‍රතිචාරයක් ලබා දෙනු ඇත. අද Vision දැනටමත් ලේඛන වර්ගීකරණය කරන්නේ කෙසේදැයි දනී (PDF ඇතුළුව) - විදේශ ගමන් බලපත්‍ර, SNILS, TIN, උප්පැන්න සහතික, විවාහ සහතික සහ වෙනත් අය අතර වෙනස හඳුනා ගනී.

ඇත්ත වශයෙන්ම, ස්නායු ජාලයට මෙම සියලු තත්වයන් කොටුවෙන් පිටත හැසිරවීමට හැකියාවක් නැත. සෑම අවස්ථාවකදීම, විශේෂිත පාරිභෝගිකයෙකු සඳහා නව ආකෘතියක් ගොඩනගා ඇත, බොහෝ සාධක, සූක්ෂ්මතා සහ අවශ්යතා සැලකිල්ලට ගනී, දත්ත කට්ටල තෝරා ගනු ලැබේ, පුහුණු කිරීම, පරීක්ෂා කිරීම සහ වින්යාස කිරීම සිදු කරනු ලැබේ.

3. API මෙහෙයුම් යෝජනා ක්රමය

පරිශීලකයන් සඳහා Vision හි "පිවිසුම් දොරටුව" REST API වේ. එයට ජාල කැමරාවලින් (RTSP streams) ඡායාරූප, වීඩියෝ ගොනු සහ විකාශන ආදානය ලෙස ලබා ගත හැක.

Vision භාවිතා කිරීමට, ඔබට අවශ්ය වේ අත්සන් Mail.ru Cloud Solutions සේවාවේ සහ ප්‍රවේශ ටෝකන ලබා ගන්න (client_id + client_secret). OAuth ප්‍රොටෝකෝලය භාවිතයෙන් පරිශීලක සත්‍යාපනය සිදු කෙරේ. POST ඉල්ලීම්වල ඇති මූලාශ්‍ර දත්ත API වෙත යවනු ලැබේ. සහ ප්‍රතිචාර වශයෙන්, සේවාලාභියාට JSON ආකෘතියෙන් පිළිගැනීමේ ප්‍රතිඵලයක් API වෙතින් ලැබෙන අතර, ප්‍රතිචාරය ව්‍යුහගත වේ: එහි සොයාගත් වස්තූන් සහ ඒවායේ ඛණ්ඩාංක පිළිබඳ තොරතුරු අඩංගු වේ.

රැවුලක්, අඳුරු වීදුරු සහ පැතිකඩ සමඟ: පරිගණක දර්ශනය සඳහා දුෂ්කර තත්වයන්

ආදර්ශ පිළිතුර

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

පිළිතුරේ සිත්ගන්නාසුලු පරාමිතියක් විස්මිත බවක් අඩංගු වේ - මෙය ඡායාරූපයක මුහුණක කොන්දේසි සහිත “සිසිල් බව” වේ, එහි ආධාරයෙන් අපි අනුපිළිවෙලින් මුහුණක හොඳම වෙඩි තැබීම තෝරා ගනිමු. සමාජ ජාල වල ඡායාරූපයක් කැමති වීමේ සම්භාවිතාව පුරෝකථනය කිරීමට අපි ස්නායු ජාලයක් පුහුණු කළෙමු. ඡායාරූපයේ ගුණාත්මක භාවය සහ මුහුණේ සිනහව වැඩි වන තරමට විශ්මයජනක බව වැඩි වේ.

API විෂන් අවකාශය නම් සංකල්පය භාවිතා කරයි. මෙය විවිධ මුහුණු කට්ටල නිර්මාණය කිරීමේ මෙවලමකි. අවකාශයන් සඳහා උදාහරණ වන්නේ කළු සහ සුදු ලැයිස්තු, අමුත්තන්ගේ ලැයිස්තු, සේවකයින්, සේවාලාභීන්, ආදියයි. Vision හි එක් එක් ටෝකනය සඳහා, ඔබට හිස්තැන් 10 ක් දක්වා නිර්මාණය කළ හැකිය, එක් එක් අවකාශයේ PersonIDs 50 ක් දක්වා තිබිය හැකිය, එනම් 500 දක්වා ටෝකනය අනුව. එපමණක් නොව, ගිණුමකට ටෝකන් ගණන සීමා නොවේ.

අද API පහත හඳුනාගැනීමේ සහ හඳුනාගැනීමේ ක්‍රම සඳහා සහය දක්වයි:

  • හඳුනාගැනීම/සැකසීම - මුහුණු හඳුනාගැනීම සහ හඳුනාගැනීම. එක් එක් අනන්‍ය පුද්ගලයාට ස්වයංක්‍රීයව PersonID පවරයි, PersonID සහ සොයාගත් පුද්ගලයින්ගේ ඛණ්ඩාංක ආපසු ලබා දෙයි.
  • මකන්න - පුද්ගල දත්ත ගබඩාවෙන් නිශ්චිත PersonID එකක් මකා දැමීම.
  • කප්පාදු කරන්න - PersonID වෙතින් සම්පූර්ණ අවකාශය හිස් කරයි, එය පරීක්ෂණ ඉඩක් ලෙස භාවිතා කළේ නම් සහ ඔබ නිෂ්පාදනය සඳහා දත්ත සමුදාය නැවත සැකසීමට අවශ්‍ය නම් ප්‍රයෝජනවත් වේ.
  • අනාවරණය - වස්තූන්, දර්ශන, බලපත්‍ර තහඩු, බිම් සලකුණු, පෝලිම් ආදිය හඳුනා ගැනීම. සොයාගත් වස්තූන්ගේ පන්තිය සහ ඒවායේ ඛණ්ඩාංක ලබා දෙයි
  • ලේඛන සඳහා අනාවරණය - රුසියානු සමූහාණ්ඩුවේ නිශ්චිත වර්ගවල ලේඛන හඳුනා ගනී (විදේශ ගමන් බලපත්රය, SNILS, බදු හඳුනාගැනීමේ අංකය, ආදිය වෙන්කර හඳුනා ගනී).

අපි OCR සඳහා ක්‍රම, ස්ත්‍රී පුරුෂ භාවය, වයස සහ හැඟීම් තීරණය කිරීම මෙන්ම වෙළඳ ගැටළු විසඳීම, එනම් වෙළඳසැල්වල භාණ්ඩ ප්‍රදර්ශනය කිරීම ස්වයංක්‍රීයව පාලනය කිරීම සඳහා වන ක්‍රම පිළිබඳ වැඩ ඉක්මනින් අවසන් කරන්නෙමු. ඔබට සම්පූර්ණ API ලේඛන මෙතැනින් සොයාගත හැකිය: https://mcs.mail.ru/help/vision-api

4. නිගමනය

දැන්, පොදු API හරහා, ඔබට ඡායාරූප සහ වීඩියෝවල මුහුණු හඳුනාගැනීම් වෙත ප්‍රවේශ විය හැකිය; විවිධ වස්තූන්, බලපත්‍ර තහඩු, බිම් සලකුණු, ලේඛන සහ සම්පූර්ණ දර්ශන හඳුනාගැනීම සඳහා සහය දක්වයි. යෙදුම් අවස්ථා - මුහුද. එන්න, අපගේ සේවාව පරීක්ෂා කරන්න, එය වඩාත් උපක්‍රමශීලී කාර්යයන් සකසන්න. පළමු ගනුදෙනු 5000 නොමිලේ. සමහර විට එය ඔබගේ ව්‍යාපෘති සඳහා "අතුරුදහන් වූ අමුද්‍රව්‍ය" වනු ඇත.

ලියාපදිංචිය සහ සම්බන්ධතාවය මත ඔබට ක්ෂණිකව API වෙත ප්‍රවේශ විය හැක. දැක්ම. සියලුම හබ්රා පරිශීලකයින්ට අමතර ගනුදෙනු සඳහා ප්‍රවර්ධන කේතයක් ලැබේ. ඔබගේ ගිණුම ලියාපදිංචි කිරීමට ඔබ භාවිතා කළ විද්‍යුත් තැපැල් ලිපිනය කරුණාකර මට ලියන්න!

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න