గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

మా భవిష్యత్ కంప్యూటర్ విజన్ సిస్టమ్ కోసం సాంకేతికతలు మరియు నమూనాలు క్రమంగా మరియు మా కంపెనీ యొక్క వివిధ ప్రాజెక్ట్‌లలో - మెయిల్, క్లౌడ్, శోధనలో సృష్టించబడ్డాయి మరియు మెరుగుపరచబడ్డాయి. వారు మంచి జున్ను లేదా కాగ్నాక్ లాగా పరిపక్వం చెందారు. మా నాడీ నెట్‌వర్క్‌లు గుర్తింపులో అద్భుతమైన ఫలితాలను చూపుతాయని ఒక రోజు మేము గ్రహించాము మరియు వాటిని ఒకే b2b ఉత్పత్తిగా - విజన్‌గా మిళితం చేయాలని నిర్ణయించుకున్నాము - ఇప్పుడు మనం ఉపయోగించుకుంటాము మరియు మీకు ఉపయోగించమని అందిస్తున్నాము.

నేడు, Mail.Ru క్లౌడ్ సొల్యూషన్స్ ప్లాట్‌ఫారమ్‌లోని మా కంప్యూటర్ విజన్ టెక్నాలజీ విజయవంతంగా పని చేస్తోంది మరియు చాలా క్లిష్టమైన ఆచరణాత్మక సమస్యలను పరిష్కరిస్తోంది. ఇది మా డేటా సెట్‌లపై శిక్షణ పొందిన మరియు అనువర్తిత సమస్యలను పరిష్కరించడంలో నైపుణ్యం కలిగిన అనేక న్యూరల్ నెట్‌వర్క్‌లపై ఆధారపడి ఉంటుంది. అన్ని సేవలు మా సర్వర్ సౌకర్యాలపై నడుస్తాయి. మీరు పబ్లిక్ విజన్ APIని మీ అప్లికేషన్‌లలో ఇంటిగ్రేట్ చేయవచ్చు, దీని ద్వారా సేవ యొక్క అన్ని సామర్థ్యాలు అందుబాటులో ఉంటాయి. API వేగంగా ఉంది - సర్వర్ GPUలకు ధన్యవాదాలు, మా నెట్‌వర్క్‌లో సగటు ప్రతిస్పందన సమయం 100 ms.

పిల్లి వద్దకు వెళ్లండి, విజన్ యొక్క పనికి సంబంధించిన వివరణాత్మక కథ మరియు అనేక ఉదాహరణలు ఉన్నాయి.

మేము పేర్కొన్న ముఖ గుర్తింపు సాంకేతికతలను ఉపయోగించే సేవకు ఉదాహరణగా, మేము ఉదహరించవచ్చు ఈవెంట్స్. దాని భాగాలలో ఒకటి విజన్ ఫోటో స్టాండ్‌లు, వీటిని మేము వివిధ సమావేశాలలో ఇన్‌స్టాల్ చేస్తాము. మీరు అలాంటి ఫోటో స్టాండ్‌ను సంప్రదించినట్లయితే, అంతర్నిర్మిత కెమెరాతో ఫోటో తీసి, మీ ఇమెయిల్‌ను నమోదు చేస్తే, కాన్ఫరెన్స్‌లోని స్టాఫ్ ఫోటోగ్రాఫర్‌లు మీరు క్యాప్చర్ చేసిన ఫోటోగ్రాఫ్‌ల శ్రేణిలో సిస్టమ్ వెంటనే కనుగొంటుంది మరియు కావాలనుకుంటే, దొరికిన ఛాయాచిత్రాలను ఇమెయిల్ ద్వారా మీకు పంపుతుంది. మరియు మేము ప్రదర్శించిన పోర్ట్రెయిట్ షాట్‌ల గురించి మాట్లాడటం లేదు-విజన్ మిమ్మల్ని సందర్శకుల గుంపులో చాలా నేపథ్యంలో కూడా గుర్తిస్తుంది. వాస్తవానికి, ఫోటో స్టాండ్‌లు గుర్తించబడవు, ఇవి కేవలం అందమైన స్టాండ్‌లలోని టాబ్లెట్‌లు మాత్రమే, ఇవి అతిథులను వారి అంతర్నిర్మిత కెమెరాలతో ఫోటోలను తీసి సర్వర్‌లకు సమాచారాన్ని ప్రసారం చేస్తాయి, ఇక్కడ అన్ని గుర్తింపు మాయాజాలం జరుగుతుంది. ఇమేజ్ రికగ్నిషన్ స్పెషలిస్ట్‌లలో కూడా టెక్నాలజీ ప్రభావం ఎంత ఆశ్చర్యకరంగా ఉందో మనం ఒకటి కంటే ఎక్కువసార్లు చూశాము. క్రింద మేము కొన్ని ఉదాహరణల గురించి మాట్లాడుతాము.

1. మా ఫేస్ రికగ్నిషన్ మోడల్

1.1 న్యూరల్ నెట్‌వర్క్ మరియు ప్రాసెసింగ్ వేగం

గుర్తింపు కోసం, మేము ResNet 101 న్యూరల్ నెట్‌వర్క్ మోడల్ యొక్క సవరణను ఉపయోగిస్తాము. ఆర్క్‌ఫేస్‌లో ఎలా జరిగిందో అదే విధంగా చివరలో సగటు పూలింగ్ పూర్తిగా కనెక్ట్ చేయబడిన లేయర్‌తో భర్తీ చేయబడుతుంది. అయితే, వెక్టర్ ప్రాతినిధ్యాల పరిమాణం 128, 512 కాదు. మా శిక్షణా సెట్‌లో 10 మంది వ్యక్తుల 273 మిలియన్ ఫోటోలు ఉన్నాయి.

జాగ్రత్తగా ఎంపిక చేసిన సర్వర్ కాన్ఫిగరేషన్ ఆర్కిటెక్చర్ మరియు GPU కంప్యూటింగ్ కారణంగా మోడల్ చాలా త్వరగా నడుస్తుంది. మా అంతర్గత నెట్‌వర్క్‌లలో API నుండి ప్రతిస్పందనను స్వీకరించడానికి ఇది 100 ms నుండి పడుతుంది - ఇందులో ముఖ గుర్తింపు (ఫోటోలో ముఖాన్ని గుర్తించడం), API ప్రతిస్పందనలో PersonIDని గుర్తించడం మరియు తిరిగి ఇవ్వడం వంటివి ఉంటాయి. ఇన్‌కమింగ్ డేటా యొక్క పెద్ద వాల్యూమ్‌లతో - ఫోటోలు మరియు వీడియోలు - డేటాను సేవకు బదిలీ చేయడానికి మరియు ప్రతిస్పందనను స్వీకరించడానికి చాలా ఎక్కువ సమయం పడుతుంది.

1.2 మోడల్ యొక్క ప్రభావాన్ని అంచనా వేయడం

కానీ న్యూరల్ నెట్‌వర్క్‌ల సామర్థ్యాన్ని నిర్ణయించడం చాలా అస్పష్టమైన పని. మోడల్‌లు ఏ డేటా సెట్‌లపై శిక్షణ పొందారు మరియు నిర్దిష్ట డేటాతో పని చేయడానికి వాటిని ఆప్టిమైజ్ చేశారా అనే దానిపై వారి పని నాణ్యత ఆధారపడి ఉంటుంది.

మేము జనాదరణ పొందిన LFW ధృవీకరణ పరీక్షతో మా మోడల్ యొక్క ఖచ్చితత్వాన్ని అంచనా వేయడం ప్రారంభించాము, కానీ ఇది చాలా చిన్నది మరియు సులభం. 99,8% ఖచ్చితత్వాన్ని చేరుకున్న తర్వాత, ఇది ఇకపై ఉపయోగపడదు. గుర్తింపు నమూనాలను మూల్యాంకనం చేయడానికి మంచి పోటీ ఉంది - మెగాఫేస్, దానిపై మేము క్రమంగా 82% ర్యాంక్ 1కి చేరుకున్నాము. మెగాఫేస్ పరీక్షలో మిలియన్ ఫోటోగ్రాఫ్‌లు - డిస్ట్రాక్టర్‌లు ఉంటాయి - మరియు మోడల్ ఫేస్‌స్క్రబ్ నుండి అనేక వేల మంది ప్రముఖుల ఫోటోగ్రాఫ్‌లను బాగా గుర్తించగలగాలి. డిస్ట్రాక్టర్ల నుండి డేటాసెట్. అయినప్పటికీ, మెగాఫేస్ పరీక్షలో ఎర్రర్‌లను క్లియర్ చేసిన తర్వాత, క్లియర్ చేసిన వెర్షన్‌తో మేము 98% ర్యాంక్ 1 (ప్రముఖుల ఫోటోలు సాధారణంగా చాలా నిర్దిష్టంగా ఉంటాయి) ఖచ్చితత్వాన్ని సాధించినట్లు మేము కనుగొన్నాము. అందువల్ల, వారు మెగాఫేస్ మాదిరిగానే ప్రత్యేక గుర్తింపు పరీక్షను సృష్టించారు, కానీ "సాధారణ" వ్యక్తుల ఛాయాచిత్రాలతో. అప్పుడు మేము మా డేటాసెట్‌లలో గుర్తింపు ఖచ్చితత్వాన్ని మెరుగుపరిచాము మరియు చాలా ముందుకు వెళ్ళాము. అదనంగా, మేము అనేక వేల ఫోటోలను కలిగి ఉన్న క్లస్టరింగ్ నాణ్యత పరీక్షను ఉపయోగిస్తాము; ఇది వినియోగదారు క్లౌడ్‌లో ఫేస్ ట్యాగింగ్‌ను అనుకరిస్తుంది. ఈ సందర్భంలో, సమూహాలు సారూప్య వ్యక్తుల సమూహాలు, ప్రతి గుర్తించదగిన వ్యక్తికి ఒక సమూహం. మేము నిజమైన సమూహాలపై పని నాణ్యతను తనిఖీ చేసాము (నిజం).

వాస్తవానికి, ఏదైనా మోడల్‌తో గుర్తింపు లోపాలు సంభవిస్తాయి. కానీ నిర్దిష్ట పరిస్థితుల కోసం పరిమితులను చక్కగా ట్యూన్ చేయడం ద్వారా ఇటువంటి పరిస్థితులు తరచుగా పరిష్కరించబడతాయి (అన్ని కాన్ఫరెన్స్‌ల కోసం మేము ఒకే థ్రెషోల్డ్‌లను ఉపయోగిస్తాము, అయితే, ఉదాహరణకు, యాక్సెస్ కంట్రోల్ సిస్టమ్‌ల కోసం మేము థ్రెషోల్డ్‌లను బాగా పెంచాలి, తద్వారా తక్కువ తప్పుడు పాజిటివ్‌లు ఉంటాయి). కాన్ఫరెన్స్ సందర్శకులలో అత్యధికులు మా విజన్ ఫోటో బూత్‌ల ద్వారా సరిగ్గా గుర్తించబడ్డారు. కొన్నిసార్లు ఎవరైనా కత్తిరించిన ప్రివ్యూని చూసి, "మీ సిస్టమ్ పొరపాటు చేసింది, అది నేను కాదు" అని చెబుతారు. అప్పుడు మేము ఫోటోను పూర్తిగా తెరిచాము మరియు ఫోటోలో నిజంగా ఈ సందర్శకుడు ఉన్నారని తేలింది, మేము మాత్రమే అతనిని ఫోటో తీయడం లేదు, కానీ మరొకరు, ఆ వ్యక్తి బ్లర్ జోన్‌లో బ్యాక్‌గ్రౌండ్‌లో ఉన్నాడు. అంతేకాకుండా, ముఖం యొక్క భాగం కనిపించనప్పుడు లేదా వ్యక్తి ప్రొఫైల్‌లో నిలబడి ఉన్నప్పుడు లేదా సగం తిరిగినప్పుడు కూడా న్యూరల్ నెట్‌వర్క్ తరచుగా సరిగ్గా గుర్తిస్తుంది. వైడ్ యాంగిల్ లెన్స్‌తో షూట్ చేసేటప్పుడు ముఖం ఆప్టికల్ డిస్టార్షన్ ప్రాంతంలో ఉన్నప్పటికీ సిస్టమ్ ఒక వ్యక్తిని గుర్తించగలదు.

1.3 క్లిష్ట పరిస్థితుల్లో పరీక్షకు ఉదాహరణలు

మా న్యూరల్ నెట్‌వర్క్ ఎలా పని చేస్తుందో క్రింద ఉదాహరణలు ఉన్నాయి. ఫోటోలు ఇన్‌పుట్‌కు సమర్పించబడతాయి, ఆమె తప్పనిసరిగా వ్యక్తిని వ్యక్తిగత ఐడెంటిఫైయర్ అయిన PersonIDని ఉపయోగించి లేబుల్ చేయాలి. రెండు లేదా అంతకంటే ఎక్కువ చిత్రాలు ఒకే IDని కలిగి ఉంటే, మోడల్‌ల ప్రకారం, ఈ ఫోటోలు ఒకే వ్యక్తిని వర్ణిస్తాయి.

పరీక్షించేటప్పుడు, మేము నిర్దిష్ట ఫలితాన్ని సాధించడానికి కాన్ఫిగర్ చేయగల వివిధ పారామితులు మరియు మోడల్ థ్రెషోల్డ్‌లకు ప్రాప్యతను కలిగి ఉన్నామని వెంటనే గమనించండి. సాధారణ కేసులపై గరిష్ట ఖచ్చితత్వం కోసం పబ్లిక్ API ఆప్టిమైజ్ చేయబడింది.

ఫ్రంట్ ఫేసింగ్ ఫేస్ రికగ్నిషన్‌తో సరళమైన విషయంతో ప్రారంభిద్దాం.

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

బాగా, అది చాలా సులభం. పనిని క్లిష్టతరం చేద్దాం, గడ్డం మరియు కొన్ని సంవత్సరాలను జోడించండి.

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

ఇది కూడా చాలా కష్టం కాదని కొందరు చెబుతారు, ఎందుకంటే రెండు సందర్భాల్లోనూ మొత్తం ముఖం కనిపిస్తుంది, మరియు ముఖం గురించి చాలా సమాచారం అల్గోరిథంకు అందుబాటులో ఉంటుంది. సరే, టామ్ హార్డీని ప్రొఫైల్‌గా మారుద్దాం. ఈ సమస్య చాలా క్లిష్టంగా ఉంది మరియు తక్కువ లోపం రేటును కొనసాగిస్తూ విజయవంతంగా పరిష్కరించడానికి మేము చాలా కృషి చేసాము: మేము శిక్షణా సమితిని ఎంచుకున్నాము, న్యూరల్ నెట్‌వర్క్ ఆర్కిటెక్చర్ ద్వారా ఆలోచించి, లాస్ ఫంక్షన్‌లను మెరుగుపరిచాము మరియు ప్రీ-ప్రాసెసింగ్‌ను మెరుగుపరచాము. ఛాయాచిత్రాలు.

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

అతనికి శిరస్త్రాణం వేస్తాం:

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

మార్గం ద్వారా, ఇది చాలా క్లిష్ట పరిస్థితికి ఉదాహరణ, ఎందుకంటే ముఖం భారీగా అస్పష్టంగా ఉంది మరియు దిగువ ఫోటోలో కళ్ళను దాచే లోతైన నీడ కూడా ఉంది. నిజ జీవితంలో, ప్రజలు చాలా తరచుగా ముదురు అద్దాల సహాయంతో తమ రూపాన్ని మార్చుకుంటారు. టామ్‌తో కూడా అలాగే చేద్దాం.

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

సరే, వివిధ వయసుల ఫోటోలను తీయడానికి ప్రయత్నిద్దాం, ఈసారి వేరే నటుడితో ప్రయోగాలు చేస్తాం. చాలా క్లిష్టమైన ఉదాహరణను తీసుకుందాం, ఇక్కడ వయస్సు-సంబంధిత మార్పులు ప్రత్యేకంగా ఉచ్ఛరిస్తారు. పరిస్థితి చాలా దూరం కాదు; మీరు పాస్‌పోర్ట్‌లోని ఫోటోను బేరర్ ముఖంతో పోల్చాల్సిన అవసరం వచ్చినప్పుడు ఇది చాలా తరచుగా జరుగుతుంది. అన్నింటికంటే, యజమాని 20 సంవత్సరాల వయస్సులో ఉన్నప్పుడు మొదటి ఛాయాచిత్రం పాస్‌పోర్ట్‌కు జోడించబడుతుంది మరియు 45 సంవత్సరాల వయస్సులో ఒక వ్యక్తి బాగా మారవచ్చు:

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

అసాధ్యమైన మిషన్లపై ప్రధాన నిపుణుడు వయస్సుతో పెద్దగా మారలేదని మీరు అనుకుంటున్నారా? కొంతమంది కూడా టాప్ మరియు బాటమ్ ఫోటోలను మిళితం చేస్తారని నేను అనుకుంటున్నాను, అబ్బాయి సంవత్సరాలుగా చాలా మారిపోయాడు.

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

న్యూరల్ నెట్‌వర్క్‌లు చాలా తరచుగా ప్రదర్శనలో మార్పులను ఎదుర్కొంటాయి. ఉదాహరణకు, కొన్నిసార్లు మహిళలు సౌందర్య సాధనాల సహాయంతో తమ చిత్రాన్ని బాగా మార్చుకోవచ్చు:

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

ఇప్పుడు పనిని మరింత క్లిష్టతరం చేద్దాం: ముఖం యొక్క వివిధ భాగాలు వేర్వేరు ఛాయాచిత్రాలలో కప్పబడి ఉన్నాయని అనుకుందాం. అటువంటి సందర్భాలలో, అల్గోరిథం మొత్తం నమూనాలను పోల్చదు. అయితే, విజన్ ఇలాంటి పరిస్థితులను చక్కగా నిర్వహిస్తుంది.

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

మార్గం ద్వారా, ఫోటోగ్రాఫ్‌లో చాలా ముఖాలు ఉండవచ్చు; ఉదాహరణకు, హాల్ యొక్క సాధారణ ఫోటోలో 100 కంటే ఎక్కువ మంది వ్యక్తులు సరిపోతారు. న్యూరల్ నెట్‌వర్క్‌లకు ఇది చాలా కష్టమైన పరిస్థితి, ఎందుకంటే చాలా ముఖాలు విభిన్నంగా వెలిగించబడతాయి, కొన్ని దృష్టిలో లేవు. అయితే, ఫోటో తగినంత రిజల్యూషన్ మరియు నాణ్యతతో తీసినట్లయితే (ముఖాన్ని కవర్ చేసే చదరపుకి కనీసం 75 పిక్సెల్‌లు), విజన్ దానిని గుర్తించగలదు మరియు గుర్తించగలదు.

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

నిఘా కెమెరాల నుండి రిపోర్టేజ్ ఫోటోగ్రాఫ్‌లు మరియు చిత్రాల యొక్క ప్రత్యేకత ఏమిటంటే, వ్యక్తులు ఫోకస్ చేయడం లేదా ఆ సమయంలో కదులుతున్నందున తరచుగా అస్పష్టంగా ఉంటారు:

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

అలాగే, లైటింగ్ తీవ్రత చిత్రం నుండి చిత్రానికి చాలా తేడా ఉంటుంది. ఇది కూడా తరచుగా అడ్డంకిగా మారుతుంది; చాలా చీకటిగా మరియు చాలా తేలికగా ఉన్న చిత్రాలను సరిగ్గా ప్రాసెస్ చేయడంలో చాలా అల్గారిథమ్‌లు చాలా కష్టాలను కలిగి ఉంటాయి, వాటికి సరిగ్గా సరిపోలడం గురించి ప్రత్యేకంగా చెప్పనక్కర్లేదు. ఈ ఫలితాన్ని సాధించడానికి మీరు థ్రెషోల్డ్‌లను నిర్దిష్ట మార్గంలో కాన్ఫిగర్ చేయాలని నేను మీకు గుర్తు చేస్తున్నాను; ఈ ఫీచర్ ఇంకా పబ్లిక్‌గా అందుబాటులో లేదు. మేము అన్ని క్లయింట్‌ల కోసం ఒకే న్యూరల్ నెట్‌వర్క్‌ని ఉపయోగిస్తాము; ఇది చాలా ఆచరణాత్మక పనులకు తగిన థ్రెషోల్డ్‌లను కలిగి ఉంది.

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

మేము ఇటీవల అధిక ఖచ్చితత్వంతో ఆసియా ముఖాలను గుర్తించే మోడల్ యొక్క కొత్త వెర్షన్‌ను విడుదల చేసాము. ఇది ఒక పెద్ద సమస్యగా ఉండేది, దీనిని "మెషిన్ లెర్నింగ్" (లేదా "న్యూరల్ నెట్‌వర్క్") జాత్యహంకారం అని కూడా పిలుస్తారు. యూరోపియన్ మరియు అమెరికన్ న్యూరల్ నెట్‌వర్క్‌లు కాకేసియన్ ముఖాలను బాగా గుర్తించాయి, అయితే మంగోలాయిడ్ మరియు నీగ్రోయిడ్ ముఖాలతో పరిస్థితి చాలా దారుణంగా ఉంది. బహుశా, చైనాలో పరిస్థితి సరిగ్గా వ్యతిరేకం. ఇది ఒక నిర్దిష్ట దేశంలోని ఆధిపత్య రకాల వ్యక్తులను ప్రతిబింబించే శిక్షణ డేటా సెట్‌ల గురించి. అయితే, పరిస్థితి మారుతోంది; నేడు ఈ సమస్య అంత తీవ్రంగా లేదు. వివిధ జాతుల వ్యక్తులతో దృష్టికి ఎటువంటి సమస్య లేదు.

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

ముఖ గుర్తింపు అనేది మా సాంకేతికత యొక్క అనేక అనువర్తనాల్లో ఒకటి; ఏదైనా గుర్తించడానికి విజన్ శిక్షణ పొందవచ్చు. ఉదాహరణకు, లైసెన్స్ ప్లేట్‌లు, అల్గారిథమ్‌లకు కష్టతరమైన పరిస్థితులతో సహా: పదునైన కోణాల్లో, మురికిగా మరియు లైసెన్స్ ప్లేట్‌లను చదవడం కష్టం.

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

2. ఆచరణాత్మక ఉపయోగ సందర్భాలు

2.1 భౌతిక యాక్సెస్ నియంత్రణ: ఇద్దరు వ్యక్తులు ఒకే పాస్‌ను ఉపయోగించినప్పుడు

విజన్ సహాయంతో, మీరు ఉద్యోగుల రాక మరియు నిష్క్రమణను రికార్డ్ చేయడానికి వ్యవస్థలను అమలు చేయవచ్చు. ఎలక్ట్రానిక్ పాస్‌లపై ఆధారపడిన సాంప్రదాయిక వ్యవస్థ స్పష్టమైన ప్రతికూలతలను కలిగి ఉంది, ఉదాహరణకు, మీరు ఒక బ్యాడ్జ్‌ని ఉపయోగించి ఇద్దరు వ్యక్తులను పాస్ చేయవచ్చు. యాక్సెస్ కంట్రోల్ సిస్టమ్ (ACS) విజన్‌తో అనుబంధంగా ఉంటే, అది ఎవరు వచ్చారు/వెళ్లారు మరియు ఎప్పుడు అనే విషయాలను నిజాయితీగా రికార్డ్ చేస్తుంది.

2.2 సమయం ట్రాకింగ్

ఈ విజన్ వినియోగ కేసు మునుపటి దానికి దగ్గరి సంబంధం కలిగి ఉంది. మీరు మా ఫేషియల్ రికగ్నిషన్ సర్వీస్‌తో యాక్సెస్ సిస్టమ్‌ను సప్లిమెంట్ చేస్తే, యాక్సెస్ కంట్రోల్ ఉల్లంఘనలను గుర్తించడమే కాకుండా, భవనం లేదా సదుపాయంలో ఉద్యోగుల వాస్తవ ఉనికిని నమోదు చేయగలుగుతుంది. మరో మాటలో చెప్పాలంటే, అతని సహోద్యోగులు అతని పై అధికారుల ముందు అతని కోసం కవర్ చేసినప్పటికీ, ఎవరు పనికి వచ్చారు మరియు ఏ సమయంలో వెళ్లిపోయారు మరియు పూర్తిగా పనిని ఎగ్గొట్టిన వారిని నిజాయితీగా పరిగణనలోకి తీసుకోవడానికి విజన్ మీకు సహాయం చేస్తుంది.

2.3 వీడియో అనలిటిక్స్: పీపుల్ ట్రాకింగ్ మరియు సెక్యూరిటీ

విజన్‌ని ఉపయోగించి వ్యక్తులను ట్రాక్ చేయడం ద్వారా, మీరు షాపింగ్ ప్రాంతాలు, రైలు స్టేషన్‌లు, మార్గాలు, వీధులు మరియు అనేక ఇతర బహిరంగ ప్రదేశాల యొక్క నిజమైన ట్రాఫిక్‌ను ఖచ్చితంగా అంచనా వేయవచ్చు. మా ట్రాకింగ్ ప్రాప్యతను నియంత్రించడంలో కూడా గొప్ప సహాయంగా ఉంటుంది, ఉదాహరణకు, గిడ్డంగి లేదా ఇతర ముఖ్యమైన కార్యాలయ ప్రాంగణానికి. మరియు వాస్తవానికి, వ్యక్తులు మరియు ముఖాలను ట్రాక్ చేయడం భద్రతా సమస్యలను పరిష్కరించడంలో సహాయపడుతుంది. మీ స్టోర్ నుండి ఎవరైనా దొంగిలిస్తున్నట్లు పట్టుకున్నారా? మీ వీడియో అనలిటిక్స్ సాఫ్ట్‌వేర్ బ్లాక్‌లిస్ట్‌కు Vision ద్వారా తిరిగి అందించబడిన అతని PersonIDని జోడించండి మరియు తదుపరిసారి ఈ రకం మళ్లీ కనిపించినట్లయితే సిస్టమ్ వెంటనే భద్రతను హెచ్చరిస్తుంది.

2.4 వాణిజ్యంలో

రిటైల్ మరియు వివిధ సేవా వ్యాపారాలు క్యూ గుర్తింపుపై ఆసక్తిని కలిగి ఉన్నాయి. విజన్ సహాయంతో, ఇది ప్రజల యాదృచ్ఛిక గుంపు కాదని, క్యూ అని మీరు గుర్తించవచ్చు మరియు దాని పొడవును నిర్ణయించవచ్చు. ఆపై సిస్టమ్ క్యూలో ఉన్నవారికి క్యూ గురించి తెలియజేస్తుంది, తద్వారా వారు పరిస్థితిని గుర్తించగలరు: సందర్శకుల ప్రవాహం ఉంది మరియు అదనపు కార్మికులను పిలవాలి, లేదా ఎవరైనా వారి ఉద్యోగ విధుల్లో జాప్యం చేస్తున్నారు.

హాల్‌లోని కంపెనీ ఉద్యోగులను సందర్శకుల నుండి వేరు చేయడం మరో ఆసక్తికరమైన పని. సాధారణంగా, సిస్టమ్ నిర్దిష్ట బట్టలు (దుస్తుల కోడ్) లేదా కొన్ని విలక్షణమైన లక్షణాలతో (బ్రాండెడ్ స్కార్ఫ్, ఛాతీపై బ్యాడ్జ్ మరియు మొదలైనవి) ధరించే వస్తువులను వేరు చేయడానికి శిక్షణ పొందుతుంది. ఇది హాజరును మరింత ఖచ్చితంగా అంచనా వేయడానికి సహాయపడుతుంది (తద్వారా ఉద్యోగులు హాల్‌లోని వ్యక్తుల గణాంకాలను వారి ఉనికి ద్వారా "పెంచరు").

ముఖ గుర్తింపును ఉపయోగించి, మీరు మీ ప్రేక్షకులను కూడా అంచనా వేయవచ్చు: సందర్శకుల విధేయత ఏమిటి, అంటే ఎంత మంది వ్యక్తులు మీ స్థాపనకు తిరిగి వస్తున్నారు మరియు ఏ ఫ్రీక్వెన్సీతో ఉంటారు. నెలకు మీ వద్దకు ఎంత మంది ప్రత్యేక సందర్శకులు వస్తారో లెక్కించండి. ఆకర్షణ మరియు నిలుపుదల ఖర్చులను ఆప్టిమైజ్ చేయడానికి, మీరు వారంలోని రోజు మరియు రోజు సమయాన్ని బట్టి ట్రాఫిక్‌లో మార్పును కూడా కనుగొనవచ్చు.

ఫ్రాంఛైజర్‌లు మరియు చైన్ కంపెనీలు వివిధ రిటైల్ అవుట్‌లెట్‌ల బ్రాండింగ్ నాణ్యత యొక్క ఫోటో అంచనాను ఆర్డర్ చేయవచ్చు: లోగోలు, సంకేతాలు, పోస్టర్‌లు, బ్యానర్‌లు మొదలైన వాటి ఉనికి.

2.5 రవాణా ద్వారా

వీడియో అనలిటిక్స్ ఉపయోగించి భద్రతను నిర్ధారించడానికి మరొక ఉదాహరణ విమానాశ్రయాలు లేదా రైలు స్టేషన్ల హాళ్లలో వదిలివేసిన వస్తువులను గుర్తించడం. వందలాది తరగతుల వస్తువులను గుర్తించడానికి విజన్ శిక్షణ పొందవచ్చు: ఫర్నిచర్ ముక్కలు, బ్యాగులు, సూట్‌కేసులు, గొడుగులు, వివిధ రకాల దుస్తులు, సీసాలు మొదలైనవి. మీ వీడియో అనలిటిక్స్ సిస్టమ్ యజమాని లేని వస్తువును గుర్తించి, విజన్‌ని ఉపయోగించి దాన్ని గుర్తిస్తే, అది భద్రతా సేవకు సిగ్నల్‌ను పంపుతుంది. ఇదే విధమైన పని బహిరంగ ప్రదేశాల్లో అసాధారణ పరిస్థితులను స్వయంచాలకంగా గుర్తించడంతో సంబంధం కలిగి ఉంటుంది: ఎవరైనా అనారోగ్యానికి గురవుతారు, లేదా ఎవరైనా తప్పు ప్రదేశంలో ధూమపానం చేయడం, లేదా ఒక వ్యక్తి పట్టాలపై పడటం మరియు మొదలైనవి - ఈ నమూనాలన్నీ వీడియో విశ్లేషణ వ్యవస్థల ద్వారా గుర్తించబడతాయి. విజన్ API ద్వారా.

2.6 పత్రం ప్రవాహం

మేము ప్రస్తుతం అభివృద్ధి చేస్తున్న విజన్ యొక్క మరొక ఆసక్తికరమైన భవిష్యత్తు అప్లికేషన్ డాక్యుమెంట్ రికగ్నిషన్ మరియు డేటాబేస్‌లలోకి వాటి ఆటోమేటిక్ పార్సింగ్. అంతులేని సిరీస్‌లు, నంబర్‌లు, జారీ చేసిన తేదీలు, ఖాతా నంబర్‌లు, బ్యాంక్ వివరాలు, తేదీలు మరియు పుట్టిన ప్రదేశాలు మరియు అనేక ఇతర అధికారిక డేటాను మాన్యువల్‌గా నమోదు చేయడానికి (లేదా అధ్వాన్నంగా నమోదు చేయడానికి) బదులుగా, మీరు డాక్యుమెంట్‌లను స్కాన్ చేయవచ్చు మరియు వాటిని స్వయంచాలకంగా సురక్షిత ఛానెల్ ద్వారా పంపవచ్చు క్లౌడ్‌కు API, ఇక్కడ సిస్టమ్ ఫ్లైలో ఈ పత్రాలను గుర్తిస్తుంది, వాటిని అన్వయిస్తుంది మరియు డేటాబేస్‌లోకి ఆటోమేటిక్ ఎంట్రీ కోసం అవసరమైన ఫార్మాట్‌లో డేటాతో ప్రతిస్పందనను అందిస్తుంది. పాస్‌పోర్ట్‌లు, SNILS, TIN, జనన ధృవీకరణ పత్రాలు, వివాహ ధృవీకరణ పత్రాలు మరియు ఇతరుల మధ్య తేడాను - ఈ రోజు విజన్‌కు పత్రాలను (PDFతో సహా) ఎలా వర్గీకరించాలో ఇప్పటికే తెలుసు.

వాస్తవానికి, న్యూరల్ నెట్‌వర్క్ ఈ పరిస్థితులన్నింటినీ బాక్స్ వెలుపల నిర్వహించలేకపోయింది. ప్రతి సందర్భంలో, ఒక నిర్దిష్ట కస్టమర్ కోసం కొత్త మోడల్ నిర్మించబడింది, అనేక అంశాలు, సూక్ష్మ నైపుణ్యాలు మరియు అవసరాలు పరిగణనలోకి తీసుకోబడతాయి, డేటా సెట్లు ఎంపిక చేయబడతాయి మరియు శిక్షణ, పరీక్ష మరియు కాన్ఫిగరేషన్ యొక్క పునరావృత్తులు నిర్వహించబడతాయి.

3. API ఆపరేషన్ పథకం

వినియోగదారుల కోసం విజన్ యొక్క "ప్రవేశ ద్వారం" REST API. ఇది ఇన్‌పుట్‌గా నెట్‌వర్క్ కెమెరాల (RTSP స్ట్రీమ్‌లు) నుండి ఫోటోలు, వీడియో ఫైల్‌లు మరియు ప్రసారాలను స్వీకరించగలదు.

విజన్ ఉపయోగించడానికి, మీరు అవసరం సైన్ అప్ Mail.ru క్లౌడ్ సొల్యూషన్స్ సేవలో మరియు యాక్సెస్ టోకెన్‌లను స్వీకరించండి (client_id + client_secret). OAuth ప్రోటోకాల్ ఉపయోగించి వినియోగదారు ప్రమాణీకరణ నిర్వహించబడుతుంది. POST అభ్యర్థనలలోని మూల డేటా APIకి పంపబడుతుంది. మరియు ప్రతిస్పందనగా, క్లయింట్ API నుండి JSON ఆకృతిలో గుర్తింపు ఫలితాన్ని పొందుతుంది మరియు ప్రతిస్పందన నిర్మాణాత్మకంగా ఉంటుంది: ఇది కనుగొనబడిన వస్తువులు మరియు వాటి కోఆర్డినేట్‌ల గురించి సమాచారాన్ని కలిగి ఉంటుంది.

గడ్డంతో, ముదురు గ్లాసెస్‌లో మరియు ప్రొఫైల్‌లో: కంప్యూటర్ దృష్టికి క్లిష్ట పరిస్థితులు

నమూనా సమాధానం

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

సమాధానంలో ఆసక్తికరమైన పరామితి అద్భుతం ఉంది - ఇది ఫోటోలోని ముఖం యొక్క షరతులతో కూడిన “చల్లదనం”, దాని సహాయంతో మేము క్రమం నుండి ముఖం యొక్క ఉత్తమ షాట్‌ను ఎంచుకుంటాము. సోషల్ నెట్‌వర్క్‌లలో ఫోటో లైక్ చేయబడే అవకాశాన్ని అంచనా వేయడానికి మేము న్యూరల్ నెట్‌వర్క్‌కు శిక్షణ ఇచ్చాము. ఫోటో క్వాలిటీ ఎంత మెరుగ్గా ఉందో మరియు ముఖం ఎంతగా నవ్వితే అంత అద్భుతం.

API విజన్ స్పేస్ అనే భావనను ఉపయోగిస్తుంది. ఇది విభిన్న ముఖాలను సృష్టించడానికి ఒక సాధనం. స్పేస్‌ల ఉదాహరణలు నలుపు మరియు తెలుపు జాబితాలు, సందర్శకుల జాబితాలు, ఉద్యోగులు, క్లయింట్లు మొదలైనవి. విజన్‌లోని ప్రతి టోకెన్ కోసం, మీరు గరిష్టంగా 10 స్పేస్‌లను సృష్టించవచ్చు, ప్రతి స్థలంలో గరిష్టంగా 50 వేల పర్సన్‌ఐడిలు ఉండవచ్చు, అంటే 500 వేల వరకు ప్రతి టోకెన్. అంతేకాకుండా, ఒక్కో ఖాతాకు టోకెన్ల సంఖ్య పరిమితం కాదు.

ఈ రోజు API కింది గుర్తింపు మరియు గుర్తింపు పద్ధతులకు మద్దతు ఇస్తుంది:

  • గుర్తించండి/సెట్ చేయండి - ముఖాలను గుర్తించడం మరియు గుర్తించడం. ప్రతి ప్రత్యేక వ్యక్తికి స్వయంచాలకంగా PersonIDని కేటాయిస్తుంది, PersonIDని మరియు కనుగొనబడిన వ్యక్తుల కోఆర్డినేట్‌లను అందిస్తుంది.
  • తొలగించు - వ్యక్తి డేటాబేస్ నుండి నిర్దిష్ట వ్యక్తి IDని తొలగించడం.
  • కత్తిరించు - PersonID నుండి మొత్తం స్థలాన్ని క్లియర్ చేస్తుంది, ఇది పరీక్ష స్థలంగా ఉపయోగించబడితే మరియు మీరు ఉత్పత్తి కోసం డేటాబేస్‌ను రీసెట్ చేయాల్సి ఉంటే ఉపయోగకరంగా ఉంటుంది.
  • గుర్తించడం - వస్తువులు, దృశ్యాలు, లైసెన్స్ ప్లేట్లు, ల్యాండ్‌మార్క్‌లు, క్యూలు మొదలైన వాటిని గుర్తించడం. దొరికిన వస్తువులు మరియు వాటి కోఆర్డినేట్‌ల తరగతిని అందిస్తుంది
  • పత్రాల కోసం గుర్తించండి - రష్యన్ ఫెడరేషన్ యొక్క నిర్దిష్ట రకాల పత్రాలను గుర్తిస్తుంది (పాస్పోర్ట్, SNILS, పన్ను గుర్తింపు సంఖ్య మొదలైనవి వేరు చేస్తుంది).

మేము OCR, లింగం, వయస్సు మరియు భావోద్వేగాలను నిర్ణయించడం, అలాగే మర్చండైజింగ్ సమస్యలను పరిష్కరించడం, అంటే స్టోర్‌లలో వస్తువుల ప్రదర్శనను స్వయంచాలకంగా నియంత్రించడం వంటి పద్ధతులపై త్వరలో పనిని పూర్తి చేస్తాము. మీరు పూర్తి API డాక్యుమెంటేషన్‌ను ఇక్కడ కనుగొనవచ్చు: https://mcs.mail.ru/help/vision-api

4. ముగింపు

ఇప్పుడు, పబ్లిక్ API ద్వారా, మీరు ఫోటోలు మరియు వీడియోలలో ముఖ గుర్తింపును యాక్సెస్ చేయవచ్చు; వివిధ వస్తువులు, లైసెన్స్ ప్లేట్లు, ల్యాండ్‌మార్క్‌లు, పత్రాలు మరియు మొత్తం దృశ్యాల గుర్తింపుకు మద్దతు ఉంది. అప్లికేషన్ దృశ్యాలు - సముద్రం. రండి, మా సేవను పరీక్షించండి, అత్యంత గమ్మత్తైన పనులను సెట్ చేయండి. మొదటి 5000 లావాదేవీలు ఉచితం. బహుశా ఇది మీ ప్రాజెక్ట్‌ల కోసం "తప్పిపోయిన పదార్ధం" కావచ్చు.

రిజిస్ట్రేషన్ మరియు కనెక్షన్ తర్వాత మీరు తక్షణమే APIని యాక్సెస్ చేయవచ్చు. దృష్టి. హబ్రా వినియోగదారులందరూ అదనపు లావాదేవీల కోసం ప్రమోషనల్ కోడ్‌ను అందుకుంటారు. దయచేసి మీ ఖాతాను నమోదు చేసుకోవడానికి మీరు ఉపయోగించిన ఇమెయిల్ చిరునామాను నాకు వ్రాయండి!

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి