మా భవిష్యత్ కంప్యూటర్ విజన్ సిస్టమ్ కోసం సాంకేతికతలు మరియు నమూనాలు క్రమంగా మరియు మా కంపెనీ యొక్క వివిధ ప్రాజెక్ట్లలో - మెయిల్, క్లౌడ్, శోధనలో సృష్టించబడ్డాయి మరియు మెరుగుపరచబడ్డాయి. వారు మంచి జున్ను లేదా కాగ్నాక్ లాగా పరిపక్వం చెందారు. మా నాడీ నెట్వర్క్లు గుర్తింపులో అద్భుతమైన ఫలితాలను చూపుతాయని ఒక రోజు మేము గ్రహించాము మరియు వాటిని ఒకే b2b ఉత్పత్తిగా - విజన్గా మిళితం చేయాలని నిర్ణయించుకున్నాము - ఇప్పుడు మనం ఉపయోగించుకుంటాము మరియు మీకు ఉపయోగించమని అందిస్తున్నాము.
నేడు, Mail.Ru క్లౌడ్ సొల్యూషన్స్ ప్లాట్ఫారమ్లోని మా కంప్యూటర్ విజన్ టెక్నాలజీ విజయవంతంగా పని చేస్తోంది మరియు చాలా క్లిష్టమైన ఆచరణాత్మక సమస్యలను పరిష్కరిస్తోంది. ఇది మా డేటా సెట్లపై శిక్షణ పొందిన మరియు అనువర్తిత సమస్యలను పరిష్కరించడంలో నైపుణ్యం కలిగిన అనేక న్యూరల్ నెట్వర్క్లపై ఆధారపడి ఉంటుంది. అన్ని సేవలు మా సర్వర్ సౌకర్యాలపై నడుస్తాయి. మీరు పబ్లిక్ విజన్ APIని మీ అప్లికేషన్లలో ఇంటిగ్రేట్ చేయవచ్చు, దీని ద్వారా సేవ యొక్క అన్ని సామర్థ్యాలు అందుబాటులో ఉంటాయి. API వేగంగా ఉంది - సర్వర్ GPUలకు ధన్యవాదాలు, మా నెట్వర్క్లో సగటు ప్రతిస్పందన సమయం 100 ms.
పిల్లి వద్దకు వెళ్లండి, విజన్ యొక్క పనికి సంబంధించిన వివరణాత్మక కథ మరియు అనేక ఉదాహరణలు ఉన్నాయి.
మేము పేర్కొన్న ముఖ గుర్తింపు సాంకేతికతలను ఉపయోగించే సేవకు ఉదాహరణగా, మేము ఉదహరించవచ్చు
1. మా ఫేస్ రికగ్నిషన్ మోడల్
1.1 న్యూరల్ నెట్వర్క్ మరియు ప్రాసెసింగ్ వేగం
గుర్తింపు కోసం, మేము ResNet 101 న్యూరల్ నెట్వర్క్ మోడల్ యొక్క సవరణను ఉపయోగిస్తాము. ఆర్క్ఫేస్లో ఎలా జరిగిందో అదే విధంగా చివరలో సగటు పూలింగ్ పూర్తిగా కనెక్ట్ చేయబడిన లేయర్తో భర్తీ చేయబడుతుంది. అయితే, వెక్టర్ ప్రాతినిధ్యాల పరిమాణం 128, 512 కాదు. మా శిక్షణా సెట్లో 10 మంది వ్యక్తుల 273 మిలియన్ ఫోటోలు ఉన్నాయి.
జాగ్రత్తగా ఎంపిక చేసిన సర్వర్ కాన్ఫిగరేషన్ ఆర్కిటెక్చర్ మరియు GPU కంప్యూటింగ్ కారణంగా మోడల్ చాలా త్వరగా నడుస్తుంది. మా అంతర్గత నెట్వర్క్లలో API నుండి ప్రతిస్పందనను స్వీకరించడానికి ఇది 100 ms నుండి పడుతుంది - ఇందులో ముఖ గుర్తింపు (ఫోటోలో ముఖాన్ని గుర్తించడం), API ప్రతిస్పందనలో PersonIDని గుర్తించడం మరియు తిరిగి ఇవ్వడం వంటివి ఉంటాయి. ఇన్కమింగ్ డేటా యొక్క పెద్ద వాల్యూమ్లతో - ఫోటోలు మరియు వీడియోలు - డేటాను సేవకు బదిలీ చేయడానికి మరియు ప్రతిస్పందనను స్వీకరించడానికి చాలా ఎక్కువ సమయం పడుతుంది.
1.2 మోడల్ యొక్క ప్రభావాన్ని అంచనా వేయడం
కానీ న్యూరల్ నెట్వర్క్ల సామర్థ్యాన్ని నిర్ణయించడం చాలా అస్పష్టమైన పని. మోడల్లు ఏ డేటా సెట్లపై శిక్షణ పొందారు మరియు నిర్దిష్ట డేటాతో పని చేయడానికి వాటిని ఆప్టిమైజ్ చేశారా అనే దానిపై వారి పని నాణ్యత ఆధారపడి ఉంటుంది.
మేము జనాదరణ పొందిన LFW ధృవీకరణ పరీక్షతో మా మోడల్ యొక్క ఖచ్చితత్వాన్ని అంచనా వేయడం ప్రారంభించాము, కానీ ఇది చాలా చిన్నది మరియు సులభం. 99,8% ఖచ్చితత్వాన్ని చేరుకున్న తర్వాత, ఇది ఇకపై ఉపయోగపడదు. గుర్తింపు నమూనాలను మూల్యాంకనం చేయడానికి మంచి పోటీ ఉంది - మెగాఫేస్, దానిపై మేము క్రమంగా 82% ర్యాంక్ 1కి చేరుకున్నాము. మెగాఫేస్ పరీక్షలో మిలియన్ ఫోటోగ్రాఫ్లు - డిస్ట్రాక్టర్లు ఉంటాయి - మరియు మోడల్ ఫేస్స్క్రబ్ నుండి అనేక వేల మంది ప్రముఖుల ఫోటోగ్రాఫ్లను బాగా గుర్తించగలగాలి. డిస్ట్రాక్టర్ల నుండి డేటాసెట్. అయినప్పటికీ, మెగాఫేస్ పరీక్షలో ఎర్రర్లను క్లియర్ చేసిన తర్వాత, క్లియర్ చేసిన వెర్షన్తో మేము 98% ర్యాంక్ 1 (ప్రముఖుల ఫోటోలు సాధారణంగా చాలా నిర్దిష్టంగా ఉంటాయి) ఖచ్చితత్వాన్ని సాధించినట్లు మేము కనుగొన్నాము. అందువల్ల, వారు మెగాఫేస్ మాదిరిగానే ప్రత్యేక గుర్తింపు పరీక్షను సృష్టించారు, కానీ "సాధారణ" వ్యక్తుల ఛాయాచిత్రాలతో. అప్పుడు మేము మా డేటాసెట్లలో గుర్తింపు ఖచ్చితత్వాన్ని మెరుగుపరిచాము మరియు చాలా ముందుకు వెళ్ళాము. అదనంగా, మేము అనేక వేల ఫోటోలను కలిగి ఉన్న క్లస్టరింగ్ నాణ్యత పరీక్షను ఉపయోగిస్తాము; ఇది వినియోగదారు క్లౌడ్లో ఫేస్ ట్యాగింగ్ను అనుకరిస్తుంది. ఈ సందర్భంలో, సమూహాలు సారూప్య వ్యక్తుల సమూహాలు, ప్రతి గుర్తించదగిన వ్యక్తికి ఒక సమూహం. మేము నిజమైన సమూహాలపై పని నాణ్యతను తనిఖీ చేసాము (నిజం).
వాస్తవానికి, ఏదైనా మోడల్తో గుర్తింపు లోపాలు సంభవిస్తాయి. కానీ నిర్దిష్ట పరిస్థితుల కోసం పరిమితులను చక్కగా ట్యూన్ చేయడం ద్వారా ఇటువంటి పరిస్థితులు తరచుగా పరిష్కరించబడతాయి (అన్ని కాన్ఫరెన్స్ల కోసం మేము ఒకే థ్రెషోల్డ్లను ఉపయోగిస్తాము, అయితే, ఉదాహరణకు, యాక్సెస్ కంట్రోల్ సిస్టమ్ల కోసం మేము థ్రెషోల్డ్లను బాగా పెంచాలి, తద్వారా తక్కువ తప్పుడు పాజిటివ్లు ఉంటాయి). కాన్ఫరెన్స్ సందర్శకులలో అత్యధికులు మా విజన్ ఫోటో బూత్ల ద్వారా సరిగ్గా గుర్తించబడ్డారు. కొన్నిసార్లు ఎవరైనా కత్తిరించిన ప్రివ్యూని చూసి, "మీ సిస్టమ్ పొరపాటు చేసింది, అది నేను కాదు" అని చెబుతారు. అప్పుడు మేము ఫోటోను పూర్తిగా తెరిచాము మరియు ఫోటోలో నిజంగా ఈ సందర్శకుడు ఉన్నారని తేలింది, మేము మాత్రమే అతనిని ఫోటో తీయడం లేదు, కానీ మరొకరు, ఆ వ్యక్తి బ్లర్ జోన్లో బ్యాక్గ్రౌండ్లో ఉన్నాడు. అంతేకాకుండా, ముఖం యొక్క భాగం కనిపించనప్పుడు లేదా వ్యక్తి ప్రొఫైల్లో నిలబడి ఉన్నప్పుడు లేదా సగం తిరిగినప్పుడు కూడా న్యూరల్ నెట్వర్క్ తరచుగా సరిగ్గా గుర్తిస్తుంది. వైడ్ యాంగిల్ లెన్స్తో షూట్ చేసేటప్పుడు ముఖం ఆప్టికల్ డిస్టార్షన్ ప్రాంతంలో ఉన్నప్పటికీ సిస్టమ్ ఒక వ్యక్తిని గుర్తించగలదు.
1.3 క్లిష్ట పరిస్థితుల్లో పరీక్షకు ఉదాహరణలు
మా న్యూరల్ నెట్వర్క్ ఎలా పని చేస్తుందో క్రింద ఉదాహరణలు ఉన్నాయి. ఫోటోలు ఇన్పుట్కు సమర్పించబడతాయి, ఆమె తప్పనిసరిగా వ్యక్తిని వ్యక్తిగత ఐడెంటిఫైయర్ అయిన PersonIDని ఉపయోగించి లేబుల్ చేయాలి. రెండు లేదా అంతకంటే ఎక్కువ చిత్రాలు ఒకే IDని కలిగి ఉంటే, మోడల్ల ప్రకారం, ఈ ఫోటోలు ఒకే వ్యక్తిని వర్ణిస్తాయి.
పరీక్షించేటప్పుడు, మేము నిర్దిష్ట ఫలితాన్ని సాధించడానికి కాన్ఫిగర్ చేయగల వివిధ పారామితులు మరియు మోడల్ థ్రెషోల్డ్లకు ప్రాప్యతను కలిగి ఉన్నామని వెంటనే గమనించండి. సాధారణ కేసులపై గరిష్ట ఖచ్చితత్వం కోసం పబ్లిక్ API ఆప్టిమైజ్ చేయబడింది.
ఫ్రంట్ ఫేసింగ్ ఫేస్ రికగ్నిషన్తో సరళమైన విషయంతో ప్రారంభిద్దాం.
బాగా, అది చాలా సులభం. పనిని క్లిష్టతరం చేద్దాం, గడ్డం మరియు కొన్ని సంవత్సరాలను జోడించండి.
ఇది కూడా చాలా కష్టం కాదని కొందరు చెబుతారు, ఎందుకంటే రెండు సందర్భాల్లోనూ మొత్తం ముఖం కనిపిస్తుంది, మరియు ముఖం గురించి చాలా సమాచారం అల్గోరిథంకు అందుబాటులో ఉంటుంది. సరే, టామ్ హార్డీని ప్రొఫైల్గా మారుద్దాం. ఈ సమస్య చాలా క్లిష్టంగా ఉంది మరియు తక్కువ లోపం రేటును కొనసాగిస్తూ విజయవంతంగా పరిష్కరించడానికి మేము చాలా కృషి చేసాము: మేము శిక్షణా సమితిని ఎంచుకున్నాము, న్యూరల్ నెట్వర్క్ ఆర్కిటెక్చర్ ద్వారా ఆలోచించి, లాస్ ఫంక్షన్లను మెరుగుపరిచాము మరియు ప్రీ-ప్రాసెసింగ్ను మెరుగుపరచాము. ఛాయాచిత్రాలు.
అతనికి శిరస్త్రాణం వేస్తాం:
మార్గం ద్వారా, ఇది చాలా క్లిష్ట పరిస్థితికి ఉదాహరణ, ఎందుకంటే ముఖం భారీగా అస్పష్టంగా ఉంది మరియు దిగువ ఫోటోలో కళ్ళను దాచే లోతైన నీడ కూడా ఉంది. నిజ జీవితంలో, ప్రజలు చాలా తరచుగా ముదురు అద్దాల సహాయంతో తమ రూపాన్ని మార్చుకుంటారు. టామ్తో కూడా అలాగే చేద్దాం.
సరే, వివిధ వయసుల ఫోటోలను తీయడానికి ప్రయత్నిద్దాం, ఈసారి వేరే నటుడితో ప్రయోగాలు చేస్తాం. చాలా క్లిష్టమైన ఉదాహరణను తీసుకుందాం, ఇక్కడ వయస్సు-సంబంధిత మార్పులు ప్రత్యేకంగా ఉచ్ఛరిస్తారు. పరిస్థితి చాలా దూరం కాదు; మీరు పాస్పోర్ట్లోని ఫోటోను బేరర్ ముఖంతో పోల్చాల్సిన అవసరం వచ్చినప్పుడు ఇది చాలా తరచుగా జరుగుతుంది. అన్నింటికంటే, యజమాని 20 సంవత్సరాల వయస్సులో ఉన్నప్పుడు మొదటి ఛాయాచిత్రం పాస్పోర్ట్కు జోడించబడుతుంది మరియు 45 సంవత్సరాల వయస్సులో ఒక వ్యక్తి బాగా మారవచ్చు:
అసాధ్యమైన మిషన్లపై ప్రధాన నిపుణుడు వయస్సుతో పెద్దగా మారలేదని మీరు అనుకుంటున్నారా? కొంతమంది కూడా టాప్ మరియు బాటమ్ ఫోటోలను మిళితం చేస్తారని నేను అనుకుంటున్నాను, అబ్బాయి సంవత్సరాలుగా చాలా మారిపోయాడు.
న్యూరల్ నెట్వర్క్లు చాలా తరచుగా ప్రదర్శనలో మార్పులను ఎదుర్కొంటాయి. ఉదాహరణకు, కొన్నిసార్లు మహిళలు సౌందర్య సాధనాల సహాయంతో తమ చిత్రాన్ని బాగా మార్చుకోవచ్చు:
ఇప్పుడు పనిని మరింత క్లిష్టతరం చేద్దాం: ముఖం యొక్క వివిధ భాగాలు వేర్వేరు ఛాయాచిత్రాలలో కప్పబడి ఉన్నాయని అనుకుందాం. అటువంటి సందర్భాలలో, అల్గోరిథం మొత్తం నమూనాలను పోల్చదు. అయితే, విజన్ ఇలాంటి పరిస్థితులను చక్కగా నిర్వహిస్తుంది.
మార్గం ద్వారా, ఫోటోగ్రాఫ్లో చాలా ముఖాలు ఉండవచ్చు; ఉదాహరణకు, హాల్ యొక్క సాధారణ ఫోటోలో 100 కంటే ఎక్కువ మంది వ్యక్తులు సరిపోతారు. న్యూరల్ నెట్వర్క్లకు ఇది చాలా కష్టమైన పరిస్థితి, ఎందుకంటే చాలా ముఖాలు విభిన్నంగా వెలిగించబడతాయి, కొన్ని దృష్టిలో లేవు. అయితే, ఫోటో తగినంత రిజల్యూషన్ మరియు నాణ్యతతో తీసినట్లయితే (ముఖాన్ని కవర్ చేసే చదరపుకి కనీసం 75 పిక్సెల్లు), విజన్ దానిని గుర్తించగలదు మరియు గుర్తించగలదు.
నిఘా కెమెరాల నుండి రిపోర్టేజ్ ఫోటోగ్రాఫ్లు మరియు చిత్రాల యొక్క ప్రత్యేకత ఏమిటంటే, వ్యక్తులు ఫోకస్ చేయడం లేదా ఆ సమయంలో కదులుతున్నందున తరచుగా అస్పష్టంగా ఉంటారు:
అలాగే, లైటింగ్ తీవ్రత చిత్రం నుండి చిత్రానికి చాలా తేడా ఉంటుంది. ఇది కూడా తరచుగా అడ్డంకిగా మారుతుంది; చాలా చీకటిగా మరియు చాలా తేలికగా ఉన్న చిత్రాలను సరిగ్గా ప్రాసెస్ చేయడంలో చాలా అల్గారిథమ్లు చాలా కష్టాలను కలిగి ఉంటాయి, వాటికి సరిగ్గా సరిపోలడం గురించి ప్రత్యేకంగా చెప్పనక్కర్లేదు. ఈ ఫలితాన్ని సాధించడానికి మీరు థ్రెషోల్డ్లను నిర్దిష్ట మార్గంలో కాన్ఫిగర్ చేయాలని నేను మీకు గుర్తు చేస్తున్నాను; ఈ ఫీచర్ ఇంకా పబ్లిక్గా అందుబాటులో లేదు. మేము అన్ని క్లయింట్ల కోసం ఒకే న్యూరల్ నెట్వర్క్ని ఉపయోగిస్తాము; ఇది చాలా ఆచరణాత్మక పనులకు తగిన థ్రెషోల్డ్లను కలిగి ఉంది.
మేము ఇటీవల అధిక ఖచ్చితత్వంతో ఆసియా ముఖాలను గుర్తించే మోడల్ యొక్క కొత్త వెర్షన్ను విడుదల చేసాము. ఇది ఒక పెద్ద సమస్యగా ఉండేది, దీనిని "మెషిన్ లెర్నింగ్" (లేదా "న్యూరల్ నెట్వర్క్") జాత్యహంకారం అని కూడా పిలుస్తారు. యూరోపియన్ మరియు అమెరికన్ న్యూరల్ నెట్వర్క్లు కాకేసియన్ ముఖాలను బాగా గుర్తించాయి, అయితే మంగోలాయిడ్ మరియు నీగ్రోయిడ్ ముఖాలతో పరిస్థితి చాలా దారుణంగా ఉంది. బహుశా, చైనాలో పరిస్థితి సరిగ్గా వ్యతిరేకం. ఇది ఒక నిర్దిష్ట దేశంలోని ఆధిపత్య రకాల వ్యక్తులను ప్రతిబింబించే శిక్షణ డేటా సెట్ల గురించి. అయితే, పరిస్థితి మారుతోంది; నేడు ఈ సమస్య అంత తీవ్రంగా లేదు. వివిధ జాతుల వ్యక్తులతో దృష్టికి ఎటువంటి సమస్య లేదు.
ముఖ గుర్తింపు అనేది మా సాంకేతికత యొక్క అనేక అనువర్తనాల్లో ఒకటి; ఏదైనా గుర్తించడానికి విజన్ శిక్షణ పొందవచ్చు. ఉదాహరణకు, లైసెన్స్ ప్లేట్లు, అల్గారిథమ్లకు కష్టతరమైన పరిస్థితులతో సహా: పదునైన కోణాల్లో, మురికిగా మరియు లైసెన్స్ ప్లేట్లను చదవడం కష్టం.
2. ఆచరణాత్మక ఉపయోగ సందర్భాలు
2.1 భౌతిక యాక్సెస్ నియంత్రణ: ఇద్దరు వ్యక్తులు ఒకే పాస్ను ఉపయోగించినప్పుడు
విజన్ సహాయంతో, మీరు ఉద్యోగుల రాక మరియు నిష్క్రమణను రికార్డ్ చేయడానికి వ్యవస్థలను అమలు చేయవచ్చు. ఎలక్ట్రానిక్ పాస్లపై ఆధారపడిన సాంప్రదాయిక వ్యవస్థ స్పష్టమైన ప్రతికూలతలను కలిగి ఉంది, ఉదాహరణకు, మీరు ఒక బ్యాడ్జ్ని ఉపయోగించి ఇద్దరు వ్యక్తులను పాస్ చేయవచ్చు. యాక్సెస్ కంట్రోల్ సిస్టమ్ (ACS) విజన్తో అనుబంధంగా ఉంటే, అది ఎవరు వచ్చారు/వెళ్లారు మరియు ఎప్పుడు అనే విషయాలను నిజాయితీగా రికార్డ్ చేస్తుంది.
2.2 సమయం ట్రాకింగ్
ఈ విజన్ వినియోగ కేసు మునుపటి దానికి దగ్గరి సంబంధం కలిగి ఉంది. మీరు మా ఫేషియల్ రికగ్నిషన్ సర్వీస్తో యాక్సెస్ సిస్టమ్ను సప్లిమెంట్ చేస్తే, యాక్సెస్ కంట్రోల్ ఉల్లంఘనలను గుర్తించడమే కాకుండా, భవనం లేదా సదుపాయంలో ఉద్యోగుల వాస్తవ ఉనికిని నమోదు చేయగలుగుతుంది. మరో మాటలో చెప్పాలంటే, అతని సహోద్యోగులు అతని పై అధికారుల ముందు అతని కోసం కవర్ చేసినప్పటికీ, ఎవరు పనికి వచ్చారు మరియు ఏ సమయంలో వెళ్లిపోయారు మరియు పూర్తిగా పనిని ఎగ్గొట్టిన వారిని నిజాయితీగా పరిగణనలోకి తీసుకోవడానికి విజన్ మీకు సహాయం చేస్తుంది.
2.3 వీడియో అనలిటిక్స్: పీపుల్ ట్రాకింగ్ మరియు సెక్యూరిటీ
విజన్ని ఉపయోగించి వ్యక్తులను ట్రాక్ చేయడం ద్వారా, మీరు షాపింగ్ ప్రాంతాలు, రైలు స్టేషన్లు, మార్గాలు, వీధులు మరియు అనేక ఇతర బహిరంగ ప్రదేశాల యొక్క నిజమైన ట్రాఫిక్ను ఖచ్చితంగా అంచనా వేయవచ్చు. మా ట్రాకింగ్ ప్రాప్యతను నియంత్రించడంలో కూడా గొప్ప సహాయంగా ఉంటుంది, ఉదాహరణకు, గిడ్డంగి లేదా ఇతర ముఖ్యమైన కార్యాలయ ప్రాంగణానికి. మరియు వాస్తవానికి, వ్యక్తులు మరియు ముఖాలను ట్రాక్ చేయడం భద్రతా సమస్యలను పరిష్కరించడంలో సహాయపడుతుంది. మీ స్టోర్ నుండి ఎవరైనా దొంగిలిస్తున్నట్లు పట్టుకున్నారా? మీ వీడియో అనలిటిక్స్ సాఫ్ట్వేర్ బ్లాక్లిస్ట్కు Vision ద్వారా తిరిగి అందించబడిన అతని PersonIDని జోడించండి మరియు తదుపరిసారి ఈ రకం మళ్లీ కనిపించినట్లయితే సిస్టమ్ వెంటనే భద్రతను హెచ్చరిస్తుంది.
2.4 వాణిజ్యంలో
రిటైల్ మరియు వివిధ సేవా వ్యాపారాలు క్యూ గుర్తింపుపై ఆసక్తిని కలిగి ఉన్నాయి. విజన్ సహాయంతో, ఇది ప్రజల యాదృచ్ఛిక గుంపు కాదని, క్యూ అని మీరు గుర్తించవచ్చు మరియు దాని పొడవును నిర్ణయించవచ్చు. ఆపై సిస్టమ్ క్యూలో ఉన్నవారికి క్యూ గురించి తెలియజేస్తుంది, తద్వారా వారు పరిస్థితిని గుర్తించగలరు: సందర్శకుల ప్రవాహం ఉంది మరియు అదనపు కార్మికులను పిలవాలి, లేదా ఎవరైనా వారి ఉద్యోగ విధుల్లో జాప్యం చేస్తున్నారు.
హాల్లోని కంపెనీ ఉద్యోగులను సందర్శకుల నుండి వేరు చేయడం మరో ఆసక్తికరమైన పని. సాధారణంగా, సిస్టమ్ నిర్దిష్ట బట్టలు (దుస్తుల కోడ్) లేదా కొన్ని విలక్షణమైన లక్షణాలతో (బ్రాండెడ్ స్కార్ఫ్, ఛాతీపై బ్యాడ్జ్ మరియు మొదలైనవి) ధరించే వస్తువులను వేరు చేయడానికి శిక్షణ పొందుతుంది. ఇది హాజరును మరింత ఖచ్చితంగా అంచనా వేయడానికి సహాయపడుతుంది (తద్వారా ఉద్యోగులు హాల్లోని వ్యక్తుల గణాంకాలను వారి ఉనికి ద్వారా "పెంచరు").
ముఖ గుర్తింపును ఉపయోగించి, మీరు మీ ప్రేక్షకులను కూడా అంచనా వేయవచ్చు: సందర్శకుల విధేయత ఏమిటి, అంటే ఎంత మంది వ్యక్తులు మీ స్థాపనకు తిరిగి వస్తున్నారు మరియు ఏ ఫ్రీక్వెన్సీతో ఉంటారు. నెలకు మీ వద్దకు ఎంత మంది ప్రత్యేక సందర్శకులు వస్తారో లెక్కించండి. ఆకర్షణ మరియు నిలుపుదల ఖర్చులను ఆప్టిమైజ్ చేయడానికి, మీరు వారంలోని రోజు మరియు రోజు సమయాన్ని బట్టి ట్రాఫిక్లో మార్పును కూడా కనుగొనవచ్చు.
ఫ్రాంఛైజర్లు మరియు చైన్ కంపెనీలు వివిధ రిటైల్ అవుట్లెట్ల బ్రాండింగ్ నాణ్యత యొక్క ఫోటో అంచనాను ఆర్డర్ చేయవచ్చు: లోగోలు, సంకేతాలు, పోస్టర్లు, బ్యానర్లు మొదలైన వాటి ఉనికి.
2.5 రవాణా ద్వారా
వీడియో అనలిటిక్స్ ఉపయోగించి భద్రతను నిర్ధారించడానికి మరొక ఉదాహరణ విమానాశ్రయాలు లేదా రైలు స్టేషన్ల హాళ్లలో వదిలివేసిన వస్తువులను గుర్తించడం. వందలాది తరగతుల వస్తువులను గుర్తించడానికి విజన్ శిక్షణ పొందవచ్చు: ఫర్నిచర్ ముక్కలు, బ్యాగులు, సూట్కేసులు, గొడుగులు, వివిధ రకాల దుస్తులు, సీసాలు మొదలైనవి. మీ వీడియో అనలిటిక్స్ సిస్టమ్ యజమాని లేని వస్తువును గుర్తించి, విజన్ని ఉపయోగించి దాన్ని గుర్తిస్తే, అది భద్రతా సేవకు సిగ్నల్ను పంపుతుంది. ఇదే విధమైన పని బహిరంగ ప్రదేశాల్లో అసాధారణ పరిస్థితులను స్వయంచాలకంగా గుర్తించడంతో సంబంధం కలిగి ఉంటుంది: ఎవరైనా అనారోగ్యానికి గురవుతారు, లేదా ఎవరైనా తప్పు ప్రదేశంలో ధూమపానం చేయడం, లేదా ఒక వ్యక్తి పట్టాలపై పడటం మరియు మొదలైనవి - ఈ నమూనాలన్నీ వీడియో విశ్లేషణ వ్యవస్థల ద్వారా గుర్తించబడతాయి. విజన్ API ద్వారా.
2.6 పత్రం ప్రవాహం
మేము ప్రస్తుతం అభివృద్ధి చేస్తున్న విజన్ యొక్క మరొక ఆసక్తికరమైన భవిష్యత్తు అప్లికేషన్ డాక్యుమెంట్ రికగ్నిషన్ మరియు డేటాబేస్లలోకి వాటి ఆటోమేటిక్ పార్సింగ్. అంతులేని సిరీస్లు, నంబర్లు, జారీ చేసిన తేదీలు, ఖాతా నంబర్లు, బ్యాంక్ వివరాలు, తేదీలు మరియు పుట్టిన ప్రదేశాలు మరియు అనేక ఇతర అధికారిక డేటాను మాన్యువల్గా నమోదు చేయడానికి (లేదా అధ్వాన్నంగా నమోదు చేయడానికి) బదులుగా, మీరు డాక్యుమెంట్లను స్కాన్ చేయవచ్చు మరియు వాటిని స్వయంచాలకంగా సురక్షిత ఛానెల్ ద్వారా పంపవచ్చు క్లౌడ్కు API, ఇక్కడ సిస్టమ్ ఫ్లైలో ఈ పత్రాలను గుర్తిస్తుంది, వాటిని అన్వయిస్తుంది మరియు డేటాబేస్లోకి ఆటోమేటిక్ ఎంట్రీ కోసం అవసరమైన ఫార్మాట్లో డేటాతో ప్రతిస్పందనను అందిస్తుంది. పాస్పోర్ట్లు, SNILS, TIN, జనన ధృవీకరణ పత్రాలు, వివాహ ధృవీకరణ పత్రాలు మరియు ఇతరుల మధ్య తేడాను - ఈ రోజు విజన్కు పత్రాలను (PDFతో సహా) ఎలా వర్గీకరించాలో ఇప్పటికే తెలుసు.
వాస్తవానికి, న్యూరల్ నెట్వర్క్ ఈ పరిస్థితులన్నింటినీ బాక్స్ వెలుపల నిర్వహించలేకపోయింది. ప్రతి సందర్భంలో, ఒక నిర్దిష్ట కస్టమర్ కోసం కొత్త మోడల్ నిర్మించబడింది, అనేక అంశాలు, సూక్ష్మ నైపుణ్యాలు మరియు అవసరాలు పరిగణనలోకి తీసుకోబడతాయి, డేటా సెట్లు ఎంపిక చేయబడతాయి మరియు శిక్షణ, పరీక్ష మరియు కాన్ఫిగరేషన్ యొక్క పునరావృత్తులు నిర్వహించబడతాయి.
3. API ఆపరేషన్ పథకం
వినియోగదారుల కోసం విజన్ యొక్క "ప్రవేశ ద్వారం" REST API. ఇది ఇన్పుట్గా నెట్వర్క్ కెమెరాల (RTSP స్ట్రీమ్లు) నుండి ఫోటోలు, వీడియో ఫైల్లు మరియు ప్రసారాలను స్వీకరించగలదు.
విజన్ ఉపయోగించడానికి, మీరు అవసరం
నమూనా సమాధానం
{
"status":200,
"body":{
"objects":[
{
"status":0,
"name":"file_0"
},
{
"status":0,
"name":"file_2",
"persons":[
{
"tag":"person9"
"coord":[149,60,234,181],
"confidence":0.9999,
"awesomeness":0.45
},
{
"tag":"person10"
"coord":[159,70,224,171],
"confidence":0.9998,
"awesomeness":0.32
}
]
}
{
"status":0,
"name":"file_3",
"persons":[
{
"tag":"person11",
"coord":[157,60,232,111],
"aliases":["person12", "person13"]
"confidence":0.9998,
"awesomeness":0.32
}
]
},
{
"status":0,
"name":"file_4",
"persons":[
{
"tag":"undefined"
"coord":[147,50,222,121],
"confidence":0.9997,
"awesomeness":0.26
}
]
}
],
"aliases_changed":false
},
"htmlencoded":false,
"last_modified":0
}
సమాధానంలో ఆసక్తికరమైన పరామితి అద్భుతం ఉంది - ఇది ఫోటోలోని ముఖం యొక్క షరతులతో కూడిన “చల్లదనం”, దాని సహాయంతో మేము క్రమం నుండి ముఖం యొక్క ఉత్తమ షాట్ను ఎంచుకుంటాము. సోషల్ నెట్వర్క్లలో ఫోటో లైక్ చేయబడే అవకాశాన్ని అంచనా వేయడానికి మేము న్యూరల్ నెట్వర్క్కు శిక్షణ ఇచ్చాము. ఫోటో క్వాలిటీ ఎంత మెరుగ్గా ఉందో మరియు ముఖం ఎంతగా నవ్వితే అంత అద్భుతం.
API విజన్ స్పేస్ అనే భావనను ఉపయోగిస్తుంది. ఇది విభిన్న ముఖాలను సృష్టించడానికి ఒక సాధనం. స్పేస్ల ఉదాహరణలు నలుపు మరియు తెలుపు జాబితాలు, సందర్శకుల జాబితాలు, ఉద్యోగులు, క్లయింట్లు మొదలైనవి. విజన్లోని ప్రతి టోకెన్ కోసం, మీరు గరిష్టంగా 10 స్పేస్లను సృష్టించవచ్చు, ప్రతి స్థలంలో గరిష్టంగా 50 వేల పర్సన్ఐడిలు ఉండవచ్చు, అంటే 500 వేల వరకు ప్రతి టోకెన్. అంతేకాకుండా, ఒక్కో ఖాతాకు టోకెన్ల సంఖ్య పరిమితం కాదు.
ఈ రోజు API కింది గుర్తింపు మరియు గుర్తింపు పద్ధతులకు మద్దతు ఇస్తుంది:
- గుర్తించండి/సెట్ చేయండి - ముఖాలను గుర్తించడం మరియు గుర్తించడం. ప్రతి ప్రత్యేక వ్యక్తికి స్వయంచాలకంగా PersonIDని కేటాయిస్తుంది, PersonIDని మరియు కనుగొనబడిన వ్యక్తుల కోఆర్డినేట్లను అందిస్తుంది.
- తొలగించు - వ్యక్తి డేటాబేస్ నుండి నిర్దిష్ట వ్యక్తి IDని తొలగించడం.
- కత్తిరించు - PersonID నుండి మొత్తం స్థలాన్ని క్లియర్ చేస్తుంది, ఇది పరీక్ష స్థలంగా ఉపయోగించబడితే మరియు మీరు ఉత్పత్తి కోసం డేటాబేస్ను రీసెట్ చేయాల్సి ఉంటే ఉపయోగకరంగా ఉంటుంది.
- గుర్తించడం - వస్తువులు, దృశ్యాలు, లైసెన్స్ ప్లేట్లు, ల్యాండ్మార్క్లు, క్యూలు మొదలైన వాటిని గుర్తించడం. దొరికిన వస్తువులు మరియు వాటి కోఆర్డినేట్ల తరగతిని అందిస్తుంది
- పత్రాల కోసం గుర్తించండి - రష్యన్ ఫెడరేషన్ యొక్క నిర్దిష్ట రకాల పత్రాలను గుర్తిస్తుంది (పాస్పోర్ట్, SNILS, పన్ను గుర్తింపు సంఖ్య మొదలైనవి వేరు చేస్తుంది).
మేము OCR, లింగం, వయస్సు మరియు భావోద్వేగాలను నిర్ణయించడం, అలాగే మర్చండైజింగ్ సమస్యలను పరిష్కరించడం, అంటే స్టోర్లలో వస్తువుల ప్రదర్శనను స్వయంచాలకంగా నియంత్రించడం వంటి పద్ధతులపై త్వరలో పనిని పూర్తి చేస్తాము. మీరు పూర్తి API డాక్యుమెంటేషన్ను ఇక్కడ కనుగొనవచ్చు:
4. ముగింపు
ఇప్పుడు, పబ్లిక్ API ద్వారా, మీరు ఫోటోలు మరియు వీడియోలలో ముఖ గుర్తింపును యాక్సెస్ చేయవచ్చు; వివిధ వస్తువులు, లైసెన్స్ ప్లేట్లు, ల్యాండ్మార్క్లు, పత్రాలు మరియు మొత్తం దృశ్యాల గుర్తింపుకు మద్దతు ఉంది. అప్లికేషన్ దృశ్యాలు - సముద్రం. రండి, మా సేవను పరీక్షించండి, అత్యంత గమ్మత్తైన పనులను సెట్ చేయండి. మొదటి 5000 లావాదేవీలు ఉచితం. బహుశా ఇది మీ ప్రాజెక్ట్ల కోసం "తప్పిపోయిన పదార్ధం" కావచ్చు.
రిజిస్ట్రేషన్ మరియు కనెక్షన్ తర్వాత మీరు తక్షణమే APIని యాక్సెస్ చేయవచ్చు.
మూలం: www.habr.com