ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

اسان جي مستقبل جي ڪمپيوٽر ويزن سسٽم لاءِ ٽيڪنالاجيون ۽ ماڊل ٺاهيا ويا ۽ تدريجي طور تي بهتر ڪيا ويا ۽ اسان جي ڪمپني جي مختلف منصوبن ۾ - ميل، ڪلائوڊ، سرچ ۾. اهي سٺا پنير يا cognac وانگر پختو. هڪ ڏينهن اسان محسوس ڪيو ته اسان جا اعصابي نيٽ ورڪ سڃاڻپ ۾ شاندار نتيجا ڏيکاريندا آهن، ۽ اسان انهن کي هڪ واحد b2b پراڊڪٽ - ويزن - ۾ گڏ ڪرڻ جو فيصلو ڪيو، جيڪو هاڻي اسان پاڻ استعمال ڪريون ٿا ۽ توهان کي استعمال ڪرڻ لاءِ پيش ڪريون ٿا.

اڄ، اسان جي ڪمپيوٽر ويزن ٽيڪنالاجي Mail.Ru Cloud Solutions پليٽ فارم تي ڪاميابي سان ڪم ڪري رهي آهي ۽ تمام پيچيده عملي مسئلا حل ڪري رهي آهي. اهو ڪيترن ئي نيورل نيٽ ورڪن تي ٻڌل آهي جيڪي اسان جي ڊيٽا سيٽن تي تربيت يافته آهن ۽ لاڳو ٿيل مسئلن کي حل ڪرڻ ۾ ماهر آهن. سڀئي خدمتون اسان جي سرور سهولتن تي هلن ٿيون. توھان پنھنجي ايپليڪيشنن ۾ عوامي Vision API کي ضم ڪري سگھو ٿا، جنھن ذريعي سروس جون سڀ صلاحيتون موجود آھن. API تيز آهي - سرور GPUs جي مهرباني، اسان جي نيٽ ورڪ ۾ اوسط جوابي وقت 100 ms آهي.

ٻلي ڏانهن وڃو، اتي هڪ تفصيلي ڪهاڻي آهي ۽ ويزن جي ڪم جا ڪيترائي مثال.

هڪ خدمت جو هڪ مثال جنهن ۾ اسان پاڻ استعمال ڪريون ٿا ذڪر ڪيل منهن جي سڃاڻپ ٽيڪنالاجيون سرگرمين. ان جو هڪ حصو Vision photo stands آهي، جنهن کي اسين مختلف ڪانفرنسن ۾ انسٽال ڪندا آهيون. جيڪڏهن توهان اهڙي فوٽو اسٽينڊ تي پهچندا آهيو، ٺاهيل ڪئميرا سان هڪ فوٽو ڪڍو ۽ پنهنجو اي ميل داخل ڪريو، سسٽم فوري طور تي انهن تصويرن جي صفن مان ڳوليندو جن ۾ توهان ڪانفرنس جي اسٽاف فوٽوگرافرن پاران قبضو ڪيو ويو، ۽، جيڪڏهن گهربل هجي، مليل تصويرون توهان کي اي ميل ذريعي موڪلي ويندي. ۽ اسان اسٽيج ٿيل پورٽريٽ شاٽ جي باري ۾ نه ڳالهائي رهيا آهيون- ويزن توهان کي سڃاڻي ٿو جيتوڻيڪ گهمڻ وارن جي ميڙ ۾ بلڪل پس منظر ۾. يقينن، اهو فوٽو اسٽينڊ ناهي جيڪو پاڻ سڃاتل آهي، اهي صرف خوبصورت اسٽينڊن ۾ ٽيبلٽ آهن جيڪي صرف پنهنجي ٺاهيل ڪيمرا سان مهمانن جا فوٽو ڪڍندا آهن ۽ معلومات کي سرور ڏانهن منتقل ڪن ٿا، جتي سڀ سڃاڻپ جادو ٿئي ٿي. ۽ اسان هڪ کان وڌيڪ ڀيرا ڏٺو آهي ته تصوير جي سڃاڻپ جي ماهرن جي وچ ۾ ٽيڪنالاجي جي اثرائتي ڪيتري حيرت انگيز آهي. هيٺ اسين ڪجهه مثالن بابت ڳالهائينداسين.

1. اسان جي منهن جي سڃاڻپ ماڊل

1.1. اعصابي نيٽ ورڪ ۽ پروسيسنگ جي رفتار

سڃاڻپ لاءِ، اسان ResNet 101 نيورل نيٽ ورڪ ماڊل جي ترميم استعمال ڪندا آهيون. آخر ۾ سراسري پولنگ کي مڪمل طور تي ڳنڍيل پرت سان تبديل ڪيو ويندو آهي، جيئن اهو ArcFace ۾ ڪيو ويندو آهي. جڏهن ته، ویکٹر جي نمائندگي جي ماپ 128 آهي، نه 512. اسان جي تربيتي سيٽ ۾ 10 ماڻهن جون 273 ملين تصويرون شامل آهن.

ماڊل تمام جلدي هلندو آهي هڪ احتياط سان چونڊيل سرور جي ترتيب واري فن تعمير ۽ GPU ڪمپيوٽنگ جي مهرباني. اسان جي اندروني نيٽ ورڪن تي API کان جواب حاصل ڪرڻ لاءِ 100 ms کان وٺي ٿو - هن ۾ منهن جي سڃاڻپ (فوٽو ۾ هڪ چهري کي ڳولڻ)، API جي جواب ۾ PersonID کي سڃاڻڻ ۽ واپس ڪرڻ شامل آهي. ايندڙ ڊيٽا جي وڏي مقدار سان - فوٽوز ۽ وڊيوز - اهو گهڻو وقت وٺندو ڊيٽا کي سروس ڏانهن منتقل ڪرڻ ۽ جواب حاصل ڪرڻ لاءِ.

1.2. ماڊل جي اثرائتي جو اندازو لڳائڻ

پر نيورل نيٽ ورڪ جي ڪارڪردگي جو تعين ڪرڻ هڪ تمام مبهم ڪم آهي. انهن جي ڪم جي معيار تي منحصر آهي ته ڪهڙي ڊيٽا سيٽن تي ماڊلز کي تربيت ڏني وئي هئي ۽ ڇا اهي مخصوص ڊيٽا سان ڪم ڪرڻ لاء بهتر هئا.

اسان مشهور LFW تصديق واري ٽيسٽ سان اسان جي ماڊل جي درستگي کي جانچڻ شروع ڪيو، پر اهو تمام ننڍڙو ۽ سادو آهي. 99,8٪ درستگي تائين پهچڻ کان پوء، اهو هاڻي ڪارائتو ناهي. شناختي ماڊلز جو جائزو وٺڻ لاءِ هڪ سٺو مقابلو آهي - ميگا فيس، جنهن تي اسان آهستي آهستي 82 سيڪڙو رينڪ 1 تي پهچي ويا آهيون. ميگافيس ٽيسٽ هڪ ملين تصويرن تي مشتمل آهي - ڊسٽرڪٽرز - ۽ ماڊل کي Facescrub کان مشهور شخصيتن جي ڪيترن ئي هزار تصويرن کي چڱي طرح ڌار ڪرڻ جي قابل هوندو. distractors کان dataset. بهرحال، غلطين جي Megaface ٽيسٽ کي صاف ڪرڻ بعد، اسان ڏٺو ته صاف ٿيل ورزن سان اسان 98٪ درجه بندي 1 جي درستگي حاصل ڪريون ٿا (مشهور شخصيتن جون تصويرون عام طور تي خاص آهن). تنهن ڪري، انهن هڪ الڳ سڃاڻپ ٽيسٽ ٺاهي، Megaface وانگر، پر "عام" ماڻهن جي تصويرن سان. ان کان پوء اسان اسان جي ڊيٽا سيٽن تي سڃاڻپ جي درستگي کي بهتر ڪيو ۽ تمام گهڻو اڳتي وڌو. اضافي طور تي، اسان هڪ ڪلسترنگ معيار جو امتحان استعمال ڪندا آهيون جيڪو ڪيترن ئي هزار فوٽن تي مشتمل آهي؛ اهو صارف جي ڪلائوڊ ۾ منهن جي ٽيگنگ کي ترتيب ڏئي ٿو. انهي صورت ۾، ڪلستر هڪجهڙا فرد جا گروپ آهن، هر هڪ سڃاڻپ ڪندڙ شخص لاء هڪ گروپ. اسان حقيقي گروپن تي ڪم جي معيار جي جانچ ڪئي (سچو).

يقينن، ڪنهن به نموني سان سڃاڻپ غلطيون ٿينديون آهن. پر اهڙيون حالتون اڪثر ڪري مخصوص حالتن جي حدن کي ٺيڪ ڪرڻ سان حل ڪيون وينديون آهن (سڀني ڪانفرنسن لاءِ اسين ساڳيون حدون استعمال ڪندا آهيون، پر، مثال طور، رسائي ڪنٽرول سسٽم لاءِ اسان کي حدن کي تمام گهڻو وڌائڻو پوندو ته جيئن گهٽ غلط مثبت آهن). اسان جي ويزن فوٽو بوٿ پاران ڪانفرنس جي گهڻن ماڻهن کي صحيح طور تي تسليم ڪيو ويو. ڪڏهن ڪڏهن ڪو ماڻهو ڪرپٽ ٿيل پريو کي ڏسندو هو ۽ چوندو هو، ”توهان جي سسٽم ۾ غلطي ٿي آهي، اها مون نه هئي. پوءِ اسان ان تصوير کي پوريءَ طرح کوليو، ته معلوم ٿيو ته تصوير ۾ واقعي هي ڏسڻ وارو هو، رڳو اسان هن جي تصوير نه ڪڍي رهيا هئاسين، پر ڪو ٻيو شخص هو، جيڪو بلر زون ۾ پس منظر ۾ هو. ان کان علاوه، اعصابي نيٽ ورڪ اڪثر ڪري صحيح طور تي سڃاڻي ٿو جيتوڻيڪ منهن جو حصو نظر نه اچي، يا شخص پروفائل ۾ بيٺو آهي، يا اڃا به اڌ ڦري ويو. سسٽم هڪ شخص کي سڃاڻي سگهي ٿو جيتوڻيڪ منهن نظرياتي تحريف واري علائقي ۾ هجي، چئو، جڏهن وائڊ اينگل لينس سان شوٽنگ ڪئي وڃي.

1.3. مشڪل حالتن ۾ جاچ جا مثال

هيٺ ڏنل مثال آهن ته اسان جو نيرل نيٽ ورڪ ڪيئن ڪم ڪري ٿو. تصويرون ان پٽ تي جمع ڪرايون وينديون آهن، جن کي هوءَ PersonID استعمال ڪندي ليبل ڏيڻ گهرجي - هڪ شخص جو هڪ منفرد سڃاڻپ ڪندڙ. جيڪڏهن ٻه يا وڌيڪ تصويرون هڪ ئي ID آهن، پوء، ماڊل جي مطابق، اهي تصويرون ساڳئي شخص کي ظاهر ڪن ٿيون.

اچو ته فوري طور تي نوٽ ڪريو ته جاچ ڪرڻ وقت، اسان وٽ مختلف پيٽرولن ۽ ماڊلز جي حد تائين رسائي آهي، جنهن کي اسين هڪ يا ٻيو نتيجو حاصل ڪرڻ لاءِ ترتيب ڏئي سگهون ٿا. عوامي API کي عام ڪيسن تي وڌ ۾ وڌ درستگي لاءِ بهتر ڪيو ويو آهي.

اچو ته سڀ کان سادي شيء سان شروع ڪريون، سامهون منهن جي سڃاڻپ سان.

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

خير، اهو تمام آسان هو. اچو ته ڪم کي پيچيده ڪريون، هڪ ڏاڙهي ۽ هٿرادو سال شامل ڪريو.

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

ڪي چون ٿا ته اهو به ايترو ڏکيو نه هو، ڇاڪاڻ ته ٻنهي صورتن ۾ سڄو چهرو نظر اچي ٿو، ۽ منهن بابت ڪافي معلومات الگورٿم وٽ موجود آهي. ٺيڪ، اچو ته ٽام هارڊي کي پروفائل ۾ ڦيرايو. اهو مسئلو تمام گهڻو پيچيده آهي، ۽ اسان ان کي ڪاميابيءَ سان حل ڪرڻ لاءِ تمام گهڻيون ڪوششون خرچ ڪيون جڏهن ته گهٽ غلطي جي شرح برقرار رهي: اسان هڪ ٽريننگ سيٽ چونڊيو، نيورل نيٽ ورڪ جي فن تعمير جي ذريعي سوچيو، نقصان جي ڪم کي ساراهيو ۽ پري پروسيسنگ کي بهتر بڻايو. تصويرن جي.

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

اچو ته مٿس مٿو وجهي:

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

رستي ۾، هي هڪ خاص طور تي ڏکيو صورتحال جو هڪ مثال آهي، ڇاڪاڻ ته منهن تمام گهڻو لڪايو ويو آهي، ۽ هيٺان تصوير ۾ پڻ هڪ گندو ڇانو آهي جيڪو اکين کي لڪائي رهيو آهي. حقيقي زندگي ۾، ماڻهو اڪثر ڪري انهن جي ظاهر کي اونداهي شيشي جي مدد سان تبديل ڪندا آهن. اچو ته ٽام سان ساڳيو ڪم ڪريو.

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

ٺيڪ، اچو ته مختلف عمرن کان فوٽو ڪڍڻ جي ڪوشش ڪريون، ۽ هن ڀيري اسين هڪ مختلف اداڪار سان تجربو ڪنداسين. اچو ته هڪ وڌيڪ پيچيده مثال وٺو، جتي عمر سان لاڳاپيل تبديليون خاص طور تي واضح آهن. صورتحال پري نه آهي؛ اهو اڪثر ڪري ٿو جڏهن توهان پاسپورٽ ۾ تصوير کي کڻندڙ جي منهن سان مقابلو ڪرڻ جي ضرورت آهي. سڀ کان پوء، پهرين تصوير پاسپورٽ ۾ شامل ڪئي وئي آهي جڏهن مالڪ 20 سالن جي عمر ۾ آهي، ۽ 45 سالن جي عمر ۾ هڪ شخص تمام گهڻو تبديل ڪري سگهي ٿو:

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

ڇا توهان سوچيو ٿا ته ناممڪن مشن تي مکيه ماهر عمر سان گهڻو ڪجهه تبديل نه ڪيو آهي؟ مان سمجهان ٿو ته ڪجھه ماڻهو به مٿين ۽ هيٺيون تصويرون گڏ ڪن ها، ڇوڪرو ڪيترن سالن کان تمام گهڻو تبديل ٿي چڪو آهي.

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

عصبي نيٽ ورڪن کي ظاهر ۾ تبديلين کي منهن ڏيڻو پوي ٿو گهڻو ڪري. مثال طور، ڪڏهن ڪڏهن عورتون پنهنجي تصوير کي سينگار جي مدد سان تبديل ڪري سگهن ٿا:

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

هاڻي اچو ته ڪم کي اڃا به وڌيڪ پيچيده ڪريون: فرض ڪريو منهن جا مختلف حصا مختلف تصويرن ۾ ڍڪيل آهن. اهڙين حالتن ۾، الورورٿم سڄي نموني جو مقابلو نٿو ڪري سگهي. بهرحال، ويزن اهڙين حالتن کي چڱي طرح سنڀاليندو آهي.

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

رستي ۾، هڪ تصوير ۾ ڪيترائي منهن ٿي سگهن ٿا؛ مثال طور، 100 کان وڌيڪ ماڻهو هڪ هال جي عام تصوير ۾ فٽ ٿي سگهن ٿا. نيورل نيٽ ورڪن لاءِ هي هڪ مشڪل صورتحال آهي، ڇاڪاڻ ته ڪيترائي منهن مختلف طرح سان روشن ٿي سگهن ٿا، ڪجهه ڌيان کان ٻاهر. بهرحال، جيڪڏهن تصوير ڪافي ريزوليوشن ۽ معيار سان ورتي وئي آهي (گهٽ ۾ گهٽ 75 پکسلز في چورس منهن کي ڍڪيندي)، ويزن ان کي ڳولڻ ۽ سڃاڻڻ جي قابل هوندو.

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

رپورٽن جي تصويرن ۽ نگراني جي ڪئميرا مان تصويرن جي خاص ڳالهه اها آهي ته ماڻهو اڪثر انڌا ٿي ويندا آهن ڇاڪاڻ ته اهي ڌيان کان ٻاهر هئا يا ان وقت حرڪت ڪري رهيا هئا:

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

انهي سان گڏ، روشني جي شدت تصوير کان تصوير تائين تمام گهڻو مختلف ٿي سگهي ٿو. اهو، پڻ، اڪثر ڪري هڪ رڪاوٽ بڻجي ويندو آهي؛ ڪيترن ئي الگورتھم کي وڏي مشڪل آهي صحيح طريقي سان پروسيسنگ تصويرون جيڪي تمام اونداهي ۽ تمام هلڪي آهن، انهن جو ذڪر نه ڪرڻ جو صحيح طور تي ميلاپ. مان توهان کي ياد ڏياران ته هي نتيجو حاصل ڪرڻ لاءِ توهان کي حدن کي هڪ خاص طريقي سان ترتيب ڏيڻ جي ضرورت آهي؛ هي مضمون اڃا تائين عوامي طور تي دستياب ناهي. اسان سڀني ڪلائنٽ لاء ساڳيو نيورل نيٽ ورڪ استعمال ڪندا آهيون؛ ان ۾ حدون آهن جيڪي اڪثر عملي ڪمن لاءِ موزون آهن.

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

اسان تازو ئي ماڊل جو هڪ نئون ورزن ڪڍيو آهي جيڪو ايشيائي چهرن کي اعليٰ درستگي سان سڃاڻي ٿو. اهو هڪ وڏو مسئلو هوندو هو، جنهن کي ”مشين لرننگ“ (يا ”نيورل نيٽ ورڪ“) نسل پرستي به سڏيو ويندو هو. يورپي ۽ آمريڪن نيورل نيٽ ورڪ قفقاز جي منهن کي چڱي طرح سڃاڻي ورتو، پر منگولائڊ ۽ نيگروڊ منهن سان صورتحال تمام گهڻي خراب هئي. شايد، چين ۾ صورتحال بلڪل ان جي ابتڙ هئي. اهو سڀ ڪجهه ٽريننگ ڊيٽا سيٽ جي باري ۾ آهي جيڪو هڪ خاص ملڪ ۾ غالب قسم جي ماڻهن کي ظاهر ڪري ٿو. بهرحال، صورتحال تبديل ٿي رهي آهي؛ اڄ اهو مسئلو ايترو شديد ناهي. مختلف نسلن جي ماڻهن سان ويزن جو ڪو مسئلو ناهي.

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

منهن جي سڃاڻپ صرف اسان جي ٽيڪنالاجي جي ڪيترن ئي ايپليڪيشنن مان هڪ آهي؛ نظر کي تربيت ڏئي سگهجي ٿو ڪنهن به شيء کي سڃاڻڻ لاء. مثال طور، لائسنس پليٽون، بشمول الورورٿمز لاءِ مشڪل حالتن ۾: تيز زاوين تي، گندي ۽ لائسنس پليٽ پڙهڻ ۾ مشڪل.

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

2. عملي استعمال جا ڪيس

2.1. جسماني رسائي ڪنٽرول: جڏهن ٻه ماڻهو ساڳيا پاس استعمال ڪندا آهن

ويزن جي مدد سان، توهان ملازمن جي آمد ۽ روانگي کي رڪارڊ ڪرڻ لاءِ سسٽم لاڳو ڪري سگهو ٿا. اليڪٽرانڪ پاسن تي ٻڌل روايتي سسٽم واضح نقصانات آهي، مثال طور، توهان هڪ بيج استعمال ڪندي ٻه ماڻهو پاس ڪري سگهو ٿا. جيڪڏهن رسائي ڪنٽرول سسٽم (ACS) ويزن سان پورو ڪيو ويو آهي، اهو ايمانداري سان رڪارڊ ڪندو ته ڪير آيو/کاٻي ۽ ڪڏهن.

2.2. وقت جي ٽريڪنگ

هي ويزن استعمال ڪيس گذريل هڪ سان ويجهي سان لاڳاپيل آهي. جيڪڏهن توهان رسائي سسٽم کي اسان جي منهن جي سڃاڻپ سروس سان گڏ ڪريو ٿا، اهو نه صرف رسائي ڪنٽرول جي ڀڃڪڙي کي ڳولڻ جي قابل هوندو، پر عمارت يا سهولت ۾ ملازمن جي حقيقي موجودگي کي رجسٽر ڪرڻ جي قابل هوندو. ٻين لفظن ۾، ويزن توهان کي ايمانداري سان حساب ۾ رکڻ ۾ مدد ڪندو ته ڪير ڪم تي آيو ۽ ڪهڙي وقت ڇڏي ويو، ۽ ڪنهن ڪم کي مڪمل طور تي ڇڏي ڏنو، جيتوڻيڪ هن جا ساٿي هن جي اعليٰ آفيسرن جي سامهون هن لاءِ ڍڪيندا آهن.

2.3. وڊيو تجزياتي: ماڻهن جي ٽريڪنگ ۽ سيڪيورٽي

ويزن استعمال ڪندي ماڻهن کي ٽريڪ ڪندي، توهان صحيح طور تي حقيقي ٽريفڪ جو اندازو لڳائي سگهو ٿا شاپنگ وارن علائقن، ٽرين اسٽيشنن، رستن، گهٽين ۽ ٻين ڪيترن ئي عوامي هنڌن تي. اسان جي ٽريڪنگ رسائي کي ڪنٽرول ڪرڻ ۾ پڻ وڏي مدد ڪري سگھي ٿي، مثال طور، گودام يا ٻي اهم آفيس جي احاطي تائين. ۽ يقينا، ماڻهن ۽ منهن کي ٽريڪ ڪرڻ ۾ مدد ملندي سيڪيورٽي مسئلن کي حل ڪرڻ. ڪنهن کي پڪڙيو توهان جي دڪان مان چوري؟ شامل ڪريو سندس PersonID، جيڪو Vision پاران واپس ڪيو ويو، توھان جي وڊيو اينالائيٽڪس سافٽ ويئر جي بليڪ لسٽ ۾، ۽ ايندڙ ڀيري سسٽم فوري طور تي سيڪيورٽي کي خبردار ڪندو جيڪڏھن ھي قسم وري ظاھر ٿئي.

2.4. واپار ۾

پرچون ۽ مختلف خدمت ڪاروبار قطار جي سڃاڻپ ۾ دلچسپي رکن ٿا. ويزن جي مدد سان، توهان سڃاڻي سگهو ٿا ته هي ماڻهن جو هڪ بي ترتيب ميڙ ناهي، پر هڪ قطار آهي، ۽ ان جي ڊيگهه جو اندازو لڳايو. ۽ پوءِ سسٽم انچارج کي قطار جي باري ۾ آگاهي ڏئي ٿو ته جيئن اهي صورتحال جو اندازو لڳائي سگهن: يا ته هتي سياحن جي آمد آهي ۽ اضافي ڪارڪنن کي سڏڻ جي ضرورت آهي، يا ڪو ماڻهو پنهنجي نوڪري جي فرضن ۾ سستي ڪري رهيو آهي.

هڪ ٻيو دلچسپ ڪم هال ۾ ڪمپني ملازمن کي سياحن کان الڳ ڪرڻ آهي. عام طور تي، سسٽم کي خاص ڪپڙا پائڻ واري شين کي الڳ ڪرڻ لاءِ تربيت ڏني ويندي آهي (ڊريس ڪوڊ) يا ڪجهه مخصوص خصوصيت سان (برانڊيڊ اسڪارف، سينه تي بيج، وغيره). هي مدد ڪري ٿو وڌيڪ صحيح طور تي حاضري جو اندازو لڳائڻ (انهي ڪري ته ملازمن جي انگن اکرن کي هال ۾ موجود ماڻهن جي انگن اکرن کي صرف انهن جي موجودگي سان نه وڌايو).

منهن جي سڃاڻپ کي استعمال ڪندي، توهان پڻ پنهنجي سامعين جو اندازو لڳائي سگهو ٿا: سنڌين جي وفاداري ڇا آهي، اهو آهي، ڪيترا ماڻهو توهان جي اسٽيبلشمينٽ ڏانهن موٽندا آهن ۽ ڪهڙي تعدد سان. حساب ڪريو ته هر مهيني ڪيترا منفرد سياح توهان وٽ ايندا آهن. ڪشش ۽ برقرار رکڻ جي قيمتن کي بهتر ڪرڻ لاءِ، توهان پڻ ڳولي سگهو ٿا ٽريفڪ ۾ تبديلي هفتي جي ڏينهن ۽ ڏينهن جي وقت جي لحاظ سان.

فرنچائزر ۽ زنجير ڪمپنيون مختلف پرچون دڪانن جي برانڊنگ جي معيار جي تصويرن جي بنياد تي هڪ جائزو وٺڻ جو حڪم ڏئي سگهن ٿيون: علامتن جي موجودگي، نشانيون، پوسٽر، بينر، وغيره.

2.5. ٽرانسپورٽ ذريعي

وڊيو اينالائيٽڪس استعمال ڪندي سيڪيورٽي کي يقيني بڻائڻ جو ٻيو مثال ايئرپورٽس يا ٽرين اسٽيشنن جي هالن ۾ ڇڏيل شيون جي نشاندهي ڪري رهيو آهي. ويزن کي سوين طبقن جي شين کي سڃاڻڻ جي تربيت ڏئي سگهجي ٿي: فرنيچر جا ٽڪرا، بيگز، سوٽ ڪيس، ڇتر، مختلف قسم جا ڪپڙا، بوتلون، وغيره. جيڪڏهن توهان جو وڊيو اينالائيٽڪس سسٽم هڪ بي مالڪ شئي کي ڳولي ٿو ۽ ان کي ويزن استعمال ڪندي سڃاڻي ٿو، اهو سيڪيورٽي سروس ڏانهن سگنل موڪلي ٿو. ساڳيو ڪم عوامي جڳهن ۾ غير معمولي حالتن جي خودڪار ڳولڻ سان لاڳاپيل آهي: ڪو ماڻهو بيمار محسوس ڪندو آهي، يا ڪو ماڻهو غلط جڳهه تي تماڪ ڇڪيندو آهي، يا ڪو ماڻهو ريل تي ڪري ٿو، وغيره وغيره - اهي سڀئي نمونا وڊيو تجزياتي سسٽم جي سڃاڻپ ڪري سگهجن ٿيون. Vision API ذريعي.

2.6. دستاويز جي وهڪري

Vision جي هڪ ٻي دلچسپ مستقبل جي ايپليڪيشن جيڪا اسان هن وقت ترقي ڪري رهيا آهيون دستاويز جي سڃاڻپ ۽ انهن جي خودڪار طريقي سان ڊيٽابيس ۾ پارس ڪرڻ. دستي طور تي داخل ٿيڻ جي بدران (يا بدتر، داخل ٿيڻ) لامحدود سيريز، نمبر، مسئلي جي تاريخون، اڪائونٽ نمبر، بئنڪ تفصيل، تاريخون ۽ ڄمڻ جا هنڌ ۽ ٻيا ڪيترائي رسمي ڊيٽا، توهان دستاويز اسڪين ڪري سگهو ٿا ۽ خودڪار طريقي سان انهن کي محفوظ چينل ذريعي موڪلي سگهو ٿا. API ڪلائوڊ ڏانهن، جتي سسٽم انهن دستاويزن کي اڏام تي سڃاڻيندو، انهن کي پارس ڪندو ۽ ڊيٽابيس ۾ خودڪار داخلا لاءِ گهربل فارميٽ ۾ ڊيٽا سان گڏ جواب واپس ڪندو. اڄ ويزن اڳ ۾ ئي ڄاڻي ٿو ته دستاويزن کي ڪيئن درجه بندي ڪجي (بشمول PDF) - پاسپورٽ، SNILS، TIN، پيدائش جي سرٽيفڪيٽ، شادي جي سرٽيفڪيٽ ۽ ٻين جي وچ ۾ فرق.

يقينن، نيورل نيٽورڪ انهن سڀني حالتن کي باڪس کان ٻاهر سنڀالڻ جي قابل ناهي. هر صورت ۾، هڪ نئين ماڊل هڪ مخصوص گراهڪ لاء ٺهيل آهي، ڪيترن ئي عنصر، nuances ۽ گهرجون حساب ۾ ورتو وڃي ٿو، ڊيٽا سيٽ چونڊيا ويا آهن، ۽ ٽريننگ، جاچ، ۽ تشڪيل جي ورهاڱي ڪيا ويا آهن.

3. API آپريشن اسڪيم

صارفين لاءِ ويزن جو ”داخلي دروازو“ REST API آهي. اهو نيٽ ورڪ ڪيمرا (RTSP اسٽريم) مان تصويرون، وڊيو فائلون ۽ براڊڪاسٽس حاصل ڪري سگھي ٿو ان پٽ جي طور تي.

Vision استعمال ڪرڻ لاء، توهان کي ضرورت آهي سائن اپ ڪريو Mail.ru Cloud Solutions سروس ۾ ۽ رسائي ٽوڪن حاصل ڪريو (client_id + client_secret). صارف جي تصديق OAuth پروٽوڪول استعمال ڪندي ڪئي وئي آهي. پوسٽ جي درخواستن جي جسمن ۾ ذريعو ڊيٽا API ڏانهن موڪليو ويو آهي. ۽ جواب ۾، ڪلائنٽ API مان حاصل ڪري ٿو هڪ سڃاڻپ نتيجو JSON فارميٽ ۾، ۽ جواب ترتيب ڏنل آهي: ان ۾ مليل شيون ۽ انهن جي همراهن بابت معلومات شامل آهي.

ڏاڙهي سان، اونداهي شيشي ۽ پروفائيل ۾: ڪمپيوٽر جي نظر لاء ڏکيو حالتون

نموني جواب

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

جواب ۾ هڪ دلچسپ پيراميٽر شاندار آهي - هي هڪ تصوير ۾ هڪ منهن جي مشروط "ٿڌائي" آهي، ان جي مدد سان اسين ترتيب مان هڪ منهن جو بهترين شاٽ چونڊيندا آهيون. اسان هڪ نيورل نيٽ ورڪ کي تربيت ڏني آهي انهي امڪان جي اڳڪٿي ڪرڻ لاءِ ته هڪ تصوير سوشل نيٽ ورڪ تي پسند ڪئي ويندي. تصوير جو معيار جيترو بهتر هوندو ۽ منهن جيترو مسڪراهٽ هوندو، اوترو ئي شاندار هوندو.

API Vision هڪ تصور استعمال ڪري ٿو خلا سڏيو ويندو آهي. هي منهن جي مختلف سيٽ ٺاهڻ لاء هڪ اوزار آهي. اسپيس جا مثال ڪارو ۽ اڇي فهرستون آهن، ويزن جي فهرستن، ملازمن، ڪلائنٽ وغيره. ويزن ۾ هر ٽوڪن لاءِ، توهان 10 اسپيس تائين ٺاهي سگهو ٿا، هر اسپيس ۾ 50 هزار PersonIDs ٿي سگهن ٿيون، يعني 500 هزار تائين في ٽوڪن. ان کان علاوه، في اڪائونٽ ٽوڪن جو تعداد محدود ناهي.

اڄ API هيٺ ڏنل ڳولڻ ۽ سڃاڻڻ جي طريقن کي سپورٽ ڪري ٿو:

  • سڃاڻڻ/سيٽ ڪرڻ - منهن جي سڃاڻپ ۽ سڃاڻپ. خودڪار طور تي هر منفرد شخص کي هڪ PersonID تفويض ڪري ٿو، PersonID واپس ڪري ٿو ۽ مليل ماڻهن جي همراهن کي.
  • حذف ڪريو - هڪ مخصوص PersonID شخص جي ڊيٽابيس مان حذف ڪرڻ.
  • Truncate - PersonID کان پوري جاءِ صاف ڪري ٿي، مفيد جيڪڏھن اھو ٽيسٽ اسپيس طور استعمال ڪيو ويو ۽ توھان کي ضرورت آھي پيداوار لاءِ ڊيٽابيس کي ري سيٽ ڪريو.
  • ڳوليو - شيون، منظر، لائسنس پليٽ، نشان، قطار، وغيره جي سڃاڻپ
  • دستاويزن لاء ڳوليو - روسي فيڊريشن جي دستاويزن جي مخصوص قسمن کي ڳولي ٿو (پاسپورٽ، SNILS، ٽيڪس جي سڃاڻپ نمبر، وغيره).

اسان جلد ئي OCR جي طريقن تي ڪم مڪمل ڪري رهيا آهيون، صنف، عمر ۽ جذبات جو تعين ڪرڻ، ۽ گڏوگڏ واپار جي مسئلن کي حل ڪرڻ، يعني دڪانن ۾ سامان جي ڊسپلي کي خودڪار طريقي سان ڪنٽرول ڪرڻ لاءِ. توهان هتي مڪمل API دستاويز ڳولي سگهو ٿا: https://mcs.mail.ru/help/vision-api

4. نتيجو

هاڻي، عوامي API ذريعي، توهان فوٽوز ۽ وڊيوز ۾ منهن جي سڃاڻپ تائين رسائي ڪري سگهو ٿا؛ مختلف شين جي سڃاڻپ، لائسنس پليٽ، نشانن، دستاويزن ۽ مڪمل مناظر جي حمايت ڪئي وئي آهي. اپليڪيشن منظرنامو - سمنڊ. اچو، اسان جي خدمت کي جانچيو، ان کي مقرر ڪريو سڀ کان وڌيڪ مشڪل ڪم. پهرين 5000 ٽرانزيڪشن مفت آهن. شايد اهو هوندو "گم ٿيل جزو" توهان جي منصوبن لاءِ.

توهان رجسٽريشن ۽ ڪنيڪشن تي فوري طور تي API تائين رسائي ڪري سگهو ٿا. خواب. سڀ حبرا استعمال ڪندڙ اضافي ٽرانزيڪشن لاءِ پروموشنل ڪوڊ وصول ڪن ٿا. مهرباني ڪري مون ڏانهن اي ميل پتو لکو جيڪو توهان پنهنجو اڪائونٽ رجسٽر ڪرڻ لاءِ استعمال ڪيو هو!

جو ذريعو: www.habr.com

تبصرو شامل ڪريو