داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

ہمارے مستقبل کے کمپیوٹر ویژن سسٹم کے لیے ٹیکنالوجیز اور ماڈلز کو بتدریج اور ہماری کمپنی کے مختلف پروجیکٹس - میل، کلاؤڈ، سرچ میں بنایا گیا اور بہتر بنایا گیا۔ وہ اچھے پنیر یا کوگناک کی طرح پختہ ہو گئے۔ ایک دن ہم نے محسوس کیا کہ ہمارے اعصابی نیٹ ورکس کی شناخت میں بہترین نتائج دکھائے جاتے ہیں، اور ہم نے انہیں ایک واحد b2b پروڈکٹ - ویژن - میں جوڑنے کا فیصلہ کیا جسے اب ہم خود استعمال کرتے ہیں اور آپ کو استعمال کرنے کی پیشکش کرتے ہیں۔

آج، Mail.Ru Cloud Solutions پلیٹ فارم پر ہماری کمپیوٹر ویژن ٹیکنالوجی کامیابی سے کام کر رہی ہے اور بہت پیچیدہ عملی مسائل کو حل کر رہی ہے۔ یہ متعدد نیورل نیٹ ورکس پر مبنی ہے جو ہمارے ڈیٹا سیٹس پر تربیت یافتہ ہیں اور لاگو مسائل کو حل کرنے میں مہارت رکھتے ہیں۔ تمام خدمات ہمارے سرور کی سہولیات پر چلتی ہیں۔ آپ عوامی وژن API کو اپنی ایپلی کیشنز میں ضم کر سکتے ہیں، جس کے ذریعے سروس کی تمام صلاحیتیں دستیاب ہیں۔ API تیز ہے - سرور GPUs کی بدولت، ہمارے نیٹ ورک کے اندر اوسط جوابی وقت 100 ms ہے۔

بلی کے پاس جائیں، ایک تفصیلی کہانی ہے اور Vision کے کام کی بہت سی مثالیں ہیں۔

ایک خدمت کی مثال کے طور پر جس میں ہم خود ذکر کردہ چہرے کی شناخت کی ٹیکنالوجیز استعمال کرتے ہیں، ہم حوالہ دے سکتے ہیں تقریبات. اس کے اجزاء میں سے ایک ویژن فوٹو اسٹینڈ ہے، جسے ہم مختلف کانفرنسوں میں انسٹال کرتے ہیں۔ اگر آپ اس طرح کے فوٹو اسٹینڈ کے پاس جاتے ہیں، تو بلٹ ان کیمرہ کے ساتھ ایک تصویر لیں اور اپنا ای میل درج کریں، سسٹم فوری طور پر ان تصویروں کی صف میں سے تلاش کر لے گا جن میں آپ کو کانفرنس کے اسٹاف فوٹوگرافروں نے کھینچا تھا، اور اگر چاہیں تو، مل گئی تصاویر آپ کو ای میل کے ذریعے بھیجیں گے۔ اور ہم اسٹیج کیے گئے پورٹریٹ شاٹس کے بارے میں بات نہیں کر رہے ہیں — Vision دیکھنے والوں کے ہجوم میں بھی آپ کو بالکل پس منظر میں پہچانتا ہے۔ بلاشبہ، یہ وہ تصویریں نہیں ہیں جو خود پہچانی جاتی ہیں، یہ صرف خوبصورت اسٹینڈز میں موجود ٹیبلٹس ہیں جو اپنے بلٹ ان کیمروں سے مہمانوں کی تصاویر لیتے ہیں اور معلومات کو سرورز تک پہنچاتے ہیں، جہاں تمام پہچان کا جادو ہوتا ہے۔ اور ہم نے ایک سے زیادہ بار دیکھا ہے کہ تصویر کی شناخت کے ماہرین کے درمیان بھی ٹیکنالوجی کی تاثیر کتنی حیران کن ہے۔ ذیل میں ہم کچھ مثالوں کے بارے میں بات کریں گے۔

1. ہمارا چہرہ پہچاننے والا ماڈل

1.1 اعصابی نیٹ ورک اور پروسیسنگ کی رفتار

شناخت کے لیے، ہم ResNet 101 نیورل نیٹ ورک ماڈل میں ترمیم کا استعمال کرتے ہیں۔ آخر میں اوسط پولنگ کو مکمل طور پر منسلک پرت سے بدل دیا جاتا ہے، جیسا کہ یہ ArcFace میں کیا جاتا ہے۔ تاہم، ویکٹر کی نمائندگی کا سائز 128 نہیں بلکہ 512 ہے۔ ہمارے تربیتی سیٹ میں 10 لوگوں کی تقریباً 273 ملین تصاویر ہیں۔

احتیاط سے منتخب سرور کنفیگریشن آرکیٹیکچر اور GPU کمپیوٹنگ کی بدولت ماڈل بہت تیزی سے چلتا ہے۔ ہمارے اندرونی نیٹ ورکس پر API سے جواب موصول ہونے میں 100 ms کا وقت لگتا ہے - اس میں چہرے کا پتہ لگانا (تصویر میں چہرے کا پتہ لگانا)، API کے جواب میں PersonID کو پہچاننا اور واپس کرنا شامل ہے۔ آنے والے ڈیٹا کی بڑی مقدار کے ساتھ - تصاویر اور ویڈیوز - ڈیٹا کو سروس میں منتقل کرنے اور جواب موصول ہونے میں بہت زیادہ وقت لگے گا۔

1.2 ماڈل کی تاثیر کا اندازہ لگانا

لیکن نیورل نیٹ ورکس کی کارکردگی کا تعین کرنا بہت مبہم کام ہے۔ ان کے کام کا معیار اس بات پر منحصر ہے کہ ماڈلز کو کس ڈیٹا سیٹ پر تربیت دی گئی تھی اور آیا وہ مخصوص ڈیٹا کے ساتھ کام کرنے کے لیے بہتر بنائے گئے تھے۔

ہم نے مقبول LFW تصدیقی ٹیسٹ کے ساتھ اپنے ماڈل کی درستگی کا اندازہ لگانا شروع کیا، لیکن یہ بہت چھوٹا اور آسان ہے۔ 99,8% درستگی تک پہنچنے کے بعد، یہ مزید مفید نہیں ہے۔ شناختی ماڈلز کا جائزہ لینے کے لیے ایک اچھا مقابلہ ہے - Megaface، جس پر ہم بتدریج 82% رینک 1 تک پہنچ گئے ہیں۔ میگا فیس ٹیسٹ دس لاکھ تصاویر پر مشتمل ہے - ڈسٹریکٹرز - اور ماڈل کو فیس سکرب سے مشہور شخصیات کی کئی ہزار تصاویر کو اچھی طرح سے الگ کرنے کے قابل ہونا چاہیے۔ distractors سے ڈیٹاسیٹ. تاہم، غلطیوں کے Megaface ٹیسٹ کو صاف کرنے کے بعد، ہم نے پایا کہ کلیئر شدہ ورژن کے ساتھ ہم 98% درجہ 1 کی درستگی حاصل کرتے ہیں (مشہور شخصیات کی تصاویر عام طور پر کافی مخصوص ہوتی ہیں)۔ لہذا، انہوں نے میگا فیس کی طرح ایک الگ شناختی ٹیسٹ بنایا، لیکن "عام" لوگوں کی تصاویر کے ساتھ۔ پھر ہم نے اپنے ڈیٹاسیٹس پر شناخت کی درستگی کو بہتر بنایا اور بہت آگے چلے گئے۔ اس کے علاوہ، ہم ایک کلسٹرنگ کوالٹی ٹیسٹ استعمال کرتے ہیں جو کئی ہزار تصاویر پر مشتمل ہوتا ہے۔ یہ صارف کے کلاؤڈ میں چہرے کی ٹیگنگ کی نقل کرتا ہے۔ اس معاملے میں، کلسٹرز ایک جیسے افراد کے گروپ ہیں، ہر ایک قابل شناخت فرد کے لیے ایک گروپ۔ ہم نے حقیقی گروپس (سچ) پر کام کے معیار کی جانچ کی۔

بلاشبہ، کسی بھی ماڈل کے ساتھ شناخت کی غلطیاں ہوتی ہیں۔ لیکن اس طرح کے حالات اکثر مخصوص حالات کے لیے دہلیز کو ٹھیک کر کے حل کیے جاتے ہیں (تمام کانفرنسوں کے لیے ہم ایک ہی حد کا استعمال کرتے ہیں، لیکن، مثال کے طور پر، ایکسیس کنٹرول سسٹمز کے لیے ہمیں حدوں کو بہت زیادہ بڑھانا پڑتا ہے تاکہ کم غلط مثبت ہوں)۔ کانفرنس کے زائرین کی اکثریت کو ہمارے وژن فوٹو بوتھس نے صحیح طریقے سے پہچانا۔ کبھی کبھی کوئی تراشے ہوئے پیش نظارہ کو دیکھتا اور کہتا، "آپ کے سسٹم سے غلطی ہوئی، یہ میں نہیں تھا۔" پھر ہم نے تصویر کو مکمل طور پر کھولا، اور پتہ چلا کہ تصویر میں واقعی یہ دیکھنے والا تھا، صرف ہم اس کی تصویر نہیں بنا رہے تھے، بلکہ کوئی اور تھا، وہ شخص بلر زون کے پس منظر میں تھا۔ مزید برآں، اعصابی نیٹ ورک اکثر درست طریقے سے پہچانتا ہے یہاں تک کہ جب چہرے کا کچھ حصہ نظر نہ آ رہا ہو، یا شخص پروفائل میں کھڑا ہو، یا آدھا مڑا ہو۔ نظام کسی شخص کو پہچان سکتا ہے یہاں تک کہ اگر چہرہ آپٹیکل ڈسٹورشن کے علاقے میں ہو، کہتے ہیں کہ جب وائیڈ اینگل لینس سے شوٹنگ کی جاتی ہے۔

1.3 مشکل حالات میں جانچ کی مثالیں۔

ذیل میں اس کی مثالیں ہیں کہ ہمارا نیورل نیٹ ورک کیسے کام کرتا ہے۔ تصاویر ان پٹ پر جمع کرائی جاتی ہیں، جن پر اسے PersonID کا استعمال کرتے ہوئے لیبل لگانا چاہیے - ایک شخص کا منفرد شناخت کنندہ۔ اگر دو یا دو سے زیادہ تصاویر میں ایک ہی ID ہے، تو ماڈلز کے مطابق، یہ تصاویر ایک ہی شخص کی عکاسی کرتی ہیں۔

آئیے فوری طور پر نوٹ کریں کہ جانچ کرتے وقت، ہمارے پاس مختلف پیرامیٹرز اور ماڈل تھریشولڈز تک رسائی ہوتی ہے جنہیں ہم کسی خاص نتیجہ کو حاصل کرنے کے لیے ترتیب دے سکتے ہیں۔ عوامی API کو عام معاملات پر زیادہ سے زیادہ درستگی کے لیے بہتر بنایا گیا ہے۔

آئیے سب سے آسان چیز سے شروع کرتے ہیں، سامنے والے چہرے کی شناخت کے ساتھ۔

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

ٹھیک ہے، یہ بہت آسان تھا. آئیے کام کو پیچیدہ بنائیں، داڑھی اور مٹھی بھر سال شامل کریں۔

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

کچھ لوگ کہیں گے کہ یہ بھی زیادہ مشکل نہیں تھا، کیونکہ دونوں صورتوں میں پورا چہرہ نظر آتا ہے، اور چہرے کے بارے میں کافی معلومات الگورتھم کو دستیاب ہیں۔ ٹھیک ہے، آئیے ٹام ہارڈی کو پروفائل میں تبدیل کرتے ہیں۔ یہ مسئلہ بہت زیادہ پیچیدہ ہے، اور ہم نے غلطی کی کم شرح کو برقرار رکھتے ہوئے اسے کامیابی کے ساتھ حل کرنے کے لیے کافی کوششیں کی ہیں: ہم نے ایک تربیتی سیٹ منتخب کیا، نیورل نیٹ ورک کے فن تعمیر کے ذریعے سوچا، نقصان کے افعال کو درست کیا اور پری پروسیسنگ کو بہتر بنایا۔ تصاویر کی.

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

آئیے اس پر ہیڈ ڈریس لگائیں:

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

ویسے، یہ ایک خاص طور پر مشکل صورت حال کی ایک مثال ہے، کیونکہ چہرہ بہت زیادہ دھندلا ہوا ہے، اور نیچے کی تصویر میں بھی ایک گہرا سایہ آنکھوں کو چھپا رہا ہے۔ حقیقی زندگی میں، لوگ اکثر سیاہ شیشوں کی مدد سے اپنی شکل بدلتے ہیں۔ آئیے ٹام کے ساتھ بھی ایسا ہی کریں۔

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

ٹھیک ہے، آئیے مختلف عمروں کی تصاویر لینے کی کوشش کرتے ہیں، اور اس بار ہم ایک مختلف اداکار کے ساتھ تجربہ کریں گے۔ آئیے ایک بہت پیچیدہ مثال لیں، جہاں عمر سے متعلق تبدیلیاں خاص طور پر واضح ہوتی ہیں۔ صورت حال زیادہ دور کی بات نہیں ہے؛ یہ اکثر اس وقت ہوتا ہے جب آپ کو پاسپورٹ میں تصویر کو اٹھانے والے کے چہرے سے موازنہ کرنے کی ضرورت ہوتی ہے۔ سب کے بعد، پہلی تصویر پاسپورٹ میں شامل کی جاتی ہے جب مالک کی عمر 20 سال ہوتی ہے، اور 45 سال کی عمر تک ایک شخص بہت زیادہ بدل سکتا ہے:

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

کیا آپ کو لگتا ہے کہ ناممکن مشنوں کا اہم ماہر عمر کے ساتھ زیادہ نہیں بدلا ہے؟ مجھے لگتا ہے کہ یہاں تک کہ کچھ لوگ اوپر اور نیچے کی تصاویر کو یکجا کریں گے، لڑکا سالوں میں بہت بدل گیا ہے.

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

عصبی نیٹ ورک زیادہ کثرت سے ظاہری شکل میں تبدیلیوں کا سامنا کرتے ہیں۔ مثال کے طور پر، بعض اوقات خواتین کاسمیٹکس کی مدد سے اپنی تصویر کو بہت زیادہ تبدیل کر سکتی ہیں:

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

اب آئیے کام کو مزید پیچیدہ کرتے ہیں: فرض کریں کہ چہرے کے مختلف حصوں کو مختلف تصاویر میں ڈھانپ دیا گیا ہے۔ ایسے معاملات میں، الگورتھم پورے نمونوں کا موازنہ نہیں کر سکتا۔ تاہم، ویژن اس طرح کے حالات کو اچھی طرح سے ہینڈل کرتا ہے۔

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

ویسے، ایک تصویر میں بہت سے چہرے ہوسکتے ہیں؛ مثال کے طور پر، ایک ہال کی ایک عام تصویر میں 100 سے زیادہ لوگ فٹ ہوسکتے ہیں۔ نیورل نیٹ ورکس کے لیے یہ ایک مشکل صورتحال ہے، کیونکہ بہت سے چہروں کو مختلف طریقے سے روشن کیا جا سکتا ہے، کچھ توجہ سے باہر ہیں۔ تاہم، اگر تصویر کافی ریزولیوشن اور کوالٹی کے ساتھ لی گئی ہے (کم از کم 75 پکسلز فی مربع چہرے کو ڈھانپنے کے لیے)، تو ویژن اس کا پتہ لگانے اور پہچاننے کے قابل ہو جائے گا۔

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

نگرانی کے کیمروں سے رپورٹیج کی تصاویر اور تصاویر کی خاصیت یہ ہے کہ لوگ اکثر دھندلا ہو جاتے ہیں کیونکہ وہ توجہ سے باہر تھے یا اس وقت حرکت کر رہے تھے:

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

اس کے علاوہ، روشنی کی شدت تصویر سے دوسرے تصویر میں بہت مختلف ہو سکتی ہے۔ یہ بھی اکثر ایک رکاوٹ بن جاتا ہے؛ بہت سے الگورتھم کو ان تصاویر کو درست طریقے سے پروسیس کرنے میں بڑی دشواری ہوتی ہے جو بہت زیادہ سیاہ اور بہت ہلکی ہوتی ہیں، ان کے درست طریقے سے مماثل ہونے کا ذکر نہیں کرنا۔ میں آپ کو یاد دلاتا ہوں کہ اس نتیجے کو حاصل کرنے کے لیے آپ کو ایک خاص طریقے سے حد کو ترتیب دینے کی ضرورت ہے؛ یہ خصوصیت ابھی تک عوامی طور پر دستیاب نہیں ہے۔ ہم تمام کلائنٹس کے لیے ایک ہی اعصابی نیٹ ورک کا استعمال کرتے ہیں؛ اس میں حدیں ہیں جو زیادہ تر عملی کاموں کے لیے موزوں ہیں۔

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

ہم نے حال ہی میں ماڈل کا ایک نیا ورژن پیش کیا ہے جو ایشیائی چہروں کو اعلیٰ درستگی کے ساتھ پہچانتا ہے۔ یہ ایک بڑا مسئلہ ہوا کرتا تھا، جسے "مشین لرننگ" (یا "نیورل نیٹ ورک") نسل پرستی بھی کہا جاتا تھا۔ یورپی اور امریکی عصبی نیٹ ورکس نے کاکیشین چہروں کو اچھی طرح پہچانا، لیکن منگولائڈ اور نیگروڈ چہروں کے ساتھ صورت حال بہت زیادہ خراب تھی۔ غالباً چین میں صورتحال اس کے بالکل برعکس تھی۔ یہ سب تربیتی ڈیٹا سیٹس کے بارے میں ہے جو کسی خاص ملک میں غالب قسم کے لوگوں کی عکاسی کرتے ہیں۔ تاہم حالات بدل رہے ہیں، آج یہ مسئلہ اتنا شدید نہیں ہے۔ مختلف نسلوں کے لوگوں کے ساتھ وژن کا کوئی مسئلہ نہیں ہے۔

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

چہرے کی شناخت ہماری ٹیکنالوجی کی بہت سی ایپلی کیشنز میں سے ایک ہے؛ بصارت کو کسی بھی چیز کو پہچاننے کی تربیت دی جا سکتی ہے۔ مثال کے طور پر، لائسنس پلیٹیں، بشمول الگورتھم کے لیے مشکل حالات میں: تیز زاویوں پر، گندی اور لائسنس پلیٹوں کو پڑھنے میں مشکل۔

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

2. عملی استعمال کے معاملات

2.1 جسمانی رسائی کنٹرول: جب دو افراد ایک ہی پاس استعمال کرتے ہیں۔

ویژن کی مدد سے، آپ ملازمین کی آمد اور روانگی کو ریکارڈ کرنے کے لیے نظام نافذ کر سکتے ہیں۔ الیکٹرانک پاسز پر مبنی روایتی نظام کے واضح نقصانات ہیں، مثال کے طور پر، آپ ایک بیج کا استعمال کرتے ہوئے دو لوگوں کو پاس کر سکتے ہیں۔ اگر رسائی کنٹرول سسٹم (ACS) کو وژن کے ساتھ مکمل کیا گیا ہے، تو یہ ایمانداری سے ریکارڈ کرے گا کہ کون آیا/بائیں اور کب آیا۔

2.2 ٹائم ٹریکنگ

وژن کے استعمال کا یہ کیس پچھلے کیس سے گہرا تعلق رکھتا ہے۔ اگر آپ رسائی کے نظام کو ہماری چہرے کی شناخت کی سروس کے ساتھ شامل کرتے ہیں، تو یہ نہ صرف رسائی کنٹرول کی خلاف ورزیوں کا پتہ لگانے کے قابل ہو جائے گا، بلکہ عمارت یا سہولت میں ملازمین کی حقیقی موجودگی کا اندراج بھی کر سکے گا۔ دوسرے لفظوں میں، ویژن آپ کو ایمانداری کے ساتھ اس بات کو ذہن میں رکھنے میں مدد کرے گا کہ کون کام پر آیا اور کس وقت چلا گیا، اور کس نے کام کو یکسر چھوڑ دیا، چاہے اس کے ساتھیوں نے اس کے اعلیٰ افسران کے سامنے اس کا احاطہ کیا ہو۔

2.3 ویڈیو تجزیات: لوگوں سے باخبر رہنا اور سیکیورٹی

وژن کا استعمال کرتے ہوئے لوگوں کا سراغ لگا کر، آپ شاپنگ ایریاز، ٹرین سٹیشنوں، گزرگاہوں، گلیوں اور بہت سے دوسرے عوامی مقامات کی حقیقی ٹریفک کا درست اندازہ لگا سکتے ہیں۔ ہماری ٹریکنگ رسائی کو کنٹرول کرنے میں بھی بہت مددگار ثابت ہوسکتی ہے، مثال کے طور پر، کسی گودام یا دیگر اہم دفتری احاطے تک۔ اور یقیناً، لوگوں اور چہروں کو ٹریک کرنے سے سیکیورٹی کے مسائل حل کرنے میں مدد ملتی ہے۔ کسی کو آپ کے اسٹور سے چوری کرتے ہوئے پکڑا؟ اس کی PersonID، جسے Vision کے ذریعے واپس کیا گیا تھا، اپنے ویڈیو اینالیٹکس سافٹ ویئر کی بلیک لسٹ میں شامل کریں، اور اگلی بار اس قسم کے دوبارہ ظاہر ہونے پر سسٹم فوری طور پر سیکیورٹی کو الرٹ کر دے گا۔

2.4 تجارت میں

ریٹیل اور مختلف سروس کے کاروبار قطار کی شناخت میں دلچسپی رکھتے ہیں۔ ویژن کی مدد سے آپ پہچان سکتے ہیں کہ یہ لوگوں کا بے ترتیب ہجوم نہیں ہے، بلکہ ایک قطار ہے، اور اس کی لمبائی کا تعین کر سکتے ہیں۔ اور پھر سسٹم انچارجوں کو قطار کے بارے میں مطلع کرتا ہے تاکہ وہ صورتحال کا اندازہ لگا سکیں: یا تو وہاں زائرین کی آمد ہے اور اضافی کارکنوں کو بلانے کی ضرورت ہے، یا کوئی اپنی ملازمت کے فرائض میں سستی کر رہا ہے۔

ایک اور دلچسپ کام ہال میں موجود کمپنی کے ملازمین کو زائرین سے الگ کرنا ہے۔ عام طور پر، نظام کو مخصوص لباس (ڈریس کوڈ) یا کچھ مخصوص خصوصیت (برانڈڈ اسکارف، سینے پر بیج، اور اسی طرح) پہننے والی اشیاء کو الگ کرنے کی تربیت دی جاتی ہے۔ اس سے حاضری کا زیادہ درست اندازہ لگانے میں مدد ملتی ہے (تاکہ ملازمین ہال میں موجود لوگوں کے اعدادوشمار کو ان کی محض موجودگی سے "بڑا" نہ دیں)۔

چہرے کی شناخت کا استعمال کرتے ہوئے، آپ اپنے سامعین کا اندازہ بھی لگا سکتے ہیں: دیکھنے والوں کی وفاداری کیا ہے، یعنی کتنے لوگ آپ کے ادارے میں واپس آتے ہیں اور کتنی تعدد کے ساتھ۔ حساب لگائیں کہ ہر ماہ کتنے منفرد زائرین آپ کے پاس آتے ہیں۔ کشش اور برقرار رکھنے کے اخراجات کو بہتر بنانے کے لیے، آپ ہفتے کے دن اور یہاں تک کہ دن کے وقت کے لحاظ سے ٹریفک میں ہونے والی تبدیلی کو بھی جان سکتے ہیں۔

فرنچائزرز اور چین کمپنیاں مختلف ریٹیل آؤٹ لیٹس کی برانڈنگ کے معیار کی تصاویر کی بنیاد پر تشخیص کا آرڈر دے سکتی ہیں: لوگو، نشانات، پوسٹرز، بینرز وغیرہ کی موجودگی۔

2.5 نقل و حمل کے ذریعے

ویڈیو اینالیٹکس کا استعمال کرتے ہوئے سیکیورٹی کو یقینی بنانے کی ایک اور مثال ہوائی اڈوں یا ٹرین اسٹیشنوں کے ہالوں میں چھوڑی ہوئی اشیاء کی نشاندہی کرنا ہے۔ وژن کو سینکڑوں کلاسوں کی اشیاء کو پہچاننے کی تربیت دی جا سکتی ہے: فرنیچر کے ٹکڑے، بیگ، سوٹ کیس، چھتری، مختلف قسم کے کپڑے، بوتلیں وغیرہ۔ اگر آپ کا ویڈیو اینالیٹکس سسٹم کسی مالک کے بغیر چیز کا پتہ لگاتا ہے اور ویژن کا استعمال کرتے ہوئے اسے پہچانتا ہے، تو یہ سیکیورٹی سروس کو سگنل بھیجتا ہے۔ اسی طرح کا کام عوامی مقامات پر غیر معمولی حالات کی خود بخود پتہ لگانے کے ساتھ منسلک ہے: کوئی بیمار محسوس کرتا ہے، یا کوئی غلط جگہ پر سگریٹ نوشی کرتا ہے، یا کوئی شخص ریلوں پر گرتا ہے، وغیرہ - یہ تمام نمونے ویڈیو اینالیٹکس سسٹم کے ذریعے پہچانے جا سکتے ہیں۔ Vision API کے ذریعے۔

2.6۔ دستاویز کا بہاؤ

وژن کی ایک اور دلچسپ مستقبل کی ایپلی کیشن جسے ہم فی الحال تیار کر رہے ہیں وہ ہے دستاویز کی شناخت اور ڈیٹا بیس میں ان کا خودکار تجزیہ۔ نہ ختم ہونے والی سیریز، نمبرز، ایشو کی تاریخیں، اکاؤنٹ نمبر، بینک کی تفصیلات، تاریخیں اور جائے پیدائش اور بہت سے دوسرے باضابطہ ڈیٹا کو دستی طور پر داخل کرنے (یا بدتر، درج کرنے) کے بجائے، آپ دستاویزات کو اسکین کر کے خود بخود انہیں ایک محفوظ چینل پر بھیج سکتے ہیں۔ کلاؤڈ کے لیے API، جہاں سسٹم ان دستاویزات کو فلائی پر پہچان لے گا، ان کی تجزیہ کرے گا اور ڈیٹا بیس میں خودکار داخلے کے لیے مطلوبہ فارمیٹ میں ڈیٹا کے ساتھ جواب واپس کرے گا۔ آج ویژن پہلے ہی جانتا ہے کہ دستاویزات کی درجہ بندی کیسے کی جاتی ہے (بشمول پی ڈی ایف) - یہ پاسپورٹ، SNILS، TIN، پیدائشی سرٹیفکیٹس، شادی کے سرٹیفکیٹس اور دیگر میں فرق کرتا ہے۔

بلاشبہ، نیورل نیٹ ورک ان تمام حالات کو باکس سے باہر ہینڈل کرنے کے قابل نہیں ہے۔ ہر معاملے میں، ایک مخصوص گاہک کے لیے ایک نیا ماڈل بنایا جاتا ہے، بہت سے عوامل، باریکیوں اور تقاضوں کو مدنظر رکھا جاتا ہے، ڈیٹا سیٹس کا انتخاب کیا جاتا ہے، اور تربیت، جانچ اور ترتیب کی تکرار کی جاتی ہے۔

3. API آپریشن اسکیم

صارفین کے لیے وژن کا "داخلی دروازہ" REST API ہے۔ یہ ان پٹ کے طور پر نیٹ ورک کیمروں (RTSP اسٹریمز) سے تصاویر، ویڈیو فائلز اور نشریات وصول کر سکتا ہے۔

وژن کو استعمال کرنے کے لیے، آپ کو ضرورت ہے۔ کریں Mail.ru کلاؤڈ سولیوشن سروس میں اور رسائی ٹوکن وصول کریں (client_id + client_secret)۔ صارف کی توثیق OAuth پروٹوکول کے ذریعے کی جاتی ہے۔ POST درخواستوں کے باڈی میں سورس ڈیٹا API کو بھیجا جاتا ہے۔ اور جواب میں، کلائنٹ API سے JSON فارمیٹ میں ایک شناختی نتیجہ حاصل کرتا ہے، اور جواب کا ڈھانچہ ہوتا ہے: اس میں پائی جانے والی اشیاء اور ان کے نقاط کے بارے میں معلومات ہوتی ہیں۔

داڑھی کے ساتھ، سیاہ شیشے اور پروفائل میں: کمپیوٹر وژن کے لیے مشکل حالات

نمونہ جواب

{
   "status":200,
   "body":{
      "objects":[
         {
            "status":0,
            "name":"file_0"
         },
         {
            "status":0,
            "name":"file_2",
            "persons":[
               {
                  "tag":"person9"
                  "coord":[149,60,234,181],
                  "confidence":0.9999,
                  "awesomeness":0.45
               },
               {
                  "tag":"person10"
                  "coord":[159,70,224,171],
                  "confidence":0.9998,
                  "awesomeness":0.32
               }
            ]
         }

         {
            "status":0,
            "name":"file_3",
            "persons":[
               {
               "tag":"person11",
               "coord":[157,60,232,111],
               "aliases":["person12", "person13"]
               "confidence":0.9998,
               "awesomeness":0.32
               }
            ]
         },
         {
            "status":0,
            "name":"file_4",
            "persons":[
               {
               "tag":"undefined"
               "coord":[147,50,222,121],
               "confidence":0.9997,
               "awesomeness":0.26
               }
            ]
         }
      ],
      "aliases_changed":false
   },
   "htmlencoded":false,
   "last_modified":0
}

جواب میں ایک دلچسپ پیرامیٹر حیرت انگیزی ہے - یہ تصویر میں چہرے کی مشروط "ٹھنڈک" ہے، اس کی مدد سے ہم ترتیب سے چہرے کا بہترین شاٹ منتخب کرتے ہیں۔ ہم نے ایک نیورل نیٹ ورک کو تربیت دی تاکہ اس امکان کا اندازہ لگایا جا سکے کہ سوشل نیٹ ورکس پر کسی تصویر کو پسند کیا جائے گا۔ تصویر کی کوالٹی جتنی بہتر ہو گی اور چہرہ جتنا زیادہ مسکراتا ہو گا، اتنا ہی شاندار ہو گا۔

API وژن ایک تصور استعمال کرتا ہے جسے اسپیس کہتے ہیں۔ یہ چہروں کے مختلف سیٹ بنانے کا ایک ٹول ہے۔ خالی جگہوں کی مثالیں بلیک اینڈ وائٹ لسٹیں، وزٹرز، ملازمین، کلائنٹس وغیرہ کی فہرستیں ہیں۔ Vision میں ہر ٹوکن کے لیے، آپ 10 اسپیس تک بنا سکتے ہیں، ہر اسپیس میں 50 ہزار PersonIDs ہو سکتے ہیں، یعنی 500 ہزار تک۔ فی ٹوکن مزید یہ کہ، فی اکاؤنٹ ٹوکنز کی تعداد محدود نہیں ہے۔

آج API درج ذیل پتہ لگانے اور پہچاننے کے طریقوں کی حمایت کرتا ہے:

  • پہچاننا/سیٹ کرنا - چہروں کی شناخت اور پہچان۔ ہر منفرد شخص کو خود بخود ایک PersonID تفویض کرتا ہے، PersonID واپس کرتا ہے اور پائے جانے والے افراد کے کوآرڈینیٹ دیتا ہے۔
  • حذف کریں - شخص کے ڈیٹا بیس سے ایک مخصوص PersonID کو حذف کرنا۔
  • ٹرنکیٹ - PersonID سے پوری جگہ کو صاف کرتا ہے، مفید ہے اگر اسے ٹیسٹ اسپیس کے طور پر استعمال کیا گیا ہو اور آپ کو پروڈکشن کے لیے ڈیٹا بیس کو دوبارہ ترتیب دینے کی ضرورت ہو۔
  • پتہ لگانا - اشیاء، مناظر، لائسنس پلیٹس، نشانات، قطار وغیرہ کا پتہ لگانا۔ پائی جانے والی اشیاء اور ان کے نقاط کی کلاس لوٹاتا ہے۔
  • دستاویزات کا پتہ لگائیں - روسی فیڈریشن کے مخصوص قسم کے دستاویزات کا پتہ لگاتا ہے (پاسپورٹ، SNILS، ٹیکس شناختی نمبر، وغیرہ کو الگ کرتا ہے)۔

ہم جلد ہی OCR کے طریقوں پر کام مکمل کریں گے، جنس، عمر اور جذبات کا تعین کرنے کے ساتھ ساتھ تجارتی مسائل کو حل کرنے کے لیے، یعنی دکانوں میں سامان کی نمائش کو خود بخود کنٹرول کرنے کے لیے۔ آپ یہاں مکمل API دستاویزات حاصل کر سکتے ہیں: https://mcs.mail.ru/help/vision-api

4. نتیجہ

اب، عوامی API کے ذریعے، آپ تصاویر اور ویڈیوز میں چہرے کی شناخت تک رسائی حاصل کر سکتے ہیں؛ مختلف اشیاء، لائسنس پلیٹس، نشانات، دستاویزات اور پورے مناظر کی شناخت کی سہولت فراہم کی جاتی ہے۔ درخواست کے منظرنامے - سمندر۔ آؤ، ہماری سروس کی جانچ کریں، اسے انتہائی مشکل کاموں کو ترتیب دیں۔ پہلے 5000 ٹرانزیکشنز مفت ہیں۔ شاید یہ آپ کے منصوبوں کے لیے "گمشدہ جزو" ہو گا۔

آپ رجسٹریشن اور کنکشن پر فوری طور پر API تک رسائی حاصل کر سکتے ہیں۔ ویژن. تمام ہابرا صارفین کو اضافی لین دین کے لیے ایک پروموشنل کوڈ ملتا ہے۔ براہ کرم مجھے وہ ای میل پتہ لکھیں جو آپ نے اپنا اکاؤنٹ رجسٹر کرنے کے لیے استعمال کیا تھا!

ماخذ: www.habr.com

نیا تبصرہ شامل کریں