سائٹ پر گھسنے والوں کا مقابلہ کرنے کے لیے ایک خودکار نظام کی تشکیل (دھوکہ دہی)

پچھلے تقریباً چھ مہینوں سے، میں اس کے لیے بغیر کسی ابتدائی انفراسٹرکچر کے دھوکہ دہی (فریب کی سرگرمی، دھوکہ دہی وغیرہ) سے نمٹنے کے لیے ایک نظام بنا رہا ہوں۔ آج کے آئیڈیاز جو ہم نے اپنے سسٹم میں پائے اور نافذ کیے ہیں وہ بہت سی دھوکہ دہی کی سرگرمیوں کا پتہ لگانے اور ان کا تجزیہ کرنے میں ہماری مدد کرتے ہیں۔ اس مضمون میں، میں ان اصولوں کے بارے میں بات کرنا چاہوں گا جن کی ہم نے پیروی کی اور ہم نے اپنے نظام کی موجودہ حالت کو حاصل کرنے کے لیے کیا کیا، بغیر تکنیکی حصے میں پڑے۔

ہمارے نظام کے اصول

جب آپ "خودکار" اور "فراڈ" جیسی اصطلاحات سنتے ہیں تو آپ غالباً مشین لرننگ، Apache Spark، Hadoop، Python، Airflow، اور Apache Foundation ایکو سسٹم اور ڈیٹا سائنس فیلڈ میں دیگر ٹیکنالوجیز کے بارے میں سوچنا شروع کر دیتے ہیں۔ میرے خیال میں ان ٹولز کو استعمال کرنے کا ایک پہلو ہے جس کا عام طور پر تذکرہ نہیں کیا جاتا ہے: ان کو استعمال کرنے سے پہلے آپ کے انٹرپرائز سسٹم پر کچھ شرائط کی ضرورت ہوتی ہے۔ مختصر میں، آپ کو ایک انٹرپرائز ڈیٹا پلیٹ فارم کی ضرورت ہے جس میں ڈیٹا لیک اور اسٹوریج شامل ہو۔ لیکن کیا ہوگا اگر آپ کے پاس ایسا پلیٹ فارم نہیں ہے اور پھر بھی اس مشق کو تیار کرنے کی ضرورت ہے؟ مندرجہ ذیل اصول، جن کی میں ذیل میں وضاحت کرتا ہوں، نے ہمیں اس مقام تک پہنچنے میں مدد کی ہے جہاں ہم کام کرنے والے کو تلاش کرنے کے بجائے اپنے خیالات کو بہتر بنانے پر توجہ مرکوز کر سکتے ہیں۔ تاہم، یہ اس منصوبے کا "متحدہ" نہیں ہے۔ تکنیکی اور مصنوعات کے نقطہ نظر سے اس منصوبے میں اور بھی بہت سی چیزیں ہیں۔

اصول 1: کاروباری قدر پہلے

ہم اپنی تمام کوششوں میں "کاروباری قدر" کو سب سے آگے رکھتے ہیں۔ عام طور پر، کوئی بھی خودکار تجزیہ نظام پیچیدہ نظاموں کے گروپ سے تعلق رکھتا ہے جس میں اعلیٰ سطح کی آٹومیشن اور تکنیکی پیچیدگی ہوتی ہے۔ اگر آپ اسے شروع سے بناتے ہیں تو مکمل حل بنانے میں کافی وقت لگے گا۔ ہم نے کاروباری قدر کو پہلے اور تکنیکی پختگی کو دوسرے نمبر پر رکھنے کا فیصلہ کیا۔ حقیقی زندگی میں، اس کا مطلب یہ ہے کہ ہم جدید ٹیکنالوجی کو ایک عقیدہ کے طور پر قبول نہیں کرتے ہیں۔ ہم اس ٹیکنالوجی کا انتخاب کرتے ہیں جو اس وقت ہمارے لیے بہترین کام کرتی ہے۔ وقت گزرنے کے ساتھ، ایسا لگتا ہے کہ ہمیں کچھ ماڈیولز کو دوبارہ نافذ کرنا پڑے گا۔ یہ وہ سمجھوتہ ہے جسے ہم نے قبول کیا۔

اصول 2: بڑھا ہوا ذہانت

میں شرط لگاتا ہوں کہ زیادہ تر لوگ جو مشین لرننگ کے حل تیار کرنے میں گہرائی سے شامل نہیں ہیں وہ سوچ سکتے ہیں کہ انسانی متبادل مقصد ہے۔ درحقیقت، مشین لرننگ سلوشنز کامل سے بہت دور ہیں اور صرف مخصوص علاقوں میں ہی متبادل ممکن ہے۔ ہم نے اس خیال کو شروع سے ہی کئی وجوہات کی بناء پر ترک کر دیا: دھوکہ دہی کی سرگرمیوں سے متعلق غیر متوازن ڈیٹا اور مشین لرننگ ماڈلز کے لیے خصوصیات کی ایک مکمل فہرست فراہم کرنے میں ناکامی۔ اس کے برعکس، ہم نے بڑھا ہوا انٹیلی جنس آپشن کا انتخاب کیا۔ یہ مصنوعی ذہانت کا ایک متبادل تصور ہے جو AI کے معاون کردار پر توجہ مرکوز کرتا ہے، اس حقیقت پر زور دیتا ہے کہ علمی ٹیکنالوجیز انسانی ذہانت کو بڑھانے کے لیے بنائی گئی ہیں، نہ کہ اسے بدلنے کے لیے۔ [1]

اس بات کو ذہن میں رکھتے ہوئے، شروع سے ہی ایک مکمل مشین لرننگ حل تیار کرنے کے لیے بہت زیادہ محنت درکار ہوگی جس سے ہمارے کاروبار کے لیے قدر پیدا ہونے میں تاخیر ہوگی۔ ہم نے اپنے ڈومین کے ماہرین کی رہنمائی میں مشین لرننگ کے بار بار بڑھتے ہوئے پہلو کے ساتھ ایک نظام بنانے کا فیصلہ کیا۔ اس طرح کے نظام کو تیار کرنے کا مشکل حصہ یہ ہے کہ اسے ہمارے تجزیہ کاروں کو کیس اسٹڈیز کے ساتھ نہ صرف اس لحاظ سے فراہم کرنا ہے کہ آیا یہ ایک دھوکہ دہی کی سرگرمی ہے یا نہیں۔ عام طور پر، گاہکوں کے رویے میں کوئی بے ضابطگی ایک مشکوک معاملہ ہے جس کی ماہرین کو تحقیقات کرنے اور کسی نہ کسی طرح جواب دینے کی ضرورت ہے۔ ان ریکارڈ شدہ کیسز میں سے صرف چند کو ہی واقعی فراڈ کے طور پر درجہ بندی کیا جا سکتا ہے۔

اصول 3: بھرپور بصیرت کا پلیٹ فارم

ہمارے سسٹم کا سب سے مشکل حصہ سسٹم کے ورک فلو کی اینڈ ٹو اینڈ تصدیق ہے۔ تجزیہ کاروں اور ڈویلپرز کو ان تمام میٹرکس کے ساتھ تاریخی ڈیٹا سیٹ آسانی سے حاصل کرنا چاہیے جو تجزیہ کے لیے استعمال کیے گئے تھے۔ اس کے علاوہ، ڈیٹا پلیٹ فارم کو اشارے کے موجودہ سیٹ کو ایک نئے کے ساتھ پورا کرنے کا آسان طریقہ فراہم کرنا چاہیے۔ وہ عمل جو ہم بناتے ہیں، اور یہ صرف سافٹ ویئر کے عمل نہیں ہیں، ان سے پچھلے ادوار کو دوبارہ گننا، نئے میٹرکس شامل کرنا اور ڈیٹا کی پیشن گوئی کو تبدیل کرنا آسان ہونا چاہیے۔ ہم یہ تمام ڈیٹا اکٹھا کر کے حاصل کر سکتے ہیں جو ہمارا پروڈکشن سسٹم تیار کرتا ہے۔ ایسی صورت میں، ڈیٹا آہستہ آہستہ رکاوٹ بن جائے گا. ہمیں ڈیٹا کی بڑھتی ہوئی مقدار کو ذخیرہ کرنے اور اس کی حفاظت کرنے کی ضرورت ہوگی۔ ایسے حالات میں، وقت کے ساتھ ڈیٹا زیادہ سے زیادہ غیر متعلقہ ہوتا جائے گا، لیکن پھر بھی اسے منظم کرنے کے لیے ہماری کوششوں کی ضرورت ہے۔ ہمارے لیے، ڈیٹا ذخیرہ کرنے کا کوئی مطلب نہیں تھا، اور ہم نے ایک مختلف طریقہ استعمال کرنے کا فیصلہ کیا۔ ہم نے ان ہدف والے اداروں کے ارد گرد ریئل ٹائم ڈیٹا گوداموں کو منظم کرنے کا فیصلہ کیا ہے جن کی ہم درجہ بندی کرنا چاہتے ہیں، اور صرف وہی ڈیٹا ذخیرہ کریں گے جو ہمیں حالیہ اور تازہ ترین ادوار کو چیک کرنے کی اجازت دیتا ہے۔ اس کوشش کے ساتھ چیلنج یہ ہے کہ ہمارا نظام متعدد ڈیٹا اسٹورز اور سافٹ ویئر ماڈیولز کے ساتھ متضاد ہے جس کے لیے مستقل طور پر کام کرنے کے لیے محتاط منصوبہ بندی کی ضرورت ہوتی ہے۔

ہمارے نظام کے ڈیزائن تصورات

ہمارے سسٹم میں چار اہم اجزاء ہیں: ایک ادخال کا نظام، ایک کمپیوٹیشنل سسٹم، ایک BI تجزیہ، اور ایک ٹریکنگ سسٹم۔ وہ مخصوص الگ تھلگ مقاصد کی تکمیل کرتے ہیں، اور ہم ترقی کے مخصوص طریقوں پر عمل کرتے ہوئے انہیں الگ تھلگ رکھتے ہیں۔

سائٹ پر گھسنے والوں کا مقابلہ کرنے کے لیے ایک خودکار نظام کی تشکیل (دھوکہ دہی)

معاہدہ پر مبنی ڈیزائن

سب سے پہلے، ہم نے اتفاق کیا کہ اجزاء کو صرف مخصوص ڈیٹا ڈھانچے (معاہدوں) پر انحصار کرنا چاہیے جو ان کے درمیان گزرے ہیں۔ اس سے ان کے درمیان ضم ہونا اور اجزاء کی مخصوص ساخت (اور ترتیب) کو مسلط نہ کرنا آسان ہوجاتا ہے۔ مثال کے طور پر، کچھ معاملات میں یہ ہمیں براہ راست وصول کرنے والے نظام کو الرٹ ٹریکنگ سسٹم کے ساتھ مربوط کرنے کی اجازت دیتا ہے۔ ایسی صورت میں، یہ متفقہ نوٹیفکیشن معاہدے کے مطابق کیا جائے گا۔ اس کا مطلب یہ ہے کہ دونوں اجزاء کو ایک معاہدے کا استعمال کرتے ہوئے مربوط کیا جائے گا جسے کوئی دوسرا جزو استعمال کر سکتا ہے۔ ہم ان پٹ سسٹم سے ٹریکنگ سسٹم میں الرٹس شامل کرنے کے لیے کوئی اضافی معاہدہ شامل نہیں کریں گے۔ یہ نقطہ نظر پہلے سے طے شدہ کم از کم معاہدوں کے استعمال کی ضرورت ہے اور نظام اور مواصلات کو آسان بناتا ہے۔ بنیادی طور پر، ہم "کنٹریکٹ فرسٹ ڈیزائن" کے نام سے ایک طریقہ اختیار کر رہے ہیں اور اسے اسٹریمنگ کنٹریکٹس پر لاگو کر رہے ہیں۔ [2]

ہر جگہ سلسلہ بندی

نظام میں ریاست کو محفوظ کرنا اور اس کا انتظام کرنا لامحالہ اس کے نفاذ میں پیچیدگیوں کا باعث بنے گا۔ عام طور پر، ریاست کو کسی بھی جزو سے قابل رسائی ہونا چاہیے، یہ مطابقت پذیر ہونا چاہیے اور تمام اجزاء میں سب سے تازہ ترین قدر فراہم کرنا چاہیے، اور یہ صحیح اقدار کے ساتھ قابل اعتماد ہونا چاہیے۔ اس کے علاوہ، تازہ ترین حالت حاصل کرنے کے لیے مستقل اسٹوریج پر کال کرنے سے I/O کی مقدار اور ہماری ریئل ٹائم پائپ لائنز میں استعمال ہونے والے الگورتھم کی پیچیدگی میں اضافہ ہوگا۔ اس کی وجہ سے، ہم نے اپنے سسٹم سے، اگر ممکن ہو تو، ریاستی اسٹوریج کو مکمل طور پر ہٹانے کا فیصلہ کیا۔ اس نقطہ نظر کا تقاضا ہے کہ تمام ضروری ڈیٹا کو منتقل شدہ ڈیٹا یونٹ (پیغام) میں شامل کیا جائے۔ مثال کے طور پر، اگر ہمیں کچھ مشاہدات کی کل تعداد (آپریشنز کی تعداد یا مخصوص خصوصیات کے ساتھ کیسز) کا حساب لگانے کی ضرورت ہے، تو ہم اسے میموری میں شمار کرتے ہیں اور اس طرح کی قدروں کا ایک سلسلہ تیار کرتے ہیں۔ انحصار شدہ ماڈیولز تقسیم اور بیچنگ کو اداروں کے ذریعے تقسیم کرنے اور تازہ ترین اقدار پر کام کرنے کے لیے استعمال کریں گے۔ اس نقطہ نظر نے اس طرح کے ڈیٹا کے لئے مستقل ڈسک اسٹوریج کی ضرورت کو ختم کردیا۔ ہمارا سسٹم کافکا کو بطور میسج بروکر استعمال کرتا ہے اور اسے KSQL کے ساتھ ڈیٹا بیس کے طور پر استعمال کیا جا سکتا ہے۔ [3] لیکن اس کا استعمال ہمارے حل کو مضبوطی سے کافکا سے جوڑ دے گا، اور ہم نے اسے استعمال نہ کرنے کا فیصلہ کیا۔ ہم نے جو نقطہ نظر منتخب کیا ہے وہ ہمیں سسٹم میں بڑی اندرونی تبدیلیوں کے بغیر کافکا کو ایک اور میسج بروکر سے تبدیل کرنے کی اجازت دیتا ہے۔

اس تصور کا مطلب یہ نہیں ہے کہ ہم ڈسک اسٹوریج اور ڈیٹا بیس استعمال نہیں کرتے ہیں۔ سسٹم کی کارکردگی کو جانچنے اور اس کا تجزیہ کرنے کے لیے، ہمیں ڈسک پر ڈیٹا کی ایک قابل قدر مقدار کو ذخیرہ کرنے کی ضرورت ہے، جو مختلف اشارے اور حالتوں کی نمائندگی کرتا ہے۔ یہاں اہم نکتہ یہ ہے کہ ریئل ٹائم الگورتھم اس طرح کے ڈیٹا پر منحصر نہیں ہوتے ہیں۔ زیادہ تر معاملات میں، ہم محفوظ کردہ ڈیٹا کو آف لائن تجزیہ، ڈیبگنگ، اور مخصوص کیسز اور نتائج کی ٹریکنگ کے لیے استعمال کرتے ہیں جو سسٹم تیار کرتا ہے۔

ہمارے نظام کے مسائل

کچھ مسائل ہیں جنہیں ہم نے ایک خاص سطح تک حل کیا ہے، لیکن ان کے لیے زیادہ سوچ سمجھ کر حل کرنے کی ضرورت ہے۔ فی الحال، میں یہاں صرف ان کا ذکر کرنا چاہوں گا، کیونکہ ہر شے اس کے اپنے مضمون کے قابل ہے۔

  • ہمیں ابھی بھی ایسے عمل اور پالیسیوں کی وضاحت کرنے کی ضرورت ہے جو ہمارے خودکار تجزیہ، دریافت اور ڈیٹا کی تلاش کے لیے بامعنی اور متعلقہ ڈیٹا تیار کرنے میں مدد کریں۔
  • تازہ ترین اعداد و شمار کے ساتھ اسے اپ ڈیٹ کرنے کے لیے نظام کو خود بخود ٹیوننگ کرنے کے عمل میں کسی شخص کے ذریعے تجزیہ کے نتائج کا تعارف۔ یہ نہ صرف ہمارے ماڈل کی تازہ کاری ہے بلکہ ہمارے عمل اور ہمارے ڈیٹا کی بہتر تفہیم کی تازہ کاری بھی ہے۔
  • IF-ELSE اور ML کے تعییناتی نقطہ نظر کے درمیان توازن تلاش کرنا۔ کسی نے کہا: "ایم ایل مایوسیوں کا آلہ ہے۔" اس کا مطلب یہ ہے کہ جب آپ اپنے الگورتھم کو بہتر اور بہتر کرنے کا طریقہ نہیں سمجھتے ہیں تو آپ ML استعمال کرنا چاہیں گے۔ دوسری طرف، تعییناتی نقطہ نظر ان بے ضابطگیوں کا پتہ لگانے کی اجازت نہیں دیتا جن کا اندازہ نہیں تھا۔
  • ہمیں ڈیٹا میں میٹرکس کے درمیان اپنے مفروضوں یا ارتباط کو جانچنے کے لیے ایک آسان طریقہ کی ضرورت ہے۔
  • نظام میں حقیقی مثبت نتائج کی متعدد سطحیں ہونی چاہئیں۔ فراڈ کیسز ان تمام کیسز کا صرف ایک حصہ ہیں جنہیں سسٹم کے لیے مثبت سمجھا جا سکتا ہے۔ مثال کے طور پر، تجزیہ کار تمام مشکوک کیسز کو جائزے کے لیے وصول کرنا چاہتے ہیں، اور ان میں سے صرف ایک چھوٹا سا حصہ ہی دھوکہ دہی پر مبنی ہے۔ نظام کو مؤثر طریقے سے تجزیہ کاروں کو تمام معاملات فراہم کرنا چاہیے، چاہے یہ حقیقی دھوکہ دہی ہو یا محض مشکوک رویہ۔
  • ڈیٹا پلیٹ فارم کو تاریخی ڈیٹا سیٹس کو دوبارہ حاصل کرنے کے قابل ہونا چاہیے جس میں حساب کتاب کی گئی اور فلائی پر کی گئی ہے۔
  • کم از کم تین مختلف ماحول میں سسٹم کے کسی بھی اجزاء کی سادہ اور خودکار تعیناتی: پروڈکشن، تجرباتی (بیٹا) اور ڈویلپرز کے لیے۔
  • اور آخری لیکن کم از کم نہیں۔ ہمیں ایک وسیع بینچ مارکنگ پلیٹ فارم بنانے کی ضرورت ہے جس پر ہم اپنے ماڈلز کا تجزیہ کر سکیں۔ [4]

حوالہ جات

  1. Augmented Intelligence کیا ہے؟
  2. API-پہلے ڈیزائن کے طریقہ کار کو نافذ کرنا
  3. کافکا "ایونٹ سٹریمنگ ڈیٹا بیس" میں تبدیل ہو رہا ہے
  4. AUC—ROC وکر کو سمجھنا

ماخذ: www.habr.com

نیا تبصرہ شامل کریں