سائيٽ تي مداخلت ڪندڙن کي منهن ڏيڻ لاءِ هڪ خودڪار سسٽم ٺاهڻ (دوکي)

گذريل ڇهن مهينن کان آئون بنا ڪنهن ابتدائي انفراسٽرڪچر جي فراڊ (دوکي واري سرگرمي، فراڊ وغيره) کي منهن ڏيڻ لاءِ هڪ نظام ٺاهي رهيو آهيان. اڄ جا خيال جيڪي اسان کي مليا آهن ۽ اسان جي سسٽم ۾ لاڳو ڪيا ويا آهن اسان کي ڪيترن ئي دوکي جي سرگرمين کي ڳولڻ ۽ تجزيو ڪرڻ ۾ مدد ڪن ٿيون. هن آرٽيڪل ۾، آئون انهن اصولن جي باري ۾ ڳالهائڻ چاهيندس جن جي اسان پيروي ڪئي ۽ اسان جي سسٽم جي موجوده حالت حاصل ڪرڻ لاء ڇا ڪيو، بغير ٽيڪنيڪل حصي ۾ وڃڻ جي.

اسان جي نظام جا اصول

جڏهن توهان "خودڪار" ۽ "فراڊ" جهڙا اصطلاح ٻڌندا آهيو، توهان گهڻو ڪري مشين لرننگ، Apache Spark، Hadoop، Python، Airflow، ۽ Apache Foundation ecosystem ۽ ڊيٽا سائنس فيلڊ مان ٻين ٽيڪنالاجيز بابت سوچڻ شروع ڪندا آهيو. منهنجو خيال آهي ته انهن اوزارن کي استعمال ڪرڻ جو هڪ پاسو آهي جنهن جو عام طور تي ذڪر نه ڪيو ويندو آهي: انهن کي توهان جي انٽرپرائز سسٽم ۾ ڪجهه شرطن جي ضرورت آهي ان کان پهريان ته توهان انهن کي استعمال ڪرڻ شروع ڪري سگهو. مختصر ۾، توهان کي هڪ انٽرنيشنل ڊيٽا پليٽ فارم جي ضرورت آهي جنهن ۾ ڊيٽا ڍنڍ ۽ گودام شامل آهن. پر ڇا جيڪڏهن توهان وٽ اهڙو پليٽ فارم نه آهي ۽ اڃا به هن مشق کي ترقي ڪرڻ جي ضرورت آهي؟ هيٺ ڏنل اصول جيڪي آئون هيٺ حصيداري ڪريان ٿو انهن اسان کي هڪ نقطي تائين پهچڻ ۾ مدد ڪئي آهي جتي اسان پنهنجي خيالن کي بهتر بڻائڻ تي ڌيان ڏئي سگهون ٿا بجاءِ جيڪو ڪم ڪري ٿو. بهرحال، هي هڪ پروجيڪٽ پليٽ نه آهي. ٽيڪنالاجي ۽ پيداوار جي نقطي نظر کان منصوبي ۾ اڃا تائين تمام گهڻيون شيون آهن.

اصول 1: ڪاروباري قدر پهريون

اسان رکون ٿا "ڪاروباري قدر" اسان جي سڀني ڪوششن جي اڳيان. عام طور تي، ڪنهن به خودڪار تجزياتي نظام جو تعلق پيچيده سسٽم جي گروپ سان آهي جيڪو اعلي سطحي خودڪار ۽ ٽيڪنيڪل پيچيدگي سان. مڪمل حل ٺاھڻ ۾ گھڻو وقت لڳندو جيڪڏھن توھان ان کي شروع کان ٺاھيو. اسان فيصلو ڪيو ته ڪاروباري قدر پهرين ۽ ٽيڪنيڪل مڪمليت کي ٻيو. حقيقي زندگي ۾، هن جو مطلب اهو آهي ته اسان ترقي يافته ٽيڪنالاجي کي dogma طور قبول نه ڪندا آهيون. اسان ٽيڪنالاجي چونڊيندا آهيون جيڪا هن وقت اسان لاءِ بهترين ڪم ڪري ٿي. وقت سان گڏ، اهو لڳي سگھي ٿو ته اسان کي ڪجهه ماڊل ٻيهر لاڳو ڪرڻو پوندو. اھو سمجھوتو آھي جيڪو اسان قبول ڪيو آھي.

اصول 2: وڌايل ذهانت

مان شرط لڳائيان ٿو گھڻا ماڻھو جيڪي مشين سکيا جي حل کي ترقي ڪرڻ ۾ تمام گھڻي ملوث نه آھن شايد اھو سوچين ته انسانن کي تبديل ڪرڻ مقصد آھي. حقيقت ۾، مشين سکيا جو حل بلڪل پري آهي ۽ صرف ڪجهه علائقن ۾ متبادل ممڪن آهي. اسان ڪيترن ئي سببن جي ڪري هن خيال کي شروع کان ئي رد ڪيو: دوکي جي سرگرمي تي غير متوازن ڊيٽا ۽ مشين لرننگ ماڊلز لاءِ خصوصيتن جي هڪ جامع فهرست مهيا ڪرڻ جي ناڪامي. ان جي ابتڙ، اسان چونڊيو انٽيليجنس آپشن کي وڌايو. هي مصنوعي ذهانت جو هڪ متبادل تصور آهي جيڪو AI جي معاون ڪردار تي ڌيان ڏئي ٿو، ان حقيقت تي زور ڏئي ٿو ته سنجيدگي واري ٽيڪنالاجي جو مقصد انساني ذهانت کي وڌائڻ بجاءِ ان کي تبديل ڪرڻ آهي. [1]

هن کي ڏنو ويو، هڪ مڪمل مشين لرننگ حل تيار ڪرڻ شروع کان ئي وڏي ڪوشش جي ضرورت پوندي، جيڪا اسان جي ڪاروبار لاءِ قدر پيدا ڪرڻ ۾ دير ڪندي. اسان فيصلو ڪيو ته اسان جي ڊومين جي ماهرن جي رهنمائيءَ هيٺ مشيني سکيا واري طريقي سان اڀرندڙ مشيني نظام سان. اهڙي نظام کي ترقي ڪرڻ جو مشڪل حصو اهو آهي ته ان کي اسان جي تجزيه نگارن کي نه رڳو ان حوالي سان ڪيس مهيا ڪرڻا پوندا ته ڇا اها فراڊ واري سرگرمي آهي يا نه. عام طور تي، گراهڪ جي رويي ۾ ڪا به انمولي هڪ مشڪوڪ ڪيس آهي جنهن جي ماهرن کي ڪنهن به طرح تحقيق ۽ جواب ڏيڻ جي ضرورت آهي. انهن رپورٽ ٿيل ڪيسن جو صرف هڪ حصو حقيقي طور تي دوکي جي طور تي درجه بندي ڪري سگهجي ٿو.

اصول 3: رچ اينالائيٽڪس پليٽ فارم

اسان جي سسٽم جو سڀ کان مشڪل حصو سسٽم جي ڪم فلو جي آخر کان آخر تائين تصديق آهي. تجزيه نگارن ۽ ڊولپرز کي آسانيءَ سان تاريخي ڊيٽا سيٽ حاصل ڪرڻ گهرجن جيڪي تجزيي لاءِ استعمال ٿيل آهن. اضافي طور تي، ڊيٽا پليٽ فارم کي نئين سان گڏ ميٽرڪ جي موجوده سيٽ کي پورو ڪرڻ لاء آسان رستو مهيا ڪرڻ گهرجي. پروسيس جيڪي اسان ٺاهيندا آهيون، ۽ اهي صرف سافٽ ويئر پروسيس نه آهن، اسان کي آسانيء سان پوئين دورن کي ٻيهر ڳڻڻ، نئين ميٽرڪس شامل ڪرڻ ۽ ڊيٽا جي اڳڪٿي کي تبديل ڪرڻ جي اجازت ڏيڻ گهرجي. اسان اهو حاصل ڪري سگهون ٿا سڀني ڊيٽا کي گڏ ڪرڻ سان جيڪو اسان جي پيداوار سسٽم ٺاهي ٿو. انهي حالت ۾، ڊيٽا آهستي آهستي هڪ تڪليف بڻجي ويندي. اسان کي ڊيٽا جي وڌندڙ مقدار کي ذخيرو ڪرڻ جي ضرورت پوندي جيڪا اسان استعمال نه ڪندا آهيون ۽ ان جي حفاظت ڪندا آهيون. اهڙي صورتحال ۾، ڊيٽا وقت سان گڏ وڌيڪ ۽ وڌيڪ غير لاڳاپيل ٿي ويندي، پر اڃا تائين ان کي منظم ڪرڻ لاء اسان جي ڪوششن جي ضرورت آهي. اسان لاءِ، ڊيٽا گڏ ڪرڻ جو ڪو مطلب نه هو، تنهنڪري اسان هڪ مختلف طريقو اختيار ڪرڻ جو فيصلو ڪيو. اسان منظم ڪرڻ جو فيصلو ڪيو حقيقي وقت جي ڊيٽا اسٽورن کي منظم ڪرڻ جي ٽارگيٽ ادارن جي چوڌاري جيڪي اسان کي درجه بندي ڪرڻ چاهيون ٿا، ۽ صرف ڊيٽا کي ذخيرو ڪرڻ جي اجازت ڏئي ٿي جيڪا اسان کي تازو ۽ لاڳاپيل دورن جي جانچ ڪرڻ جي اجازت ڏئي ٿي. هن ڪوشش لاءِ چيلنج اهو آهي ته اسان جو سسٽم متفاوت آهي، ڪيترن ئي ڊيٽا اسٽورن ۽ سافٽ ويئر ماڊلز سان گڏ، جنهن کي منظم طريقي سان هلائڻ لاءِ محتاط رٿابندي جي ضرورت آهي.

اسان جي سسٽم جي ڊيزائن تصورات

اسان وٽ اسان جي سسٽم ۾ چار مکيه حصا آهن: انجڻ سسٽم، ڪمپيوٽيشنل، BI تجزيو ۽ ٽريڪنگ سسٽم. اهي مخصوص، الڳ ٿيل مقصدن جي خدمت ڪن ٿا، ۽ اسان انهن کي مخصوص ڊيزائن جي طريقن تي عمل ڪندي الڳ رهون ٿا.

سائيٽ تي مداخلت ڪندڙن کي منهن ڏيڻ لاءِ هڪ خودڪار سسٽم ٺاهڻ (دوکي)

معاهدي تي ٻڌل ڊيزائن

سڀ کان پهريان، اسان اتفاق ڪيو ته اجزاء صرف ڪجهه ڊيٽا جي جوڙجڪ (معاهدي) تي ڀروسو ڪرڻ گهرجي جيڪي انهن جي وچ ۾ گذري ويا آهن. اهو انهن جي وچ ۾ ضم ڪرڻ آسان بڻائي ٿو ۽ اجزاء جي هڪ مخصوص جوڙجڪ (۽ ترتيب) کي لاڳو نٿو ڪري. مثال طور، ڪجهه حالتن ۾ هي اسان کي اجازت ڏئي ٿو سڌو سنئون انٽيڪٽ سسٽم کي الرٽ ٽريڪنگ سسٽم سان. اهڙي صورت ۾، اهو ڪيو ويندو اتفاق ٿيل خبرداري واري معاهدي جي مطابق. هن جو مطلب اهو آهي ته ٻنهي حصن کي هڪ معاهدو استعمال ڪندي ضم ڪيو ويندو جيڪو ڪو ٻيو حصو استعمال ڪري سگهي ٿو. اسان ان پٽ سسٽم مان ٽريڪنگ سسٽم ۾ الرٽ شامل ڪرڻ لاءِ اضافي معاهدو شامل نه ڪنداسين. ھن طريقي جي ضرورت آھي اڳواٽ مقرر ڪيل گھٽ ۾ گھٽ تعداد جي معاهدي جي استعمال ۽ سسٽم ۽ مواصلات کي آسان بڻائي ٿي. لازمي طور تي، اسان "ڪانٽريڪٽ فرسٽ ڊيزائن" جي نالي سان هڪ طريقو وٺون ٿا ۽ ان کي اسٽريمنگ ڪانٽريڪٽ تي لاڳو ڪريو. [2]

هر هنڌ وهڪرو

هڪ سسٽم ۾ رياست کي بچائڻ ۽ انتظام ڪرڻ لازمي طور تي ان جي عمل درآمد ۾ پيچيدگين جو سبب بڻجندو. عام طور تي، رياست کي ڪنهن به جزن مان رسائي حاصل ڪرڻ گهرجي، اهو هڪجهڙائي هجڻ گهرجي ۽ سڀني حصن ۾ سڀ کان وڌيڪ موجوده قيمت مهيا ڪرڻ گهرجي، ۽ اهو صحيح قدرن سان قابل اعتماد هجڻ گهرجي. اضافي طور تي، تازي حالت کي حاصل ڪرڻ لاء مسلسل اسٽوريج لاء ڪالون ڪرڻ سان اسان جي حقيقي وقت جي پائپ لائنز ۾ استعمال ٿيل I/O عملن جو تعداد ۽ الگورتھم جي پيچيدگي ۾ اضافو ٿيندو. انهي جي ڪري، اسان رياستي اسٽوريج کي هٽائڻ جو فيصلو ڪيو، جيڪڏهن ممڪن هجي، مڪمل طور تي اسان جي سسٽم مان. هن طريقي جي ضرورت آهي ته سڀني ضروري ڊيٽا کي منتقل ٿيل ڊيٽا بلاڪ (پيغام) ۾ شامل ڪيو وڃي. مثال طور، جيڪڏهن اسان کي ڪجهه مشاهدن جي ڪل تعداد کي ڳڻڻ جي ضرورت آهي (ڪجهه خاصيتن سان عملن يا ڪيسن جو تعداد)، اسان ان کي ميموري ۾ شمار ڪريون ٿا ۽ اهڙين قدرن جو هڪ وهڪرو ٺاهيندا آهيون. انحصار ماڊلز ورهاڱي ۽ بيچنگ کي استعمال ڪندا وهڪرو کي ادارن ۾ ورهائڻ ۽ جديد قدرن تي هلائڻ لاءِ. اهو طريقو اهڙي ڊيٽا لاء مسلسل ڊسڪ اسٽوريج جي ضرورت کي ختم ڪري ڇڏيو. اسان جو سسٽم ڪافڪا کي ميسيج بروکر طور استعمال ڪري ٿو ۽ ان کي KSQL سان ڊيٽابيس طور استعمال ڪري سگھجي ٿو. [3] پر ان کي استعمال ڪرڻ سان اسان جي حل کي ڪافڪا سان ڳنڍجي ها، ۽ اسان ان کي استعمال نه ڪرڻ جو فيصلو ڪيو. اهو طريقو جيڪو اسان چونڊيو آهي اسان کي اجازت ڏئي ٿو ته ڪافڪا کي ڪنهن ٻئي پيغام بروکر سان تبديل ڪرڻ جي بغير سسٽم ۾ وڏيون اندروني تبديليون.

هن تصور جو مطلب اهو ناهي ته اسان ڊسڪ اسٽوريج ۽ ڊيٽابيس استعمال نٿا ڪريون. سسٽم جي ڪارڪردگي کي جانچڻ ۽ تجزيو ڪرڻ لاء، اسان کي ڊسڪ تي ڊيٽا جي وڏي مقدار کي ذخيرو ڪرڻ جي ضرورت آهي جيڪا مختلف ميٽرڪ ۽ رياستن جي نمائندگي ڪري ٿي. هتي اهم نقطو اهو آهي ته حقيقي وقت جي الگورتھم اهڙي ڊيٽا تي منحصر نه آهن. اڪثر ڪيسن ۾، اسان محفوظ ڪيل ڊيٽا استعمال ڪندا آهيون آف لائن تجزيو، ڊيبگنگ ۽ ٽريڪنگ لاءِ مخصوص ڪيسن ۽ نتيجن جي ٽريڪنگ جيڪي سسٽم پيدا ڪري ٿو.

اسان جي سسٽم جا مسئلا

ڪجھ مسئلا آھن جن کي اسان ھڪ خاص سطح تائين حل ڪيو آھي، پر انھن کي وڌيڪ سوچي سمجھي حل جي ضرورت آھي. هاڻي مان هتي انهن جو ذڪر ڪرڻ چاهيان ٿو ڇاڪاڻ ته هر نقطو پنهنجي مضمون جي لائق آهي.

  • اسان کي اڃا تائين عملن ۽ پاليسين جي وضاحت ڪرڻ جي ضرورت آهي جيڪي اسان جي خودڪار ڊيٽا جي تجزيي، دريافت، ۽ ڳولا لاءِ بامعني ۽ لاڳاپيل ڊيٽا گڏ ڪرڻ جي حمايت ڪن ٿيون.
  • انساني تجزيي جي نتيجن کي شامل ڪرڻ خودڪار طريقي سان سسٽم کي ترتيب ڏيڻ جي عمل ۾ ان کي جديد ڊيٽا سان تازه ڪاري ڪرڻ لاء. اهو نه رڳو اسان جي ماڊل کي اپڊيٽ ڪري رهيو آهي، پر اسان جي عملن کي به تازه ڪاري ڪري رهيو آهي ۽ اسان جي ڊيٽا جي اسان جي سمجھ کي بهتر بڻائي ٿو.
  • IF-ELSE ۽ ML جي مقرري واري طريقي جي وچ ۾ توازن ڳولڻ. ڪنهن چيو، ”ايم ايل مايوسين لاءِ هڪ اوزار آهي. ان جو مطلب اهو آهي ته توهان ML استعمال ڪرڻ چاهيندا جڏهن توهان هاڻي نه سمجھندا آهيو ته توهان جي الگورتھم کي بهتر ۽ بهتر ڪيئن ڪجي. ٻئي طرف، تعميلاتي نقطه نظر کي اجازت نه ڏيندو آهي ته غير معموليات جو پتو لڳائڻ جيڪي متوقع نه هئا.
  • اسان کي اسان جي مفروضي يا ڊيٽا ۾ ميٽرڪس جي وچ ۾ رابطي کي جانچڻ لاء هڪ سادي طريقي جي ضرورت آهي.
  • سسٽم کي صحيح مثبت نتيجا جا ڪيترائي سطح هجڻ گهرجن. فراڊ جا ڪيس صرف انهن سڀني ڪيسن جو هڪ حصو آهن جن کي سسٽم لاءِ مثبت سمجهي سگهجي ٿو. مثال طور، تجزيه نگار سڀني مشڪوڪ ڪيسن جي تصديق ڪرڻ چاهيندا آهن، ۽ انهن مان صرف هڪ ننڍڙو حصو فراڊ آهن. سسٽم کي لازمي طور تي سڀني ڪيسن کي تجزيه نگارن کي پيش ڪرڻ گهرجي، قطع نظر ته اهو حقيقي دوکي يا صرف مشڪوڪ رويي آهي.
  • ڊيٽا پليٽ فارم کي تاريخي ڊيٽا سيٽ ٻيهر حاصل ڪرڻ جي قابل هجڻ گهرجي حساب سان ٺاهيل ۽ حساب ڪتاب تي.
  • آساني سان ۽ خودڪار طريقي سان سسٽم جي اجزاء مان ڪنهن کي گھٽ ۾ گھٽ ٽن مختلف ماحول ۾ ترتيب ڏيو: پيداوار، تجرباتي (بيٽا) ۽ ڊولپرز لاء.
  • ۽ آخري نه پر گهٽ ۾ گهٽ. اسان کي هڪ ڀرپور ڪارڪردگي جاچ واري پليٽ فارم ٺاهڻ جي ضرورت آهي جنهن تي اسان پنهنجي ماڊلز جو تجزيو ڪري سگهون ٿا. [4]

حوالن

  1. Augmented Intelligence ڇا آهي؟
  2. هڪ API-پهرين ڊيزائن جي طريقيڪار کي لاڳو ڪرڻ
  3. ڪافڪا "ايونٽ اسٽريمنگ ڊيٽابيس" ۾ تبديل ٿي رهيو آهي
  4. سمجھڻ AUC - ROC وکر

جو ذريعو: www.habr.com

تبصرو شامل ڪريو