په سایټ کې د نفوذ کونکو سره د مبارزې لپاره د اتوماتیک سیسټم رامینځته کول (درغلي)

د تیرو شاوخوا شپږو میاشتو راهیسې، ما د دې لپاره کوم ابتدايي زیربنا پرته د درغلیو (درغلي فعالیت، درغلۍ، او نور) سره د مبارزې لپاره یو سیسټم رامینځته کړی. د نن ورځې نظرونه چې موږ په خپل سیسټم کې موندلي او پلي شوي موږ سره مرسته کوي د ډیری درغلیو فعالیتونو کشف او تحلیل کړو. په دې مقاله کې، زه غواړم د هغه اصولو په اړه وغږیږم چې موږ یې تعقیب کړل او موږ د خپل سیسټم اوسني حالت ته د رسیدو لپاره څه وکړل، پرته له دې چې تخنیکي برخې ته پام وکړو.

زموږ د سیسټم اصول

کله چې تاسو د "اتوماتیک" او "درغلیو" په څیر اصطلاحات واورئ تاسو ډیری احتمال د ماشین زده کړې، اپاچي سپارک، هډوپ، پایتون، ایر فلو، او نورو ټیکنالوژیو په اړه فکر کوئ د اپاچي فاونډیشن اکوسیستم او ډیټا ساینس ساحه کې. زه فکر کوم چې د دې وسیلو کارولو یو اړخ شتون لري چې معمولا نه ویل کیږي: دوی ځینې شرایط ته اړتیا لري مخکې لدې چې تاسو یې وکاروئ ستاسو د سوداګرۍ سیسټم کې ځای په ځای شي. په لنډه توګه، تاسو د تصدۍ ډیټا پلیټ فارم ته اړتیا لرئ چې د ډیټا لیک او ذخیره پکې شامل وي. مګر څه که تاسو داسې پلیټ فارم نلرئ او بیا هم دې تمرین ته وده ورکولو ته اړتیا لرئ؟ لاندې اصول، چې زه یې لاندې تشریح کوم، موږ سره مرسته کړې چې هغه ځای ته ورسیږو چیرې چې موږ کولی شو د کار موندلو پرځای د خپلو نظرونو په ښه کولو تمرکز وکړو. په هرصورت، دا د پروژې "پلیټ" نه دی. په پلان کې د ټیکنالوژیکي او محصول له نظره ډیر نور شیان شتون لري.

لومړی اصل: د سوداګرۍ ارزښت لومړی

موږ د خپلو ټولو هڅو په سر کې "سوداګریز ارزښت" ځای په ځای کوو. په عموم کې، هر ډول اتوماتیک تحلیل سیسټم د پیچلو سیسټمونو ګروپ پورې اړه لري چې د لوړې کچې اتوماتیک او تخنیکي پیچلتیا سره. د بشپړ حل رامینځته کول به ډیر وخت ونیسي که تاسو دا له سکریچ څخه جوړ کړئ. موږ پریکړه وکړه چې د سوداګرۍ ارزښت لومړی او ټیکنالوژیکي بلوغت دویم ځای په ځای کړو. په ریښتیني ژوند کې، دا پدې مانا ده چې موږ پرمختللې ټیکنالوژي د عقیدې په توګه نه منو. موږ هغه ټیکنالوژي غوره کوو چې دا مهال زموږ لپاره غوره کار کوي. د وخت په تیریدو سره، داسې ښکاري چې موږ باید ځینې ماډلونه بیا پلي کړو. دا هغه جوړجاړی دی چې موږ یې منل.

2 اصل: د استخباراتو وده

زه شرط لرم چې ډیری خلک چې د ماشین زده کړې حلونو رامینځته کولو کې ژور ښکیل ندي شاید فکر وکړي چې د انسان بدیل هدف دی. په حقیقت کې، د ماشین زده کړې حلونه له کامل څخه لرې دي او یوازې په ځینو برخو کې بدیل ممکن دی. موږ دا مفکوره د پیل څخه د ډیری دلیلونو لپاره پریښوده: د جعلي فعالیت په اړه غیر متوازن معلومات او د ماشین زده کړې ماډلونو لپاره د ځانګړتیاوو بشپړ لیست چمتو کولو کې پاتې راتلل. په مقابل کې، موږ د لوړ شوي استخباراتو اختیار غوره کړ. دا د مصنوعي استخباراتو یو بدیل مفهوم دی چې د AI په ملاتړي رول تمرکز کوي، په دې حقیقت ټینګار کوي چې ادراکي ټیکنالوژي د انسان استخباراتو ته وده ورکولو لپاره ډیزاین شوي، نه دا بدلوي. [1]

د دې په پام کې نیولو سره، د پیل څخه د ماشین زده کړې بشپړ حل رامینځته کول به ډیرې هڅې ته اړتیا ولري چې زموږ د سوداګرۍ لپاره د ارزښت رامینځته کول ځنډوي. موږ پریکړه وکړه چې زموږ د ډومین متخصصینو تر لارښوونې لاندې د ماشین زده کړې د تکراري ودې اړخ سره یو سیسټم جوړ کړو. د دې ډول سیسټم رامینځته کولو پیچلې برخه دا ده چې دا باید زموږ تحلیل کونکو ته د قضیې مطالعې چمتو کړي نه یوازې پدې شرایطو کې چې ایا دا درغلي فعالیت دی که نه. په عموم کې، د پیرودونکو په چلند کې هر ډول بې نظمۍ یوه شکمنه قضیه ده چې متخصصین باید تحقیق وکړي او یو څه ځواب ورکړي. د دې ثبت شویو قضیو څخه یوازې یو څو واقعیا د درغلیو په توګه طبقه بندي کیدی شي.

درېیم اصل: د بډایه بصیرت پلیټ فارم

زموږ د سیسټم ترټولو ستونزمن برخه د سیسټم د کار جریان پای څخه تر پایه تایید کول دي. شنونکي او پراختیا کونکي باید په اسانۍ سره تاریخي ډیټاسیټونه د ټولو میټریکونو سره ترلاسه کړي چې د تحلیل لپاره کارول شوي. سربیره پردې، د معلوماتو پلیټ فارم باید د نوي سره د شاخصونو موجوده سیټ بشپړولو لپاره اسانه لار چمتو کړي. هغه پروسې چې موږ یې رامینځته کوو، او دا یوازې د سافټویر پروسې نه دي، باید دا اسانه کړي چې د تیرو دورو بیا حساب کول، نوي میټریکونه اضافه کړئ او د معلوماتو وړاندوینه بدله کړئ. موږ کولی شو دا د ټولو معلوماتو په راټولولو سره ترلاسه کړو چې زموږ د تولید سیسټم رامینځته کوي. په داسې حالت کې، ډاټا به په تدریجي ډول یو خنډ شي. موږ به د ډیټا مخ په زیاتیدونکي مقدار ذخیره کولو ته اړتیا ولرو چې موږ یې نه کاروو او ساتنه یې کوو. په داسې سناریو کې، معلومات به د وخت په تیریدو سره ډیر او غیر متناسب شي، مګر بیا هم د دې اداره کولو لپاره زموږ هڅو ته اړتیا لري. زموږ لپاره، د معلوماتو ذخیره کول معنی نلري، او موږ پریکړه وکړه چې یو بل طریقه وکاروو. موږ پریکړه وکړه چې د ریښتیني وخت ډیټا ګدامونه د هدف لرونکي ادارو په شاوخوا کې تنظیم کړو چې موږ یې طبقه بندي کول غواړو ، او یوازې هغه ډیټا ذخیره کوو چې موږ ته اجازه راکوي خورا وروستي او تازه دورې چیک کړو. د دې هڅې سره ننګونه دا ده چې زموږ سیسټم د ډیری ډیټا پلورنځیو او سافټویر ماډلونو سره متفاوت دی چې په منظم ډول کار کولو لپاره محتاط پلان جوړولو ته اړتیا لري.

زموږ د سیسټم ډیزاین مفکورې

موږ په خپل سیسټم کې څلور مهمې برخې لرو: د انزیم سیسټم، یو کمپیوټري سیسټم، د BI تحلیل، او د تعقیب سیسټم. دوی ځانګړي جلا اهدافو ته خدمت کوي، او موږ د ځانګړو پرمختیایي تګلارو په تعقیب دوی جلا ساتو.

په سایټ کې د نفوذ کونکو سره د مبارزې لپاره د اتوماتیک سیسټم رامینځته کول (درغلي)

د قرارداد پر بنسټ ډیزاین

تر ټولو لومړی، موږ موافقه وکړه چې اجزاوې باید یوازې د ځانګړو ډیټا جوړښتونو (قراردادونو) باندې تکیه وکړي چې د دوی ترمنځ تیریږي. دا د دوی تر مینځ ادغام کول اسانه کوي او د اجزاو ځانګړي ترکیب (او ترتیب) نه پلي کوي. د مثال په توګه، په ځینو مواردو کې دا موږ ته اجازه راکوي چې مستقیم د ترلاسه کولو سیسټم د خبرتیا تعقیب سیسټم سره یوځای کړو. په داسې حالت کې، دا به د اعلان شوي خبرتیا قرارداد سره سم ترسره شي. دا پدې مانا ده چې دواړه برخې به د تړون په کارولو سره مدغم شي چې کوم بل برخه یې کارولی شي. موږ به د ان پټ سیسټم څخه د تعقیب سیسټم ته خبرتیاو اضافه کولو لپاره اضافي قرارداد اضافه نه کړو. دا کړنلاره د لږ تر لږه قراردادونو د ټاکل شوي شمیر کارولو ته اړتیا لري او سیسټم او مخابراتو ساده کوي. اساسا ، موږ د "قرارداد لومړی ډیزاین" په نوم یوه تګلاره اخلو او د سټرینګ قراردادونو کې یې پلي کوو. [2]

په هرځای کې جریان کول

په سیسټم کې د دولت خوندي کول او اداره کول به حتمي د هغې په پلي کولو کې پیچلتیاوې رامینځته کړي. په عموم کې، دولت باید د هرې برخې څخه د لاسرسي وړ وي، دا باید ثابت وي او په ټولو برخو کې تر ټولو تازه ارزښت چمتو کړي، او دا باید د سمو ارزښتونو سره د اعتبار وړ وي. سربیره پردې ، د وروستي حالت ترلاسه کولو لپاره دوامداره ذخیره کولو ته زنګ وهل به د I/O اندازه او زموږ د ریښتیني وخت پایپ لاینونو کې کارول شوي الګوریتم پیچلتیا زیاته کړي. د دې له امله، موږ پریکړه وکړه چې دولتي ذخیره، که امکان ولري، په بشپړه توګه زموږ له سیسټم څخه لرې کړو. دا طریقه اړتیا لري چې ټول اړین معلومات د لیږد شوي ډیټا واحد (پیغام) کې شامل شي. د مثال په توګه، که موږ اړتیا ولرو چې د ځینې مشاهداتو ټولیز شمیر (د عملیاتو شمیر یا قضیې د ځانګړو ځانګړتیاو سره) محاسبه کړو، موږ دا په حافظه کې محاسبه کوو او د ورته ارزښتونو جریان رامینځته کوو. انحصاري ماډلونه به د ادارو لخوا جریان ویشلو او په وروستي ارزښتونو کار کولو لپاره د تقسیم کولو او بسته کولو څخه کار واخلي. دې طریقې د دې ډول معلوماتو لپاره د دوامداره ډیسک ذخیره کولو اړتیا له مینځه وړې. زموږ سیسټم کافکا د پیغام بروکر په توګه کاروي او دا د KSQL سره د ډیټابیس په توګه کارول کیدی شي. [3] مګر د دې کارول به زموږ حل په کلکه له کافکا سره وتړي، او موږ پریکړه وکړه چې دا ونه کاروو. هغه طریقه چې موږ غوره کړې موږ ته اجازه راکوي چې کافکا په سیسټم کې د لوی داخلي بدلونونو پرته د بل پیغام بروکر سره بدل کړو.

دا مفهوم پدې معنی ندي چې موږ د ډیسک ذخیره او ډیټابیس نه کاروو. د سیسټم فعالیت چک کولو او تحلیل کولو لپاره، موږ اړتیا لرو چې په ډیسک کې د پام وړ ډیټا ذخیره کړو، کوم چې د مختلفو شاخصونو او حالتونو استازیتوب کوي. دلته مهم ټکی دا دی چې د ریښتیني وخت الګوریتم په داسې معلوماتو پورې اړه نلري. په ډیرو مواردو کې، موږ خوندي شوي ډاټا د آفلاین تحلیل، ډیبګ کولو، او د ځانګړو قضیو او پایلو تعقیب لپاره کاروو چې سیسټم یې تولیدوي.

زموږ په سیسټم کې ستونزې

ځینې ​​ستونزې شتون لري چې موږ یې تر یوې اندازې حل کړې، مګر دوی ډیر فکري حل ته اړتیا لري. د اوس لپاره، زه غواړم دوی دلته ذکر کړم، ځکه چې هر توکي د خپلې مقالې ارزښت لري.

  • موږ لاهم اړتیا لرو هغه پروسې او پالیسۍ تعریف کړو چې زموږ د اتوماتیک تحلیل ، کشف او سپړنې لپاره معنی لرونکي او اړونده ډیټا رامینځته کولو کې مرسته کوي.
  • د یو شخص لخوا د تحلیل پایلو معرفي کول د سیسټم په اتوماتيک ډول تنظیم کولو پروسه کې د وروستي معلوماتو سره تازه کولو لپاره. دا نه یوازې زموږ ماډل ته تازه کول دي، بلکې زموږ پروسو او زموږ د معلوماتو ښه پوهه هم تازه ده.
  • د IF-ELSE او ML د ټاکونکي چلند تر مینځ د توازن موندل. یو چا وویل: "ML د نا امیدۍ لپاره وسیله ده." دا پدې مانا ده چې تاسو غواړئ ML وکاروئ کله چې تاسو نور نه پوهیږئ چې څنګه خپل الګوریتم اصلاح او ښه کړئ. له بلې خوا، ټاکونکې کړنلاره اجازه نه ورکوي چې د بې نظمیو کشف کړي چې وړاندوینه نه وه.
  • موږ په ډیټا کې د میټریکونو ترمینځ زموږ فرضیې یا ارتباط ازموینې لپاره اسانه لارې ته اړتیا لرو.
  • سیسټم باید د ریښتینې مثبتو پایلو ډیری کچې ولري. د درغلیو قضیې یوازې د ټولو قضیو یوه برخه ده چې د سیسټم لپاره مثبت ګڼل کیدی شي. د مثال په توګه، شنونکي غواړي د بیاکتنې لپاره ټولې مشکوکې قضیې ترالسه کړي، او یوازې یوه کوچنۍ برخه یې درغلۍ دي. سیسټم باید په مؤثره توګه شنونکي د ټولو قضیو سره چمتو کړي، که دا ریښتینې درغلۍ وي یا یوازې شکمن چلند وي.
  • د ډیټا پلیټ فارم باید وکوالی شي تاریخي ډیټاسیټونه ترلاسه کړي محاسبې سره چې په الوتنه کې رامینځته شوي او حساب شوي.
  • لږترلږه په دریو مختلف چاپیریالونو کې د سیسټم هرې برخې ساده او اتوماتیک ګمارل: تولید ، تجربه (بیټا) ، او د پراختیا کونکو لپاره.
  • او وروستی مګر لږ تر لږه. موږ اړتیا لرو چې د بینچمارک کولو پراخه پلیټ فارم رامینځته کړو چې په هغې کې موږ کولی شو خپل ماډلونه تحلیل کړو. [۴]

مرجع

  1. لوړ شوی استخبارات څه شی دی؟
  2. د API-لومړي ډیزاین میتودولوژي پلي کول
  3. کافکا د "ایونټ سټریمینګ ډیټابیس" بدلول
  4. د AUC - ROC منحنی پوهیدل

سرچینه: www.habr.com

Add a comment