Ħolqien ta' sistema awtomatika għall-ġlieda kontra l-intrużi fis-sit (frodi)

Għal dawn l-aħħar madwar sitt xhur ilni noħloq sistema għall-ġlieda kontra l-frodi (attività frodulenti, frodi, eċċ.) mingħajr ebda infrastruttura inizjali għal dan. L-ideat tal-lum li sibna u implimentajna fis-sistema tagħna jgħinuna niskopru u nanalizzaw ħafna attivitajiet frawdolenti. F'dan l-artikolu, nixtieq nitkellem dwar il-prinċipji li segwejna u x'għamilna biex niksbu l-istat attwali tas-sistema tagħna, mingħajr ma nidħlu fil-parti teknika.

Prinċipji tas-sistema tagħna

Meta tisma termini bħal "awtomatiku" u "frodi," x'aktarx tibda taħseb dwar it-tagħlim tal-magni, Apache Spark, Hadoop, Python, Airflow, u teknoloġiji oħra mill-ekosistema tal-Fondazzjoni Apache u l-qasam tax-Xjenza tad-Data. Naħseb li hemm aspett wieħed tal-użu ta 'dawn l-għodod li normalment ma jissemma': jeħtieġu ċerti prerekwiżiti fis-sistema tal-intrapriża tiegħek qabel ma tkun tista' tibda tużahom. Fil-qosor, għandek bżonn pjattaforma tad-dejta tal-intrapriża li tinkludi data lake u maħżen. Imma x'jiġri jekk ma jkollokx pjattaforma bħal din u għad trid tiżviluppa din il-prattika? Il-prinċipji li ġejjin, li naqsam hawn taħt, għenuna nilħqu punt fejn nistgħu niffukaw fuq it-titjib tal-ideat tagħna aktar milli nippruvaw insibu waħda li taħdem. Madankollu, dan mhuwiex plateau tal-proġett. Għad hemm ħafna affarijiet fil-pjan mil-lat teknoloġiku u tal-prodott.

Prinċipju 1: Valur tan-Negozju L-Ewwel

Aħna npoġġu l-"valur tan-negozju" fuq quddiem nett tal-isforzi kollha tagħna. B'mod ġenerali, kwalunkwe sistema ta 'analiżi awtomatika tappartjeni għall-grupp ta' sistemi kumplessi b'livell għoli ta 'awtomazzjoni u kumplessità teknika. Il-ħolqien ta 'soluzzjoni sħiħa se tieħu ħafna ħin jekk toħloqha mill-bidu. Iddeċidejna li npoġġu l-valur tan-negozju l-ewwel u l-kompletezza teknoloġika t-tieni. Fil-ħajja reali, dan ifisser li ma naċċettawx teknoloġiji avvanzati bħala dogma. Aħna nagħżlu t-teknoloġija li taħdem l-aħjar għalina bħalissa. Maż-żmien, jista 'jidher li ser ikollna nimplimentaw mill-ġdid xi moduli. Dan huwa l-kompromess li aċċettajna.

Prinċipju 2: Intelliġenza miżjuda

I bet ħafna nies li mhumiex profondament involuti fl-iżvilupp ta 'soluzzjonijiet ta' tagħlim tal-magni jistgħu jaħsbu li l-għan huwa li jissostitwixxu l-bnedmin. Fil-fatt, is-soluzzjonijiet tat-tagħlim tal-magni huma 'l bogħod milli jkunu perfetti u f'ċerti oqsma biss huwa possibbli li s-sostituzzjoni. Irrifjutajna din l-idea mill-bidu għal diversi raġunijiet: dejta żbilanċjata dwar attività frawdolenti u l-inabbiltà li nipprovdu lista komprensiva ta 'karatteristiċi għal mudelli ta' tagħlim bil-magni. B'kuntrast, għażilna l-għażla ta 'intelliġenza msaħħa. Dan huwa kunċett alternattiv ta 'intelliġenza artifiċjali li jiffoka fuq ir-rwol ta' appoġġ tal-AI, li jenfasizza l-fatt li t-teknoloġiji konjittivi huma maħsuba biex itejbu l-intelliġenza umana aktar milli jissostitwixxuha. [1]

Minħabba dan, l-iżvilupp ta 'soluzzjoni kompluta ta' tagħlim tal-magni mill-bidu jkun jeħtieġ sforz kbir, li jdewwem il-ħolqien ta 'valur għan-negozju tagħna. Iddeċidejna li nibnu sistema b'aspett ta' tagħlim tal-magni li qed jikber b'mod iterattiv taħt il-gwida tal-esperti tad-dominju tagħna. Il-parti ta' sfida tal-iżvilupp ta' sistema bħal din hija li għandha tipprovdi lill-analisti tagħna b'każijiet mhux biss f'termini ta' jekk hijiex attività frawdolenti jew le. B'mod ġenerali, kwalunkwe anomalija fl-imġieba tal-klijenti hija każ suspettuż li speċjalisti jeħtieġ li jinvestigaw u jirrispondu b'xi mod. Frazzjoni biss ta’ dawn il-każijiet irrappurtati tista’ verament tiġi kklassifikata bħala frodi.

Prinċipju 3: Pjattaforma Rich Analytics

L-aktar parti ta' sfida tas-sistema tagħna hija l-verifika tarf sa tarf tal-fluss tax-xogħol tas-sistema. Analisti u żviluppaturi għandhom faċilment jiksbu settijiet ta 'dejta storika bil-metriċi kollha użati għall-analiżi. Barra minn hekk, il-pjattaforma tad-dejta għandha tipprovdi mod faċli biex tikkumplimenta sett eżistenti ta’ metriċi b’oħrajn ġodda. Il-proċessi li noħolqu, u dawn mhumiex biss proċessi tas-softwer, għandhom jippermettulna li faċilment nikkalkulaw mill-ġdid il-perjodi preċedenti, inżidu metriċi ġodda u nbiddlu t-tbassir tad-dejta. Nistgħu niksbu dan billi nakkumulaw id-dejta kollha li tiġġenera s-sistema tal-produzzjoni tagħna. F'dan il-każ, id-data gradwalment issir inkonvenjent. Ikollna bżonn naħżnu ammont dejjem jikber ta’ data li ma nużawx u nipproteġuha. F'xenarju bħal dan, id-dejta ssir dejjem aktar irrilevanti maż-żmien, iżda xorta teħtieġ l-isforzi tagħna biex niġġestixxuha. Għalina, il-ġbir tad-dejta ma kienx jagħmel sens, għalhekk iddeċidejna li nieħdu approċċ differenti. Iddeċidejna li norganizzaw ħwienet tad-dejta f'ħin reali madwar l-entitajiet fil-mira li rridu nikklassifikaw, u naħżnu biss id-dejta li tippermettilna niċċekkjaw l-aktar perjodi riċenti u rilevanti. L-isfida għal dan l-isforz hija li s-sistema tagħna hija eteroġenja, b'ħafna ħwienet tad-dejta u moduli tas-softwer li jeħtieġu ppjanar bir-reqqa biex joperaw b'mod konsistenti.

Kunċetti tad-disinn tas-sistema tagħna

Għandna erba 'komponenti ewlenin fis-sistema tagħna: sistema ta' inġestjoni, komputazzjoni, analiżi BI u sistema ta 'traċċar. Huma jservu skopijiet speċifiċi u iżolati, u aħna nżommuhom iżolati billi nsegwu approċċi ta 'disinn speċifiċi.

Ħolqien ta' sistema awtomatika għall-ġlieda kontra l-intrużi fis-sit (frodi)

Disinn ibbażat fuq kuntratt

L-ewwelnett, qbilna li l-komponenti għandhom jiddependu biss fuq ċerti strutturi tad-dejta (kuntratti) li jgħaddu bejniethom. Dan jagħmilha faċli biex tintegra bejniethom u ma timponix kompożizzjoni speċifika (u ordni) ta 'komponenti. Pereżempju, f'xi każijiet dan jippermettilna nintegraw direttament is-sistema ta 'teħid mas-sistema ta' traċċar ta 'twissija. F'każ bħal dan, dan isir skont il-kuntratt ta' twissija miftiehem. Dan ifisser li ż-żewġ komponenti se jiġu integrati permezz ta' kuntratt li kwalunkwe komponent ieħor jista' juża. Mhux se nżidu kuntratt addizzjonali biex inżidu twissijiet mas-sistema ta’ traċċar mis-sistema ta’ input. Dan l-approċċ jeħtieġ l-użu ta 'numru minimu predeterminat ta' kuntratti u jissimplifika s-sistema u l-komunikazzjonijiet. Essenzjalment, nieħdu approċċ imsejjaħ "Contract First Design" u napplikawh għal kuntratti ta' streaming. [2]

Streaming kullimkien

L-iffrankar u l-ġestjoni tal-istat f'sistema inevitabbilment iwasslu għal kumplikazzjonijiet fl-implimentazzjoni tagħha. B'mod ġenerali, l-istat għandu jkun aċċessibbli minn kwalunkwe komponent, għandu jkun konsistenti u jipprovdi l-aktar valur attwali fil-komponenti kollha, u għandu jkun affidabbli bil-valuri korretti. Barra minn hekk, li jkollok sejħiet għal ħażna persistenti biex tkun irkuprata l-aħħar stat iżid in-numru ta 'operazzjonijiet I/O u l-kumplessità tal-algoritmi użati fil-pipelines tagħna f'ħin reali. Minħabba dan, iddeċidejna li nneħħu l-ħażna tal-istat, jekk possibbli, kompletament mis-sistema tagħna. Dan l-approċċ jeħtieġ li d-dejta kollha meħtieġa tiġi inkluża fil-blokk tad-dejta trażmessa (messaġġ). Pereżempju, jekk irridu nikkalkulaw in-numru totali ta 'xi osservazzjonijiet (in-numru ta' operazzjonijiet jew każijiet b'ċerti karatteristiċi), aħna nikkalkulawha fil-memorja u niġġeneraw fluss ta 'tali valuri. Moduli dipendenti se jużaw partizzjoni u batching biex jaqsmu l-fluss f'entitajiet u joperaw fuq l-aħħar valuri. Dan l-approċċ elimina l-ħtieġa li jkun hemm ħażna fuq disk persistenti għal data bħal din. Is-sistema tagħna tuża Kafka bħala sensar tal-messaġġi u tista 'tintuża bħala database ma' KSQL. [3] Imma l-użu tagħha kien jorbot sew is-soluzzjoni tagħna ma' Kafka, u ddeċidejna li ma nużawhiex. L-approċċ li għażilna jippermettilna nissostitwixxu lil Kafka b'sensar ta 'messaġġ ieħor mingħajr bidliet interni kbar fis-sistema.

Dan il-kunċett ma jfissirx li ma nużawx il-ħażna tad-disk u d-databases. Biex tittestja u tanalizza l-prestazzjoni tas-sistema, għandna bżonn naħżnu ammont sinifikanti ta 'dejta fuq disk li tirrappreżenta metriċi u stati varji. Il-punt importanti hawnhekk huwa li l-algoritmi f'ħin reali ma jiddependux fuq data bħal din. Fil-biċċa l-kbira tal-każijiet, nużaw id-dejta maħżuna għal analiżi offline, debugging u traċċar ta 'każijiet speċifiċi u riżultati li tipproduċi s-sistema.

Problemi tas-sistema tagħna

Hemm ċerti problemi li solvejna sa ċertu livell, iżda jeħtieġu soluzzjonijiet aktar maħsub. Issa nixtieq insemmihom hawn għax kull punt jiswa l-artiklu tiegħu.

  • Għad għandna bżonn niddefinixxu proċessi u politiki li jappoġġaw l-akkumulazzjoni ta 'dejta sinifikanti u rilevanti għall-analiżi, l-iskoperta u l-esplorazzjoni tad-dejta awtomatizzata tagħna.
  • L-inkorporazzjoni tar-riżultati tal-analiżi tal-bniedem fil-proċess tat-twaqqif awtomatikament tas-sistema biex taġġornaha bl-aħħar data. Dan mhux biss qed taġġorna l-mudell tagħna, iżda wkoll taġġorna l-proċessi tagħna u ntejbu l-fehim tagħna tad-dejta tagħna.
  • Is-sejba ta' bilanċ bejn l-approċċ deterministiku ta' IF-ELSE u ML. Xi ħadd qal, "ML huwa għodda għal dawk iddisprati." Dan ifisser li tkun trid tuża ML meta ma tibqax tifhem kif tottimizza u ttejjeb l-algoritmi tiegħek. Min-naħa l-oħra, l-approċċ deterministiku ma jippermettix l-iskoperta ta 'anomaliji li ma kinux antiċipati.
  • Għandna bżonn mod sempliċi biex nittestjaw l-ipoteżi jew il-korrelazzjonijiet tagħna bejn il-metriċi fid-dejta.
  • Is-sistema għandu jkollha diversi livelli ta 'riżultati pożittivi veri. Każijiet ta' frodi huma biss frazzjoni tal-każijiet kollha li jistgħu jitqiesu pożittivi għas-sistema. Pereżempju, l-analisti jridu jirċievu l-każijiet kollha suspettużi għall-verifika, u parti żgħira biss minnhom huma frodi. Is-sistema trid tippreżenta b'mod effiċjenti l-każijiet kollha lill-analisti, irrispettivament minn jekk hijiex frodi attwali jew sempliċement imġieba suspettuża.
  • Il-pjattaforma tad-dejta għandha tkun kapaċi tirkupra settijiet ta' dejta storika b'kalkoli ġġenerati u kkalkulati fuq il-fly.
  • Tiskjera faċilment u awtomatikament kwalunkwe komponenti tas-sistema f'mill-inqas tliet ambjenti differenti: produzzjoni, sperimentali (beta) u għall-iżviluppaturi.
  • U fl-aħħar iżda mhux l-inqas. Għandna bżonn nibnu pjattaforma rikka għall-ittestjar tal-prestazzjoni li fuqha nistgħu nanalizzaw il-mudelli tagħna. [4]

referenzi

  1. X'inhu Augmented Intelligence?
  2. L-implimentazzjoni ta' Metodoloġija ta' Disinn API-First
  3. Kafka qed jittrasforma f'"Database ta' Streaming ta' Avvenimenti"
  4. Nifhmu AUC - Kurva ROC

Sors: www.habr.com

Żid kumment