Creu system awtomatig i frwydro yn erbyn tresmaswyr ar y safle (twyll)

Am y tua chwe mis diwethaf rwyf wedi bod yn creu system i frwydro yn erbyn twyll (gweithgarwch twyllodrus, twyll, ac ati) heb unrhyw seilwaith cychwynnol ar gyfer hyn. Mae syniadau heddiw yr ydym wedi'u canfod a'u gweithredu yn ein system yn ein helpu i ganfod a dadansoddi llawer o weithgareddau twyllodrus. Yn yr erthygl hon, hoffwn siarad am yr egwyddorion a ddilynwyd gennym a'r hyn a wnaethom i gyflawni cyflwr presennol ein system, heb fynd i mewn i'r rhan dechnegol.

Egwyddorion ein system

Pan glywch dermau fel “awtomatig” a “thwyll,” mae'n debyg eich bod chi'n dechrau meddwl am ddysgu peiriannau, Apache Spark, Hadoop, Python, Airflow, a thechnolegau eraill o ecosystem Sefydliad Apache a'r maes Gwyddor Data. Rwy'n credu bod un agwedd ar ddefnyddio'r offer hyn nad yw fel arfer yn cael ei grybwyll: mae angen rhagofynion penodol arnynt yn eich system fenter cyn y gallwch chi ddechrau eu defnyddio. Yn fyr, mae angen llwyfan data menter arnoch sy'n cynnwys llyn data a warws. Ond beth os nad oes gennych chi lwyfan o'r fath a bod angen i chi ddatblygu'r arfer hwn o hyd? Mae’r egwyddorion canlynol yr wyf yn eu rhannu isod wedi ein helpu i gyrraedd pwynt lle gallwn ganolbwyntio ar wella ein syniadau yn hytrach na dod o hyd i un sy’n gweithio. Fodd bynnag, nid yw hwn yn wastadedd prosiect. Mae llawer o bethau yn y cynllun o hyd o safbwynt technolegol a chynnyrch.

Egwyddor 1: Gwerth Busnes yn Gyntaf

Rydym yn rhoi “gwerth busnes” ar flaen ein holl ymdrechion. Yn gyffredinol, mae unrhyw system ddadansoddi awtomatig yn perthyn i'r grŵp o systemau cymhleth sydd â lefel uchel o awtomeiddio a chymhlethdod technegol. Bydd creu datrysiad cyflawn yn cymryd llawer o amser os byddwch chi'n ei greu o'r dechrau. Penderfynasom roi gwerth busnes yn gyntaf a chyflawnrwydd technolegol yn ail. Mewn bywyd go iawn, mae hyn yn golygu nad ydym yn derbyn technoleg uwch fel dogma. Rydyn ni'n dewis y dechnoleg sy'n gweithio orau i ni ar hyn o bryd. Dros amser, gall ymddangos y bydd yn rhaid i ni ail-weithredu rhai modiwlau. Dyma'r cyfaddawd a dderbyniwyd gennym.

Egwyddor 2: Deallusrwydd estynedig

Rwy'n siŵr y gallai'r rhan fwyaf o bobl nad ydynt yn ymwneud yn ddwfn â datblygu datrysiadau dysgu peiriannau feddwl mai disodli bodau dynol yw'r nod. Mewn gwirionedd, mae datrysiadau dysgu peiriannau ymhell o fod yn berffaith a dim ond mewn rhai meysydd y mae'n bosibl eu disodli. Gwrthodasom y syniad hwn o'r dechrau am sawl rheswm: data anghytbwys ar weithgarwch twyllodrus a'r anallu i ddarparu rhestr gynhwysfawr o nodweddion ar gyfer modelau dysgu peiriannau. Mewn cyferbyniad, fe wnaethom ddewis yr opsiwn deallusrwydd gwell. Mae hwn yn gysyniad amgen o ddeallusrwydd artiffisial sy'n canolbwyntio ar rôl gefnogol AI, gan bwysleisio'r ffaith mai bwriad technolegau gwybyddol yw gwella deallusrwydd dynol yn hytrach na'i ddisodli. [1]

O ystyried hyn, byddai datblygu datrysiad dysgu peiriant cyflawn o'r cychwyn yn gofyn am ymdrech enfawr, a fyddai'n gohirio creu gwerth i'n busnes. Fe benderfynon ni adeiladu system gydag agwedd dysgu peirianyddol sy'n tyfu'n ailadroddol o dan arweiniad ein harbenigwyr parth. Y rhan heriol o ddatblygu system o’r fath yw bod yn rhaid iddi ddarparu achosion i’n dadansoddwyr nid yn unig o ran a yw’n weithgarwch twyllodrus ai peidio. Yn gyffredinol, mae unrhyw anghysondeb yn ymddygiad cwsmeriaid yn achos amheus y mae angen i arbenigwyr ymchwilio iddo ac ymateb rywsut. Dim ond cyfran fach o'r achosion hyn yr adroddwyd amdanynt y gellir eu dosbarthu fel twyll.

Egwyddor 3: Llwyfan Dadansoddeg Cyfoethog

Y rhan fwyaf heriol o'n system yw dilysu llif gwaith y system o'r dechrau i'r diwedd. Dylai dadansoddwyr a datblygwyr gael setiau data hanesyddol yn hawdd gyda'r holl fetrigau a ddefnyddir ar gyfer dadansoddi. Yn ogystal, dylai'r llwyfan data ddarparu ffordd hawdd o ategu set bresennol o fetrigau â rhai newydd. Dylai’r prosesau rydym yn eu creu, ac nid prosesau meddalwedd yn unig yw’r rhain, ein galluogi i ailgyfrifo cyfnodau blaenorol yn hawdd, ychwanegu metrigau newydd a newid y rhagolwg data. Gallem gyflawni hyn drwy gronni’r holl ddata y mae ein system gynhyrchu yn ei gynhyrchu. Yn yr achos hwn, byddai'r data'n dod yn niwsans yn raddol. Byddai angen i ni storio swm cynyddol o ddata nad ydym yn ei ddefnyddio a'i ddiogelu. Mewn sefyllfa o'r fath, bydd data'n dod yn fwyfwy amherthnasol dros amser, ond mae angen ein hymdrechion i'w reoli o hyd. I ni, nid oedd celcio data yn gwneud synnwyr, felly fe benderfynon ni gymryd agwedd wahanol. Fe wnaethom benderfynu trefnu storfeydd data amser real o amgylch yr endidau targed yr ydym am eu dosbarthu, a storio dim ond y data sy'n ein galluogi i wirio'r cyfnodau mwyaf diweddar a pherthnasol. Yr her i'r ymdrech hon yw bod ein system yn heterogenaidd, gyda storfeydd data lluosog a modiwlau meddalwedd sy'n gofyn am gynllunio gofalus i weithredu mewn modd cyson.

Cysyniadau dylunio ein system

Mae gennym bedair prif gydran yn ein system: system amlyncu, cyfrifiannol, dadansoddi BI a system olrhain. Maent yn gwasanaethu dibenion penodol, ynysig, ac rydym yn eu cadw'n ynysig trwy ddilyn dulliau dylunio penodol.

Creu system awtomatig i frwydro yn erbyn tresmaswyr ar y safle (twyll)

Dyluniad ar sail contract

Yn gyntaf oll, cytunwyd y dylai cydrannau ddibynnu ar strwythurau data penodol (contractau) sy'n cael eu trosglwyddo rhyngddynt yn unig. Mae hyn yn ei gwneud hi'n hawdd integreiddio rhyngddynt a pheidio â gosod cyfansoddiad (a threfn) penodol o gydrannau. Er enghraifft, mewn rhai achosion mae hyn yn ein galluogi i integreiddio'r system dderbyn yn uniongyrchol â'r system olrhain rhybuddion. Mewn achos o'r fath, gwneir hyn yn unol â'r contract rhybuddio y cytunwyd arno. Mae hyn yn golygu y bydd y ddwy gydran yn cael eu hintegreiddio gan ddefnyddio contract y gall unrhyw gydran arall ei ddefnyddio. Ni fyddwn yn ychwanegu contract ychwanegol i ychwanegu rhybuddion at y system olrhain o'r system fewnbwn. Mae'r dull hwn yn gofyn am ddefnyddio isafswm o gontractau a bennwyd ymlaen llaw ac yn symleiddio'r system a'r cyfathrebu. Yn y bôn, rydym yn mabwysiadu dull o'r enw "Contract First Design" ac yn ei gymhwyso i gontractau ffrydio. [2]

Yn ffrydio ym mhobman

Bydd arbed a rheoli cyflwr mewn system yn anochel yn arwain at gymhlethdodau wrth ei gweithredu. Yn gyffredinol, dylai cyflwr fod yn hygyrch o unrhyw gydran, dylai fod yn gyson a darparu'r gwerth mwyaf cyfredol ar draws yr holl gydrannau, a dylai fod yn ddibynadwy gyda'r gwerthoedd cywir. Yn ogystal, bydd cael galwadau i storfa barhaus i adfer y cyflwr diweddaraf yn cynyddu nifer y gweithrediadau I/O a chymhlethdod yr algorithmau a ddefnyddir yn ein piblinellau amser real. Oherwydd hyn, penderfynasom gael gwared ar storfa'r wladwriaeth, os yn bosibl, yn gyfan gwbl o'n system. Mae'r dull hwn yn mynnu bod yr holl ddata angenrheidiol yn cael ei gynnwys yn y bloc data a drosglwyddir (neges). Er enghraifft, os oes angen i ni gyfrifo cyfanswm nifer rhai arsylwadau (nifer y gweithrediadau neu achosion â nodweddion penodol), rydym yn ei gyfrifo yn y cof ac yn cynhyrchu llif o werthoedd o'r fath. Bydd modiwlau dibynnol yn defnyddio rhaniad a sypynnu i rannu'r ffrwd yn endidau a gweithredu ar y gwerthoedd diweddaraf. Roedd y dull hwn yn dileu'r angen i gael storfa ddisg barhaus ar gyfer data o'r fath. Mae ein system yn defnyddio Kafka fel brocer negeseuon a gellir ei ddefnyddio fel cronfa ddata gyda KSQL. [3] Ond byddai ei ddefnyddio wedi clymu ein datrysiad yn drwm i Kafka, a phenderfynon ni beidio â'i ddefnyddio. Mae'r dull a ddewiswyd gennym yn ein galluogi i ddisodli Kafka gyda brocer negeseuon arall heb newidiadau mewnol mawr i'r system.

Nid yw'r cysyniad hwn yn golygu nad ydym yn defnyddio storfa ddisg a chronfeydd data. Er mwyn profi a dadansoddi perfformiad system, mae angen inni storio swm sylweddol o ddata ar ddisg sy'n cynrychioli gwahanol fetrigau a chyflyrau. Y pwynt pwysig yma yw nad yw algorithmau amser real yn dibynnu ar ddata o'r fath. Yn y rhan fwyaf o achosion, rydym yn defnyddio'r data sydd wedi'i storio ar gyfer dadansoddi all-lein, dadfygio ac olrhain achosion a chanlyniadau penodol y mae'r system yn eu cynhyrchu.

Problemau ein system

Mae rhai problemau yr ydym wedi’u datrys i lefel benodol, ond mae angen atebion mwy meddylgar arnynt. Nawr hoffwn eu crybwyll yma oherwydd mae pob pwynt yn werth ei erthygl ei hun.

  • Mae angen i ni ddiffinio prosesau a pholisïau o hyd sy'n cefnogi casglu data ystyrlon a pherthnasol ar gyfer ein gwaith dadansoddi, darganfod ac archwilio data awtomataidd.
  • Ymgorffori canlyniadau dadansoddi dynol yn y broses o sefydlu'r system yn awtomatig i'w diweddaru gyda'r data diweddaraf. Mae hyn nid yn unig yn diweddaru ein model, ond hefyd yn diweddaru ein prosesau a gwella ein dealltwriaeth o'n data.
  • Dod o hyd i gydbwysedd rhwng dull penderfynol IF-ELSE ac ML. Dywedodd rhywun: "Mae ML yn arf i'r anobeithiol." Mae hyn yn golygu y byddwch am ddefnyddio ML pan nad ydych bellach yn deall sut i optimeiddio a gwella'ch algorithmau. Ar y llaw arall, nid yw'r dull penderfynol yn caniatáu canfod anghysondebau nas rhagwelwyd.
  • Mae angen ffordd syml arnom i brofi ein damcaniaethau neu ein cydberthnasau rhwng metrigau yn y data.
  • Rhaid i'r system gael nifer o lefelau o wir ganlyniadau cadarnhaol. Dim ond ffracsiwn o'r holl achosion y gellir eu hystyried yn rhai cadarnhaol ar gyfer y system yw achosion o dwyll. Er enghraifft, mae dadansoddwyr am dderbyn pob achos amheus i'w ddilysu, a dim ond rhan fach ohonynt sy'n dwyll. Rhaid i'r system gyflwyno pob achos yn effeithlon i ddadansoddwyr, ni waeth a yw'n dwyll gwirioneddol neu'n ymddygiad amheus yn unig.
  • Dylai'r llwyfan data allu adalw setiau data hanesyddol gyda chyfrifiadau wedi'u cynhyrchu a'u cyfrifo ar y hedfan.
  • Defnyddio unrhyw un o gydrannau'r system yn hawdd ac yn awtomatig mewn o leiaf dri amgylchedd gwahanol: cynhyrchu, arbrofol (beta) ac ar gyfer datblygwyr.
  • Ac yn olaf ond nid lleiaf. Mae angen i ni adeiladu llwyfan profi perfformiad cyfoethog y gallwn ddadansoddi ein modelau arno. [4]

cyfeiriadau

  1. Beth yw Cudd-wybodaeth Estynedig?
  2. Gweithredu Methodoleg Dylunio-Cyntaf API
  3. Kafka yn Trawsnewid yn “Gronfa Ddata Ffrydio Digwyddiadau”
  4. Deall AUC - ROC Cromlin

Ffynhonnell: hab.com

Ychwanegu sylw