9 benaderings om anomalieë op te spoor

В vorige artikel ons het gepraat oor tydreeksvoorspelling. 'n Logiese voortsetting sou 'n artikel wees oor die identifisering van anomalieë.

Aansoek

Anomalie opsporing word gebruik in gebiede soos:

1) Voorspelling van toerusting onklaarrakings

Dus, in 2010 is Iranse sentrifuges deur die Stuxnet-virus aangeval, wat die toerusting op nie-optimale werking gestel het en van die toerusting gedeaktiveer het weens versnelde slytasie.

As anomalie-opsporingsalgoritmes op die toerusting gebruik is, kon die mislukkingsituasie vermy gewees het.

9 benaderings om anomalieë op te spoor

Die soeke na anomalieë in die werking van toerusting word nie net in die kernindustrie gebruik nie, maar ook in metallurgie en die bedryf van vliegtuigturbines. En in ander gebiede waar die gebruik van voorspellende diagnostiek goedkoper is as moontlike verliese as gevolg van 'n onvoorspelbare ineenstorting.

2) Bedrogvoorspelling

As geld van die kaart wat jy in Podolsk in Albanië gebruik, onttrek word, moet die transaksies dalk verder nagegaan word.

3) Identifisering van abnormale verbruikerspatrone

As sommige kliënte abnormale gedrag toon, kan daar 'n probleem wees waarvan jy nie bewus is nie.

4) Identifikasie van abnormale aanvraag en vrag

As verkope in 'n FMCG-winkel onder die vertrouensinterval van die voorspelling gedaal het, is dit die moeite werd om die rede vir wat gebeur te vind.

Benaderings om anomalieë te identifiseer

1) Ondersteun vektormasjien met een klas eenklas SVM

Geskik wanneer die data in die opleidingstel 'n normale verspreiding volg, maar die toetsstel onreëlmatighede bevat.

Die eenklas ondersteuningsvektormasjien konstrueer 'n nie-lineêre oppervlak rondom die oorsprong. Dit is moontlik om 'n afsnygrens te stel waarvoor data as onreëlmatig beskou word.

Gebaseer op die ervaring van ons DATA4-span, is One-Class SVM die algoritme wat die meeste gebruik word om die probleem op te los om anomalieë op te spoor.

9 benaderings om anomalieë op te spoor

2) Isoleer bos metode

Met die "willekeurige" metode om bome te bou, sal emissies in die vroeë stadiums (op 'n vlak diepte van die boom) die blare binnedring, m.a.w. emissies is makliker om te "isoleer". Isolasie van afwykende waardes vind plaas in die eerste iterasies van die algoritme.

9 benaderings om anomalieë op te spoor

3) Elliptiese koevert en statistiese metodes

Word gebruik wanneer die data normaal versprei is. Hoe nader die meting aan die stert van die mengsel van verdelings is, hoe meer abnormal is die waarde.

Ander statistiese metodes kan ook by hierdie klas ingesluit word.

9 benaderings om anomalieë op te spoor

9 benaderings om anomalieë op te spoor
Beeld van dyakonov.org

4) Metrieke metodes

Metodes sluit in algoritmes soos k-naaste bure, k-naaste buurman, ABOD (hoekgebaseerde uitskieter-opsporing) of LOF (plaaslike uitskieterfaktor).

Geskik as die afstand tussen die waardes in die kenmerke ekwivalent of genormaliseer is (om nie 'n boa-konstriktor by papegaaie te meet nie).

Die k-naaste bure-algoritme neem aan dat normale waardes in 'n sekere gebied van multidimensionele ruimte geleë is, en die afstand na anomalieë sal groter wees as na die skeidingshipervlak.

9 benaderings om anomalieë op te spoor

5) Groeperingsmetodes

Die essensie van klustermetodes is dat as 'n waarde meer as 'n sekere hoeveelheid weg van die klustersentrums is, die waarde as onreëlmatig beskou kan word.

Die belangrikste ding is om 'n algoritme te gebruik wat die data korrek groepeer, wat afhang van die spesifieke taak.

9 benaderings om anomalieë op te spoor

6) Hoofkomponent metode

Geskik waar die rigtings van die grootste verandering in verspreiding uitgelig word.

7) Algoritmes gebaseer op tydreeksvoorspelling

Die idee is dat as 'n waarde buite die voorspellingsvertrouensinterval val, die waarde as onreëlmatig beskou word. Om 'n tydreeks te voorspel, word algoritmes soos triple smoothing, S(ARIMA), boosting, ens. gebruik.

Tydreeksvoorspellingsalgoritmes is in die vorige artikel bespreek.

9 benaderings om anomalieë op te spoor

8) Leer onder toesig (regressie, klassifikasie)

As die data dit toelaat, gebruik ons ​​algoritmes wat wissel van lineêre regressie tot herhalende netwerke. Kom ons meet die verskil tussen die voorspelling en die werklike waarde, en maak 'n gevolgtrekking tot watter mate die data van die norm afwyk. Dit is belangrik dat die algoritme oor voldoende veralgemeningsvermoë beskik en dat die opleidingstel nie anomale waardes bevat nie.

9) Modeltoetse

Kom ons benader die probleem van soek na anomalieë as 'n probleem van soek na aanbevelings. Kom ons ontbind ons kenmerkmatriks met behulp van SVD- of faktoriseringsmasjiene, en neem die waardes in die nuwe matriks wat aansienlik verskil van die oorspronklike as onreëlmatig.

9 benaderings om anomalieë op te spoor

Beeld van dyakonov.org

Gevolgtrekking

In hierdie artikel het ons die belangrikste benaderings tot anomalie-opsporing hersien.

Om anomalieë te vind kan op baie maniere 'n kuns genoem word. Daar is geen ideale algoritme of benadering waarvan die gebruik alle probleme oplos nie. Meer dikwels word 'n stel metodes gebruik om 'n spesifieke geval op te los. Anomalie-opsporing word uitgevoer met behulp van eenklas ondersteuningsvektormasjiene, isolerende woude, metrieke en groeperingsmetodes, sowel as die gebruik van hoofkomponente en tydreeksvoorspelling.

As jy ander metodes ken, skryf daaroor in die kommentaar by die artikel.

Bron: will.com

Voeg 'n opmerking