9 tilnærminger for å oppdage anomalier

В forrige artikkel vi snakket om tidsserieprognoser. En logisk fortsettelse ville være en artikkel om å identifisere anomalier.

Søknad

Anomalideteksjon brukes i områder som:

1) Prediksjon av utstyrshavari

I 2010 ble således iranske sentrifuger angrepet av Stuxnet-viruset, som satte utstyret til ikke-optimal drift og deaktiverte noe av utstyret på grunn av akselerert slitasje.

Hvis anomalideteksjonsalgoritmer hadde blitt brukt på utstyret, kunne feilsituasjonen vært unngått.

9 tilnærminger for å oppdage anomalier

Søket etter anomalier i driften av utstyr brukes ikke bare i atomindustrien, men også i metallurgi og drift av flyturbiner. Og på andre områder hvor bruk av prediktiv diagnostikk er billigere enn mulige tap på grunn av et uforutsigbart sammenbrudd.

2) Svindelprediksjon

Hvis penger trekkes fra kortet du bruker i Podolsk i Albania, kan det hende at transaksjonene må kontrolleres ytterligere.

3) Identifisering av unormale forbrukermønstre

Hvis noen kunder viser unormal oppførsel, kan det være et problem du ikke er klar over.

4) Identifisering av unormalt behov og belastning

Hvis salget i en dagligvarebutikk har falt under konfidensintervallet til prognosen, er det verdt å finne årsaken til det som skjer.

Tilnærminger til å identifisere anomalier

1) Støtt Vector Machine med One Class One-Class SVM

Egnet når dataene i treningssettet følger en normalfordeling, men testsettet inneholder anomalier.

En-klasse støttevektormaskinen konstruerer en ikke-lineær overflate rundt origo. Det er mulig å sette en grense for hvilke data som anses som unormale.

Basert på erfaringene til vårt DATA4-team, er One-Class SVM den mest brukte algoritmen for å løse problemet med å finne anomalier.

9 tilnærminger for å oppdage anomalier

2) Isoler skog metode

Med den «tilfeldige» metoden for å konstruere trær, vil utslipp komme inn i bladene på tidlige stadier (på en grunn dybde av treet), dvs. utslipp er lettere å "isolere". Isolering av unormale verdier skjer i de første iterasjonene av algoritmen.

9 tilnærminger for å oppdage anomalier

3) Elliptisk konvolutt og statistiske metoder

Brukes når dataene er normalfordelt. Jo nærmere målingen er halen av blandingen av fordelinger, jo mer unormal er verdien.

Andre statistiske metoder kan også inkluderes i denne klassen.

9 tilnærminger for å oppdage anomalier

9 tilnærminger for å oppdage anomalier
Bilde fra dyakonov.org

4) Metriske metoder

Metoder inkluderer algoritmer som k-nearest neighbors, k-nearest neighbor, ABOD (angle-based outlier detection) eller LOF (local outlier factor).

Egnet hvis avstanden mellom verdiene i egenskapene er ekvivalente eller normaliserte (for ikke å måle en boa constrictor hos papegøyer).

Algoritmen for k-nærmeste naboer antar at normale verdier er lokalisert i et bestemt område av flerdimensjonalt rom, og avstanden til anomalier vil være større enn til det skillende hyperplanet.

9 tilnærminger for å oppdage anomalier

5) Klyngemetoder

Essensen av klyngemetoder er at hvis en verdi er mer enn en viss mengde unna klyngesentrene, kan verdien betraktes som unormal.

Det viktigste er å bruke en algoritme som grupperer dataene riktig, som avhenger av den spesifikke oppgaven.

9 tilnærminger for å oppdage anomalier

6) Hovedkomponentmetode

Egnet der retningene til den største endringen i spredning er uthevet.

7) Algoritmer basert på tidsserieprognoser

Tanken er at hvis en verdi faller utenfor prediksjonskonfidensintervallet, anses verdien som unormal. For å forutsi en tidsserie, brukes algoritmer som trippel utjevning, S(ARIMA), boosting osv.

Algoritmer for tidsserieprognoser ble diskutert i forrige artikkel.

9 tilnærminger for å oppdage anomalier

8) Veiledet læring (regresjon, klassifisering)

Hvis dataene tillater det, bruker vi algoritmer som spenner fra lineær regresjon til tilbakevendende nettverk. La oss måle forskjellen mellom prediksjonen og den faktiske verdien, og trekke en konklusjon i hvilken grad dataene avviker fra normen. Det er viktig at algoritmen har tilstrekkelig generaliseringsevne og at treningssettet ikke inneholder uregelmessige verdier.

9) Modelltester

La oss nærme oss problemet med å søke etter anomalier som et problem med å søke etter anbefalinger. La oss dekomponere funksjonsmatrisen vår ved å bruke SVD eller faktoriseringsmaskiner, og ta verdiene i den nye matrisen som er vesentlig forskjellig fra de originale som unormale.

9 tilnærminger for å oppdage anomalier

Bilde fra dyakonov.org

Konklusjon

I denne artikkelen gjennomgikk vi de viktigste tilnærmingene til oppdagelse av anomalier.

Å finne anomalier kan på mange måter kalles en kunst. Det er ingen ideell algoritme eller tilnærming, hvis bruk løser alle problemer. Oftere brukes et sett med metoder for å løse en spesifikk sak. Anomalideteksjon utføres ved hjelp av en-klasse støttevektormaskiner, isolerende skoger, metriske og klyngemetoder, samt ved bruk av hovedkomponenter og tidsserieprognoser.

Hvis du kjenner til andre metoder, skriv om dem i kommentarene til artikkelen.

Kilde: www.habr.com

Legg til en kommentar