В
Søknad
Anomalideteksjon brukes i områder som:
1) Prediksjon av utstyrshavari
I 2010 ble således iranske sentrifuger angrepet av Stuxnet-viruset, som satte utstyret til ikke-optimal drift og deaktiverte noe av utstyret på grunn av akselerert slitasje.
Hvis anomalideteksjonsalgoritmer hadde blitt brukt på utstyret, kunne feilsituasjonen vært unngått.
Søket etter anomalier i driften av utstyr brukes ikke bare i atomindustrien, men også i metallurgi og drift av flyturbiner. Og på andre områder hvor bruk av prediktiv diagnostikk er billigere enn mulige tap på grunn av et uforutsigbart sammenbrudd.
2) Svindelprediksjon
Hvis penger trekkes fra kortet du bruker i Podolsk i Albania, kan det hende at transaksjonene må kontrolleres ytterligere.
3) Identifisering av unormale forbrukermønstre
Hvis noen kunder viser unormal oppførsel, kan det være et problem du ikke er klar over.
4) Identifisering av unormalt behov og belastning
Hvis salget i en dagligvarebutikk har falt under konfidensintervallet til prognosen, er det verdt å finne årsaken til det som skjer.
Tilnærminger til å identifisere anomalier
1) Støtt Vector Machine med One Class One-Class SVM
Egnet når dataene i treningssettet følger en normalfordeling, men testsettet inneholder anomalier.
En-klasse støttevektormaskinen konstruerer en ikke-lineær overflate rundt origo. Det er mulig å sette en grense for hvilke data som anses som unormale.
Basert på erfaringene til vårt DATA4-team, er One-Class SVM den mest brukte algoritmen for å løse problemet med å finne anomalier.
2) Isoler skog metode
Med den «tilfeldige» metoden for å konstruere trær, vil utslipp komme inn i bladene på tidlige stadier (på en grunn dybde av treet), dvs. utslipp er lettere å "isolere". Isolering av unormale verdier skjer i de første iterasjonene av algoritmen.
3) Elliptisk konvolutt og statistiske metoder
Brukes når dataene er normalfordelt. Jo nærmere målingen er halen av blandingen av fordelinger, jo mer unormal er verdien.
Andre statistiske metoder kan også inkluderes i denne klassen.
Bilde fra dyakonov.org
4) Metriske metoder
Metoder inkluderer algoritmer som k-nearest neighbors, k-nearest neighbor, ABOD (angle-based outlier detection) eller LOF (local outlier factor).
Egnet hvis avstanden mellom verdiene i egenskapene er ekvivalente eller normaliserte (for ikke å måle en boa constrictor hos papegøyer).
Algoritmen for k-nærmeste naboer antar at normale verdier er lokalisert i et bestemt område av flerdimensjonalt rom, og avstanden til anomalier vil være større enn til det skillende hyperplanet.
5) Klyngemetoder
Essensen av klyngemetoder er at hvis en verdi er mer enn en viss mengde unna klyngesentrene, kan verdien betraktes som unormal.
Det viktigste er å bruke en algoritme som grupperer dataene riktig, som avhenger av den spesifikke oppgaven.
6) Hovedkomponentmetode
Egnet der retningene til den største endringen i spredning er uthevet.
7) Algoritmer basert på tidsserieprognoser
Tanken er at hvis en verdi faller utenfor prediksjonskonfidensintervallet, anses verdien som unormal. For å forutsi en tidsserie, brukes algoritmer som trippel utjevning, S(ARIMA), boosting osv.
Algoritmer for tidsserieprognoser ble diskutert i forrige artikkel.
8) Veiledet læring (regresjon, klassifisering)
Hvis dataene tillater det, bruker vi algoritmer som spenner fra lineær regresjon til tilbakevendende nettverk. La oss måle forskjellen mellom prediksjonen og den faktiske verdien, og trekke en konklusjon i hvilken grad dataene avviker fra normen. Det er viktig at algoritmen har tilstrekkelig generaliseringsevne og at treningssettet ikke inneholder uregelmessige verdier.
9) Modelltester
La oss nærme oss problemet med å søke etter anomalier som et problem med å søke etter anbefalinger. La oss dekomponere funksjonsmatrisen vår ved å bruke SVD eller faktoriseringsmaskiner, og ta verdiene i den nye matrisen som er vesentlig forskjellig fra de originale som unormale.
Bilde fra dyakonov.org
Konklusjon
I denne artikkelen gjennomgikk vi de viktigste tilnærmingene til oppdagelse av anomalier.
Å finne anomalier kan på mange måter kalles en kunst. Det er ingen ideell algoritme eller tilnærming, hvis bruk løser alle problemer. Oftere brukes et sett med metoder for å løse en spesifikk sak. Anomalideteksjon utføres ved hjelp av en-klasse støttevektormaskiner, isolerende skoger, metriske og klyngemetoder, samt ved bruk av hovedkomponenter og tidsserieprognoser.
Hvis du kjenner til andre metoder, skriv om dem i kommentarene til artikkelen.
Kilde: www.habr.com