В
Ansøgning
Anomalidetektion bruges i områder som:
1) Forudsigelse af udstyrsnedbrud
I 2010 blev iranske centrifuger således angrebet af Stuxnet-virussen, som satte udstyret til ikke-optimal drift og deaktiverede noget af udstyret på grund af accelereret slid.
Hvis anomalidetektionsalgoritmer var blevet brugt på udstyret, kunne fejlsituationen have været undgået.
Søgningen efter uregelmæssigheder i driften af udstyr bruges ikke kun i atomindustrien, men også i metallurgi og drift af flyturbiner. Og på andre områder, hvor brugen af prædiktiv diagnostik er billigere end mulige tab på grund af et uforudsigeligt sammenbrud.
2) Forudsigelse af svindel
Hvis der hæves penge fra det kort, du bruger i Podolsk i Albanien, skal transaktionerne muligvis kontrolleres yderligere.
3) Identifikation af unormale forbrugermønstre
Hvis nogle kunder udviser unormal adfærd, kan der være et problem, som du ikke er opmærksom på.
4) Identifikation af unormalt behov og belastning
Hvis salget i en dagligvarebutik er faldet under konfidensintervallet for prognosen, er det værd at finde årsagen til, hvad der sker.
Metoder til at identificere anomalier
1) Support Vector Machine med One Class One-Class SVM
Velegnet når dataene i træningssættet følger en normalfordeling, men testsættet indeholder anomalier.
En-klasse støttevektormaskinen konstruerer en ikke-lineær overflade omkring oprindelsen. Det er muligt at indstille en afskæringsgrænse for, hvilke data der anses for at være unormale.
Baseret på erfaringerne fra vores DATA4-team er One-Class SVM den mest almindeligt anvendte algoritme til at løse problemet med at finde anomalier.
2) Isoler skov metode
Med den "tilfældige" metode til at konstruere træer, vil emissioner trænge ind i bladene på tidlige stadier (i en lav dybde af træet), dvs. emissioner er nemmere at "isolere". Isolering af unormale værdier forekommer i de første iterationer af algoritmen.
3) Elliptisk konvolut og statistiske metoder
Bruges, når dataene er normalfordelt. Jo tættere målingen er på halen af blandingen af fordelinger, jo mere unormal er værdien.
Andre statistiske metoder kan også inkluderes i denne klasse.
Billede fra dyakonov.org
4) Metriske metoder
Metoder omfatter algoritmer såsom k-nearest neighbors, k-nearest neighbor, ABOD (vinkelbaseret outlier-detektion) eller LOF (local outlier-faktor).
Velegnet, hvis afstanden mellem værdierne i egenskaberne er ækvivalente eller normaliserede (for ikke at måle en boa constrictor hos papegøjer).
Algoritmen for k-nærmeste naboer antager, at normale værdier er placeret i et bestemt område af multidimensionelt rum, og afstanden til anomalier vil være større end til det adskillende hyperplan.
5) Klyngemetoder
Essensen af klyngemetoder er, at hvis en værdi er mere end en vis mængde væk fra klyngecentrene, kan værdien betragtes som unormal.
Det vigtigste er at bruge en algoritme, der korrekt grupperer dataene, hvilket afhænger af den specifikke opgave.
6) Hovedkomponentmetode
Velegnet, hvor retningerne for den største ændring i spredning er fremhævet.
7) Algoritmer baseret på tidsserieprognoser
Ideen er, at hvis en værdi falder uden for forudsigelseskonfidensintervallet, betragtes værdien som unormal. For at forudsige en tidsserie bruges algoritmer som triple smoothing, S(ARIMA), boosting osv.
Algoritmer til prognose for tidsserier blev diskuteret i den forrige artikel.
8) Superviseret læring (regression, klassifikation)
Hvis dataene tillader det, bruger vi algoritmer lige fra lineær regression til tilbagevendende netværk. Lad os måle forskellen mellem forudsigelsen og den faktiske værdi, og drage en konklusion, i hvilket omfang data afviger fra normen. Det er vigtigt, at algoritmen har tilstrækkelig generaliseringsevne, og at træningssættet ikke indeholder anomale værdier.
9) Modeltest
Lad os nærme os problemet med at søge efter anomalier som et problem med at søge efter anbefalinger. Lad os nedbryde vores funktionsmatrix ved hjælp af SVD eller faktoriseringsmaskiner og tage værdierne i den nye matrix, der er væsentligt forskellige fra de originale, som unormale.
Billede fra dyakonov.org
Konklusion
I denne artikel gennemgik vi de vigtigste tilgange til afsløring af anomalier.
At finde anomalier kan på mange måder kaldes en kunst. Der er ingen ideel algoritme eller tilgang, hvis brug løser alle problemer. Oftere bruges et sæt metoder til at løse en specifik sag. Anomalidetektion udføres ved hjælp af en-klasses støttevektormaskiner, isolerende skove, metriske og klyngemetoder samt ved hjælp af hovedkomponenter og tidsserieprognoser.
Hvis du kender andre metoder, så skriv om dem i kommentarerne til artiklen.
Kilde: www.habr.com