9 tilgange til at opdage anomalier

В forrige artikel vi talte om tidsserieprognoser. En logisk fortsættelse ville være en artikel om at identificere anomalier.

Ansøgning

Anomalidetektion bruges i områder som:

1) Forudsigelse af udstyrsnedbrud

I 2010 blev iranske centrifuger således angrebet af Stuxnet-virussen, som satte udstyret til ikke-optimal drift og deaktiverede noget af udstyret på grund af accelereret slid.

Hvis anomalidetektionsalgoritmer var blevet brugt på udstyret, kunne fejlsituationen have været undgået.

9 tilgange til at opdage anomalier

Søgningen efter uregelmæssigheder i driften af ​​udstyr bruges ikke kun i atomindustrien, men også i metallurgi og drift af flyturbiner. Og på andre områder, hvor brugen af ​​prædiktiv diagnostik er billigere end mulige tab på grund af et uforudsigeligt sammenbrud.

2) Forudsigelse af svindel

Hvis der hæves penge fra det kort, du bruger i Podolsk i Albanien, skal transaktionerne muligvis kontrolleres yderligere.

3) Identifikation af unormale forbrugermønstre

Hvis nogle kunder udviser unormal adfærd, kan der være et problem, som du ikke er opmærksom på.

4) Identifikation af unormalt behov og belastning

Hvis salget i en dagligvarebutik er faldet under konfidensintervallet for prognosen, er det værd at finde årsagen til, hvad der sker.

Metoder til at identificere anomalier

1) Support Vector Machine med One Class One-Class SVM

Velegnet når dataene i træningssættet følger en normalfordeling, men testsættet indeholder anomalier.

En-klasse støttevektormaskinen konstruerer en ikke-lineær overflade omkring oprindelsen. Det er muligt at indstille en afskæringsgrænse for, hvilke data der anses for at være unormale.

Baseret på erfaringerne fra vores DATA4-team er One-Class SVM den mest almindeligt anvendte algoritme til at løse problemet med at finde anomalier.

9 tilgange til at opdage anomalier

2) Isoler skov metode

Med den "tilfældige" metode til at konstruere træer, vil emissioner trænge ind i bladene på tidlige stadier (i en lav dybde af træet), dvs. emissioner er nemmere at "isolere". Isolering af unormale værdier forekommer i de første iterationer af algoritmen.

9 tilgange til at opdage anomalier

3) Elliptisk konvolut og statistiske metoder

Bruges, når dataene er normalfordelt. Jo tættere målingen er på halen af ​​blandingen af ​​fordelinger, jo mere unormal er værdien.

Andre statistiske metoder kan også inkluderes i denne klasse.

9 tilgange til at opdage anomalier

9 tilgange til at opdage anomalier
Billede fra dyakonov.org

4) Metriske metoder

Metoder omfatter algoritmer såsom k-nearest neighbors, k-nearest neighbor, ABOD (vinkelbaseret outlier-detektion) eller LOF (local outlier-faktor).

Velegnet, hvis afstanden mellem værdierne i egenskaberne er ækvivalente eller normaliserede (for ikke at måle en boa constrictor hos papegøjer).

Algoritmen for k-nærmeste naboer antager, at normale værdier er placeret i et bestemt område af multidimensionelt rum, og afstanden til anomalier vil være større end til det adskillende hyperplan.

9 tilgange til at opdage anomalier

5) Klyngemetoder

Essensen af ​​klyngemetoder er, at hvis en værdi er mere end en vis mængde væk fra klyngecentrene, kan værdien betragtes som unormal.

Det vigtigste er at bruge en algoritme, der korrekt grupperer dataene, hvilket afhænger af den specifikke opgave.

9 tilgange til at opdage anomalier

6) Hovedkomponentmetode

Velegnet, hvor retningerne for den største ændring i spredning er fremhævet.

7) Algoritmer baseret på tidsserieprognoser

Ideen er, at hvis en værdi falder uden for forudsigelseskonfidensintervallet, betragtes værdien som unormal. For at forudsige en tidsserie bruges algoritmer som triple smoothing, S(ARIMA), boosting osv.

Algoritmer til prognose for tidsserier blev diskuteret i den forrige artikel.

9 tilgange til at opdage anomalier

8) Superviseret læring (regression, klassifikation)

Hvis dataene tillader det, bruger vi algoritmer lige fra lineær regression til tilbagevendende netværk. Lad os måle forskellen mellem forudsigelsen og den faktiske værdi, og drage en konklusion, i hvilket omfang data afviger fra normen. Det er vigtigt, at algoritmen har tilstrækkelig generaliseringsevne, og at træningssættet ikke indeholder anomale værdier.

9) Modeltest

Lad os nærme os problemet med at søge efter anomalier som et problem med at søge efter anbefalinger. Lad os nedbryde vores funktionsmatrix ved hjælp af SVD eller faktoriseringsmaskiner og tage værdierne i den nye matrix, der er væsentligt forskellige fra de originale, som unormale.

9 tilgange til at opdage anomalier

Billede fra dyakonov.org

Konklusion

I denne artikel gennemgik vi de vigtigste tilgange til afsløring af anomalier.

At finde anomalier kan på mange måder kaldes en kunst. Der er ingen ideel algoritme eller tilgang, hvis brug løser alle problemer. Oftere bruges et sæt metoder til at løse en specifik sag. Anomalidetektion udføres ved hjælp af en-klasses støttevektormaskiner, isolerende skove, metriske og klyngemetoder samt ved hjælp af hovedkomponenter og tidsserieprognoser.

Hvis du kender andre metoder, så skriv om dem i kommentarerne til artiklen.

Kilde: www.habr.com

Tilføj en kommentar