9 metoder för att upptäcka anomalier

В tidigare artikel vi pratade om tidsserieprognoser. En logisk fortsättning skulle vara en artikel om att identifiera anomalier.

Ansökan

Anomalidetektering används inom områden som:

1) Förutsägelse av utrustningshaveri

Sålunda, 2010, attackerades iranska centrifuger av Stuxnet-viruset, vilket satte utrustningen till icke-optimal drift och inaktiverade en del av utrustningen på grund av accelererat slitage.

Om anomalidetekteringsalgoritmer hade använts på utrustningen hade felsituationen kunnat undvikas.

9 metoder för att upptäcka anomalier

Sökandet efter anomalier i driften av utrustning används inte bara inom kärnkraftsindustrin, utan också inom metallurgi och drift av flygplansturbiner. Och inom andra områden där användningen av prediktiv diagnostik är billigare än eventuella förluster på grund av ett oförutsägbart sammanbrott.

2) Bedrägeriförutsägelse

Om pengar dras från kortet du använder i Podolsk i Albanien kan transaktionerna behöva kontrolleras ytterligare.

3) Identifiering av onormala konsumentmönster

Om vissa kunder uppvisar onormalt beteende kan det finnas ett problem som du inte är medveten om.

4) Identifiering av onormalt behov och belastning

Om försäljningen i en dagligvarubutik har sjunkit under prognosens konfidensintervall är det värt att hitta orsaken till vad som händer.

Metoder för att identifiera anomalier

1) Stöd Vector Machine med One Class One-Class SVM

Lämpligt när data i träningssetet följer en normalfördelning, men testsetet innehåller anomalier.

En-klass stödvektormaskinen konstruerar en olinjär yta runt origo. Det är möjligt att ställa in en cutoff-gräns för vilken data som anses vara onormal.

Baserat på erfarenheten från vårt DATA4-team är One-Class SVM den vanligaste algoritmen för att lösa problemet med att hitta anomalier.

9 metoder för att upptäcka anomalier

2) Isolera skog metod

Med den ”slumpmässiga” metoden att konstruera träd kommer utsläppen komma in i löven i tidiga skeden (på ett grunt djup av trädet), d.v.s. utsläpp är lättare att "isolera". Isolering av anomala värden inträffar i de första iterationerna av algoritmen.

9 metoder för att upptäcka anomalier

3) Elliptisk kuvert och statistiska metoder

Används när data är normalfördelad. Ju närmare mätningen är svansen av blandningen av fördelningar, desto mer onormalt är värdet.

Andra statistiska metoder kan också inkluderas i denna klass.

9 metoder för att upptäcka anomalier

9 metoder för att upptäcka anomalier
Bild från dyakonov.org

4) Metriska metoder

Metoder inkluderar algoritmer som k-närmaste grannar, k-närmaste granne, ABOD (vinkelbaserad avvikande detektering) eller LOF (lokal avvikande faktor).

Lämplig om avståndet mellan värdena i egenskaperna är likvärdigt eller normaliserat (för att inte mäta en boa constrictor hos papegojor).

Algoritmen för k-närmaste grannar antar att normala värden är belägna i ett visst område av flerdimensionellt utrymme, och avståndet till anomalier kommer att vara större än till det separerande hyperplanet.

9 metoder för att upptäcka anomalier

5) Klustermetoder

Kärnan i klustermetoder är att om ett värde är mer än ett visst belopp borta från klustercentrumen, kan värdet anses vara anomalt.

Det viktigaste är att använda en algoritm som korrekt kluster data, vilket beror på den specifika uppgiften.

9 metoder för att upptäcka anomalier

6) Huvudkomponentmetoden

Lämplig där riktningarna för den största förändringen i spridningen är markerade.

7) Algoritmer baserade på tidsserieprognoser

Tanken är att om ett värde faller utanför prediktionskonfidensintervallet anses värdet vara anomalt. För att förutsäga en tidsserie används algoritmer som triple smoothing, S(ARIMA), boosting etc.

Algoritmer för tidsserieprognos diskuterades i föregående artikel.

9 metoder för att upptäcka anomalier

8) Övervakat lärande (regression, klassificering)

Om data tillåter använder vi algoritmer som sträcker sig från linjär regression till återkommande nätverk. Låt oss mäta skillnaden mellan förutsägelsen och det faktiska värdet och dra en slutsats i vilken utsträckning uppgifterna avviker från normen. Det är viktigt att algoritmen har tillräcklig generaliseringsförmåga och att träningssetet inte innehåller avvikande värden.

9) Modelltester

Låt oss närma oss problemet med att söka efter anomalier som ett problem med att söka efter rekommendationer. Låt oss dekomponera vår funktionsmatris med hjälp av SVD eller faktoriseringsmaskiner och ta värdena i den nya matrisen som skiljer sig väsentligt från de ursprungliga som avvikande.

9 metoder för att upptäcka anomalier

Bild från dyakonov.org

Slutsats

I den här artikeln har vi granskat de viktigaste metoderna för upptäckt av anomali.

Att hitta anomalier kan på många sätt kallas en konst. Det finns ingen idealisk algoritm eller tillvägagångssätt, vars användning löser alla problem. Oftare används en uppsättning metoder för att lösa ett specifikt fall. Anomalidetektering utförs med hjälp av enklas stödvektormaskiner, isolerande skogar, metriska och klustermetoder, samt med användning av huvudkomponenter och tidsserieprognoser.

Om du känner till andra metoder, skriv om dem i kommentarerna till artikeln.

Källa: will.com

Lägg en kommentar