В
Ansökan
Anomalidetektering används inom områden som:
1) Förutsägelse av utrustningshaveri
Sålunda, 2010, attackerades iranska centrifuger av Stuxnet-viruset, vilket satte utrustningen till icke-optimal drift och inaktiverade en del av utrustningen på grund av accelererat slitage.
Om anomalidetekteringsalgoritmer hade använts på utrustningen hade felsituationen kunnat undvikas.
Sökandet efter anomalier i driften av utrustning används inte bara inom kärnkraftsindustrin, utan också inom metallurgi och drift av flygplansturbiner. Och inom andra områden där användningen av prediktiv diagnostik är billigare än eventuella förluster på grund av ett oförutsägbart sammanbrott.
2) Bedrägeriförutsägelse
Om pengar dras från kortet du använder i Podolsk i Albanien kan transaktionerna behöva kontrolleras ytterligare.
3) Identifiering av onormala konsumentmönster
Om vissa kunder uppvisar onormalt beteende kan det finnas ett problem som du inte är medveten om.
4) Identifiering av onormalt behov och belastning
Om försäljningen i en dagligvarubutik har sjunkit under prognosens konfidensintervall är det värt att hitta orsaken till vad som händer.
Metoder för att identifiera anomalier
1) Stöd Vector Machine med One Class One-Class SVM
Lämpligt när data i träningssetet följer en normalfördelning, men testsetet innehåller anomalier.
En-klass stödvektormaskinen konstruerar en olinjär yta runt origo. Det är möjligt att ställa in en cutoff-gräns för vilken data som anses vara onormal.
Baserat på erfarenheten från vårt DATA4-team är One-Class SVM den vanligaste algoritmen för att lösa problemet med att hitta anomalier.
2) Isolera skog metod
Med den ”slumpmässiga” metoden att konstruera träd kommer utsläppen komma in i löven i tidiga skeden (på ett grunt djup av trädet), d.v.s. utsläpp är lättare att "isolera". Isolering av anomala värden inträffar i de första iterationerna av algoritmen.
3) Elliptisk kuvert och statistiska metoder
Används när data är normalfördelad. Ju närmare mätningen är svansen av blandningen av fördelningar, desto mer onormalt är värdet.
Andra statistiska metoder kan också inkluderas i denna klass.
Bild från dyakonov.org
4) Metriska metoder
Metoder inkluderar algoritmer som k-närmaste grannar, k-närmaste granne, ABOD (vinkelbaserad avvikande detektering) eller LOF (lokal avvikande faktor).
Lämplig om avståndet mellan värdena i egenskaperna är likvärdigt eller normaliserat (för att inte mäta en boa constrictor hos papegojor).
Algoritmen för k-närmaste grannar antar att normala värden är belägna i ett visst område av flerdimensionellt utrymme, och avståndet till anomalier kommer att vara större än till det separerande hyperplanet.
5) Klustermetoder
Kärnan i klustermetoder är att om ett värde är mer än ett visst belopp borta från klustercentrumen, kan värdet anses vara anomalt.
Det viktigaste är att använda en algoritm som korrekt kluster data, vilket beror på den specifika uppgiften.
6) Huvudkomponentmetoden
Lämplig där riktningarna för den största förändringen i spridningen är markerade.
7) Algoritmer baserade på tidsserieprognoser
Tanken är att om ett värde faller utanför prediktionskonfidensintervallet anses värdet vara anomalt. För att förutsäga en tidsserie används algoritmer som triple smoothing, S(ARIMA), boosting etc.
Algoritmer för tidsserieprognos diskuterades i föregående artikel.
8) Övervakat lärande (regression, klassificering)
Om data tillåter använder vi algoritmer som sträcker sig från linjär regression till återkommande nätverk. Låt oss mäta skillnaden mellan förutsägelsen och det faktiska värdet och dra en slutsats i vilken utsträckning uppgifterna avviker från normen. Det är viktigt att algoritmen har tillräcklig generaliseringsförmåga och att träningssetet inte innehåller avvikande värden.
9) Modelltester
Låt oss närma oss problemet med att söka efter anomalier som ett problem med att söka efter rekommendationer. Låt oss dekomponera vår funktionsmatris med hjälp av SVD eller faktoriseringsmaskiner och ta värdena i den nya matrisen som skiljer sig väsentligt från de ursprungliga som avvikande.
Bild från dyakonov.org
Slutsats
I den här artikeln har vi granskat de viktigaste metoderna för upptäckt av anomali.
Att hitta anomalier kan på många sätt kallas en konst. Det finns ingen idealisk algoritm eller tillvägagångssätt, vars användning löser alla problem. Oftare används en uppsättning metoder för att lösa ett specifikt fall. Anomalidetektering utförs med hjälp av enklas stödvektormaskiner, isolerande skogar, metriska och klustermetoder, samt med användning av huvudkomponenter och tidsserieprognoser.
Om du känner till andra metoder, skriv om dem i kommentarerna till artikeln.
Källa: will.com