9 přístupů k odhalení anomálií

В předchozí článek mluvili jsme o prognózování časových řad. Logickým pokračováním by byl článek o identifikaci anomálií.

přihláška

Detekce anomálií se používá v oblastech, jako jsou:

1) Predikce poruch zařízení

V roce 2010 tak byly íránské centrifugy napadeny virem Stuxnet, který uvedl zařízení do neoptimálního provozu a některé zařízení vyřadil z provozu kvůli zrychlenému opotřebení.

Pokud by byly na zařízení použity algoritmy detekce anomálií, bylo možné předejít poruchové situaci.

9 přístupů k odhalení anomálií

Hledání anomálií v provozu zařízení se využívá nejen v jaderném průmyslu, ale také v metalurgii a provozu leteckých turbín. A v dalších oblastech, kde je použití prediktivní diagnostiky levnější než případné ztráty v důsledku nepředvídatelné poruchy.

2) Predikce podvodu

Pokud dojde k výběru peněz z karty, kterou používáte v Podolsku v Albánii, může být nutné transakce dále zkontrolovat.

3) Identifikace abnormálních spotřebitelských vzorců

Pokud se někteří zákazníci chovají abnormálně, může jít o problém, o kterém nevíte.

4) Identifikace abnormální poptávky a zátěže

Pokud tržby v obchodě FMCG klesly pod interval spolehlivosti prognózy, stojí za to najít důvod toho, co se děje.

Přístupy k identifikaci anomálií

1) Podpořte vektorový stroj pomocí jednotřídního SVM jedné třídy

Vhodné, když data v trénovací sadě sledují normální rozdělení, ale zkušební sada obsahuje anomálie.

Jednotřídní stroj podporující vektor vytvoří kolem počátku nelineární povrch. Je možné nastavit mezní limit, pro který jsou data považována za anomální.

Na základě zkušeností našeho týmu DATA4 je One-Class SVM nejběžněji používaným algoritmem pro řešení problému hledání anomálií.

9 přístupů k odhalení anomálií

2) Metoda izolace lesa

Při „náhodné“ metodě stavby stromů se emise dostanou do listů v raných fázích (v malé hloubce stromu), tzn. emise se snáze „izolují“. K izolaci anomálních hodnot dochází v prvních iteracích algoritmu.

9 přístupů k odhalení anomálií

3) Eliptický obal a statistické metody

Používá se, když jsou data normálně distribuována. Čím blíže je měření ke konci směsi distribucí, tím je hodnota anomálnější.

Do této třídy lze zařadit i jiné statistické metody.

9 přístupů k odhalení anomálií

9 přístupů k odhalení anomálií
Obrázek z dyakonov.org

4) Metrické metody

Metody zahrnují algoritmy jako k-nejbližší sousedé, k-nejbližší sousedé, ABOD (detekce odlehlých hodnot na základě úhlu) nebo LOF (lokální odlehlý faktor).

Vhodné, pokud je vzdálenost mezi hodnotami v charakteristikách ekvivalentní nebo normalizovaná (aby se neměřil hroznýš u papoušků).

Algoritmus k-nejbližších sousedů předpokládá, že normální hodnoty se nacházejí v určité oblasti vícerozměrného prostoru a vzdálenost k anomáliím bude větší než k oddělující nadrovině.

9 přístupů k odhalení anomálií

5) Klastrové metody

Podstatou shlukových metod je, že pokud je hodnota vzdálena od středů shluků o více než určité množství, lze hodnotu považovat za anomální.

Hlavní věc je použít algoritmus, který správně shlukuje data, což závisí na konkrétní úloze.

9 přístupů k odhalení anomálií

6) Metoda hlavní složky

Vhodné tam, kde jsou zvýrazněny směry největší změny rozptylu.

7) Algoritmy založené na prognózování časových řad

Myšlenka je taková, že pokud hodnota spadá mimo interval spolehlivosti predikce, je tato hodnota považována za anomální. K predikci časové řady se používají algoritmy jako triple smoothing, S(ARIMA), boosting, atd.

Algoritmy prognózování časových řad byly probrány v předchozím článku.

9 přístupů k odhalení anomálií

8) Řízené učení (regrese, klasifikace)

Pokud to data umožňují, používáme algoritmy od lineární regrese po rekurentní sítě. Změřme rozdíl mezi predikcí a skutečnou hodnotou a udělejme závěr, do jaké míry se data odchylují od normy. Je důležité, aby měl algoritmus dostatečnou schopnost zobecnění a aby trénovací množina neobsahovala anomální hodnoty.

9) Modelové testy

Přistupme k problému hledání anomálií jako k problému hledání doporučení. Rozložme naši matici prvků pomocí SVD nebo faktorizačních strojů a vezměme hodnoty v nové matici, které se výrazně liší od původních, jako anomální.

9 přístupů k odhalení anomálií

Obrázek z dyakonov.org

Závěr

V tomto článku jsme shrnuli hlavní přístupy k detekci anomálií.

Hledání anomálií lze v mnoha ohledech nazvat uměním. Neexistuje žádný ideální algoritmus nebo přístup, jehož použití řeší všechny problémy. Častěji se k řešení konkrétního případu používá soubor metod. Detekce anomálií se provádí pomocí jednotřídních podpůrných vektorových strojů, izolace lesů, metrických a shlukových metod, stejně jako pomocí hlavních komponent a prognóz časových řad.

Pokud znáte jiné metody, napište o nich do komentářů k článku.

Zdroj: www.habr.com

Přidat komentář