9 prístupov k odhaleniu anomálií

В predchádzajúci článok hovorili sme o prognózovaní časových radov. Logickým pokračovaním by bol článok o identifikácii anomálií.

Aplikácia

Detekcia anomálií sa používa v oblastiach, ako sú:

1) Predpovedanie porúch zariadení

V roku 2010 tak boli iránske centrifúgy napadnuté vírusom Stuxnet, ktorý uviedol zariadenie do neoptimálnej prevádzky a niektoré zariadenia vyradil z prevádzky v dôsledku zrýchleného opotrebovania.

Ak by sa na zariadení použili algoritmy detekcie anomálií, poruchovej situácii by sa dalo predísť.

9 prístupov k odhaleniu anomálií

Hľadanie anomálií v prevádzke zariadení sa využíva nielen v jadrovom priemysle, ale aj v metalurgii a prevádzke leteckých turbín. A v iných oblastiach, kde je využitie prediktívnej diagnostiky lacnejšie ako prípadné straty v dôsledku nepredvídateľnej poruchy.

2) Predpovedanie podvodu

Ak dôjde k výberu peňazí z karty, ktorú používate v Podolsku v Albánsku, možno bude potrebné transakcie ďalej kontrolovať.

3) Identifikácia abnormálnych vzorcov spotrebiteľov

Ak sa niektorí zákazníci správajú abnormálne, môže ísť o problém, o ktorom si nie ste vedomí.

4) Identifikácia abnormálneho dopytu a zaťaženia

Ak predaj v FMCG obchode klesol pod interval spoľahlivosti prognózy, stojí za to nájsť príčinu toho, čo sa deje.

Prístupy k identifikácii anomálií

1) Podporte vektorový stroj s SVM jednej triedy jednej triedy

Vhodné, keď údaje v trénovacej množine sledujú normálne rozdelenie, ale testovacia množina obsahuje anomálie.

Jednotriedny podporný vektorový stroj vytvára okolo počiatku nelineárny povrch. Je možné nastaviť hraničný limit, pre ktorý sa údaje považujú za anomálne.

Na základe skúseností nášho tímu DATA4 je One-Class SVM najčastejšie používaným algoritmom na riešenie problému hľadania anomálií.

9 prístupov k odhaleniu anomálií

2) Metóda izolácie lesa

Pri „náhodnej“ metóde výstavby stromov sa emisie dostanú do listov v skorých štádiách (v malej hĺbke stromu), t.j. emisie sa ľahšie „izolujú“. Izolácia anomálnych hodnôt sa vyskytuje v prvých iteráciách algoritmu.

9 prístupov k odhaleniu anomálií

3) Eliptický obal a štatistické metódy

Používa sa, keď sú údaje normálne distribuované. Čím bližšie je meranie k chvostu zmesi distribúcií, tým je hodnota anomálnejšia.

Do tejto triedy môžu byť zahrnuté aj iné štatistické metódy.

9 prístupov k odhaleniu anomálií

9 prístupov k odhaleniu anomálií
Obrázok z dyakonov.org

4) Metrické metódy

Metódy zahŕňajú algoritmy ako k-najbližší sused, k-najbližší sused, ABOD (detekcia odľahlých hodnôt na základe uhla) alebo LOF (lokálny odľahlý faktor).

Vhodné, ak je vzdialenosť medzi hodnotami v charakteristikách ekvivalentná alebo normalizovaná (aby sa nemeral boa constrictor u papagájov).

Algoritmus k-najbližších susedov predpokladá, že normálne hodnoty sa nachádzajú v určitej oblasti viacrozmerného priestoru a vzdialenosť k anomáliám bude väčšia ako k oddeľujúcej nadrovine.

9 prístupov k odhaleniu anomálií

5) Klastrové metódy

Podstatou klastrových metód je, že ak je hodnota vzdialená od stredov klastrov o viac ako určitú hodnotu, hodnotu možno považovať za anomálnu.

Hlavná vec je použiť algoritmus, ktorý správne zoskupuje údaje, čo závisí od konkrétnej úlohy.

9 prístupov k odhaleniu anomálií

6) Metóda hlavnej zložky

Vhodné tam, kde sú zvýraznené smery najväčšej zmeny rozptylu.

7) Algoritmy založené na prognózovaní časových radov

Myšlienka je taká, že ak hodnota spadá mimo interval spoľahlivosti predikcie, hodnota sa považuje za anomálnu. Na predpovedanie časového radu sa používajú algoritmy ako trojité vyhladzovanie, S(ARIMA), zosilnenie atď.

Algoritmy prognózovania časových radov boli diskutované v predchádzajúcom článku.

9 prístupov k odhaleniu anomálií

8) Riadené učenie (regresia, klasifikácia)

Ak to údaje umožňujú, používame algoritmy od lineárnej regresie až po rekurentné siete. Zmerajte rozdiel medzi predikciou a skutočnou hodnotou a urobme záver, do akej miery sa údaje odchyľujú od normy. Je dôležité, aby mal algoritmus dostatočnú schopnosť zovšeobecnenia a aby trénovacia množina neobsahovala anomálne hodnoty.

9) Modelové testy

Pristupujme k problému hľadania anomálií ako k problému hľadania odporúčaní. Rozložme našu maticu prvkov pomocou SVD alebo faktorizačných strojov a berme hodnoty v novej matici, ktoré sa výrazne líšia od pôvodných, ako anomálne.

9 prístupov k odhaleniu anomálií

Obrázok z dyakonov.org

Záver

V tomto článku sme zhodnotili hlavné prístupy k detekcii anomálií.

Hľadanie anomálií možno v mnohom nazvať umením. Neexistuje žiadny ideálny algoritmus alebo prístup, ktorého použitie rieši všetky problémy. Častejšie sa na riešenie konkrétneho prípadu používa súbor metód. Detekcia anomálií sa vykonáva pomocou jednotriednych podporných vektorových strojov, izolácie lesov, metrických a klastrových metód, ako aj pomocou hlavných komponentov a prognóz časových radov.

Ak poznáte iné metódy, napíšte o nich v komentároch k článku.

Zdroj: hab.com

Pridať komentár