9 pristupa za otkrivanje anomalija

В prethodni članak razgovarali smo o predviđanju vremenskih serija. Logičan nastavak bio bi članak o prepoznavanju anomalija.

Primjena

Otkrivanje anomalija koristi se u područjima kao što su:

1) Predviđanje kvarova opreme

Tako je 2010. godine iranske centrifuge napao virus Stuxnet koji je opremu postavio na neoptimalan rad i onesposobio dio opreme zbog ubrzanog trošenja.

Da su algoritmi za otkrivanje anomalija korišteni na opremi, situacija kvara se mogla izbjeći.

9 pristupa za otkrivanje anomalija

Potraga za anomalijama u radu opreme koristi se ne samo u nuklearnoj industriji, već iu metalurgiji i radu zrakoplovnih turbina. I u drugim područjima gdje je uporaba prediktivne dijagnostike jeftinija od mogućih gubitaka zbog nepredvidivog kvara.

2) Predviđanje prijevare

Ako je novac podignut s kartice koju koristite u Podolsku u Albaniji, transakcije će možda trebati dodatno provjeriti.

3) Identifikacija abnormalnih obrazaca potrošača

Ako neki kupci pokazuju neuobičajeno ponašanje, možda postoji problem kojeg niste svjesni.

4) Identifikacija neuobičajene potražnje i opterećenja

Ako je prodaja u trgovini široke potrošnje pala ispod intervala pouzdanosti prognoze, vrijedi pronaći razlog za ono što se događa.

Pristupi prepoznavanju anomalija

1) Vektorski stroj podrške s jednom klasom SVM jedne klase

Prikladno kada podaci u skupu za vježbanje slijede normalnu distribuciju, ali testni skup sadrži anomalije.

Stroj jednorazrednog potpornog vektora konstruira nelinearnu površinu oko ishodišta. Moguće je postaviti graničnu granicu za koju se podaci smatraju nenormalnim.

Na temelju iskustva našeg DATA4 tima, One-Class SVM je najčešće korišteni algoritam za rješavanje problema pronalaženja anomalija.

9 pristupa za otkrivanje anomalija

2) Metoda izolirane šume

Kod “nasumične” metode izgradnje stabala, emisije će ući u lišće u ranim fazama (na maloj dubini stabla), tj. emisije je lakše "izolirati". Izolacija anomalnih vrijednosti događa se u prvim iteracijama algoritma.

9 pristupa za otkrivanje anomalija

3) Eliptična ovojnica i statističke metode

Koristi se kada su podaci normalno distribuirani. Što je mjerenje bliže repu mješavine distribucija, to je vrijednost nenormalnija.

Druge statističke metode također mogu biti uključene u ovu klasu.

9 pristupa za otkrivanje anomalija

9 pristupa za otkrivanje anomalija
Slika s dyakonov.org

4) Metrijske metode

Metode uključuju algoritme kao što su k-najbliži susjedi, k-najbliži susjed, ABOD (otkrivanje ekstremnih vrijednosti temeljeno na kutu) ili LOF (faktor lokalnih ekstremnih vrijednosti).

Prikladno ako je udaljenost između vrijednosti u karakteristikama ekvivalentna ili normalizirana (kako se ne bi mjerio boa constrictor u papigama).

Algoritam k-najbližih susjeda pretpostavlja da se normalne vrijednosti nalaze u određenom području višedimenzionalnog prostora, a udaljenost do anomalija bit će veća nego do razdvajajuće hiperravnine.

9 pristupa za otkrivanje anomalija

5) Metode klastera

Bit metoda klastera je da ako je vrijednost više od određene udaljenosti od središta klastera, vrijednost se može smatrati anomalnom.

Glavna stvar je koristiti algoritam koji ispravno grupira podatke, što ovisi o specifičnom zadatku.

9 pristupa za otkrivanje anomalija

6) Metoda glavne komponente

Prikladno tamo gdje su istaknuti smjerovi najveće promjene u disperziji.

7) Algoritmi temeljeni na predviđanju vremenskih serija

Ideja je da ako vrijednost padne izvan intervala pouzdanosti predviđanja, vrijednost se smatra anomalnom. Za predviđanje vremenske serije koriste se algoritmi kao što su trostruko izglađivanje, S(ARIMA), boosting itd.

O algoritmima predviđanja vremenskih nizova raspravljalo se u prethodnom članku.

9 pristupa za otkrivanje anomalija

8) Nadzirano učenje (regresija, klasifikacija)

Ako podaci dopuštaju, koristimo algoritme u rasponu od linearne regresije do rekurentnih mreža. Izmjerimo razliku između predviđanja i stvarne vrijednosti i zaključimo u kojoj mjeri podaci odstupaju od norme. Važno je da algoritam ima dovoljnu sposobnost generalizacije i da skup za obuku ne sadrži anomalne vrijednosti.

9) Ispitivanja modela

Pristupimo problemu traženja anomalija kao problemu traženja preporuka. Rastavimo našu matricu značajki pomoću SVD-a ili strojeva za faktorizaciju i uzmimo vrijednosti u novoj matrici koje se značajno razlikuju od izvornih kao nenormalne.

9 pristupa za otkrivanje anomalija

Slika s dyakonov.org

Zaključak

U ovom smo članku pregledali glavne pristupe otkrivanju anomalija.

Pronalaženje anomalija se na mnoge načine može nazvati umjetnošću. Ne postoji idealan algoritam ili pristup čijom primjenom se rješavaju svi problemi. Češće se koristi skup metoda za rješavanje određenog slučaja. Detekcija anomalija provodi se korištenjem jednoklasnih strojeva potpornih vektora, izolacijskih šuma, metričkih i klasterskih metoda, kao i korištenjem glavnih komponenti i predviđanja vremenskih serija.

Ako znate druge metode, napišite o njima u komentarima na članak.

Izvor: www.habr.com

Dodajte komentar