В
Primjena
Otkrivanje anomalija koristi se u područjima kao što su:
1) Predviđanje kvarova opreme
Tako je 2010. godine iranske centrifuge napao virus Stuxnet koji je opremu postavio na neoptimalan rad i onesposobio dio opreme zbog ubrzanog trošenja.
Da su algoritmi za otkrivanje anomalija korišteni na opremi, situacija kvara se mogla izbjeći.
Potraga za anomalijama u radu opreme koristi se ne samo u nuklearnoj industriji, već iu metalurgiji i radu zrakoplovnih turbina. I u drugim područjima gdje je uporaba prediktivne dijagnostike jeftinija od mogućih gubitaka zbog nepredvidivog kvara.
2) Predviđanje prijevare
Ako je novac podignut s kartice koju koristite u Podolsku u Albaniji, transakcije će možda trebati dodatno provjeriti.
3) Identifikacija abnormalnih obrazaca potrošača
Ako neki kupci pokazuju neuobičajeno ponašanje, možda postoji problem kojeg niste svjesni.
4) Identifikacija neuobičajene potražnje i opterećenja
Ako je prodaja u trgovini široke potrošnje pala ispod intervala pouzdanosti prognoze, vrijedi pronaći razlog za ono što se događa.
Pristupi prepoznavanju anomalija
1) Vektorski stroj podrške s jednom klasom SVM jedne klase
Prikladno kada podaci u skupu za vježbanje slijede normalnu distribuciju, ali testni skup sadrži anomalije.
Stroj jednorazrednog potpornog vektora konstruira nelinearnu površinu oko ishodišta. Moguće je postaviti graničnu granicu za koju se podaci smatraju nenormalnim.
Na temelju iskustva našeg DATA4 tima, One-Class SVM je najčešće korišteni algoritam za rješavanje problema pronalaženja anomalija.
2) Metoda izolirane šume
Kod “nasumične” metode izgradnje stabala, emisije će ući u lišće u ranim fazama (na maloj dubini stabla), tj. emisije je lakše "izolirati". Izolacija anomalnih vrijednosti događa se u prvim iteracijama algoritma.
3) Eliptična ovojnica i statističke metode
Koristi se kada su podaci normalno distribuirani. Što je mjerenje bliže repu mješavine distribucija, to je vrijednost nenormalnija.
Druge statističke metode također mogu biti uključene u ovu klasu.
Slika s dyakonov.org
4) Metrijske metode
Metode uključuju algoritme kao što su k-najbliži susjedi, k-najbliži susjed, ABOD (otkrivanje ekstremnih vrijednosti temeljeno na kutu) ili LOF (faktor lokalnih ekstremnih vrijednosti).
Prikladno ako je udaljenost između vrijednosti u karakteristikama ekvivalentna ili normalizirana (kako se ne bi mjerio boa constrictor u papigama).
Algoritam k-najbližih susjeda pretpostavlja da se normalne vrijednosti nalaze u određenom području višedimenzionalnog prostora, a udaljenost do anomalija bit će veća nego do razdvajajuće hiperravnine.
5) Metode klastera
Bit metoda klastera je da ako je vrijednost više od određene udaljenosti od središta klastera, vrijednost se može smatrati anomalnom.
Glavna stvar je koristiti algoritam koji ispravno grupira podatke, što ovisi o specifičnom zadatku.
6) Metoda glavne komponente
Prikladno tamo gdje su istaknuti smjerovi najveće promjene u disperziji.
7) Algoritmi temeljeni na predviđanju vremenskih serija
Ideja je da ako vrijednost padne izvan intervala pouzdanosti predviđanja, vrijednost se smatra anomalnom. Za predviđanje vremenske serije koriste se algoritmi kao što su trostruko izglađivanje, S(ARIMA), boosting itd.
O algoritmima predviđanja vremenskih nizova raspravljalo se u prethodnom članku.
8) Nadzirano učenje (regresija, klasifikacija)
Ako podaci dopuštaju, koristimo algoritme u rasponu od linearne regresije do rekurentnih mreža. Izmjerimo razliku između predviđanja i stvarne vrijednosti i zaključimo u kojoj mjeri podaci odstupaju od norme. Važno je da algoritam ima dovoljnu sposobnost generalizacije i da skup za obuku ne sadrži anomalne vrijednosti.
9) Ispitivanja modela
Pristupimo problemu traženja anomalija kao problemu traženja preporuka. Rastavimo našu matricu značajki pomoću SVD-a ili strojeva za faktorizaciju i uzmimo vrijednosti u novoj matrici koje se značajno razlikuju od izvornih kao nenormalne.
Slika s dyakonov.org
Zaključak
U ovom smo članku pregledali glavne pristupe otkrivanju anomalija.
Pronalaženje anomalija se na mnoge načine može nazvati umjetnošću. Ne postoji idealan algoritam ili pristup čijom primjenom se rješavaju svi problemi. Češće se koristi skup metoda za rješavanje određenog slučaja. Detekcija anomalija provodi se korištenjem jednoklasnih strojeva potpornih vektora, izolacijskih šuma, metričkih i klasterskih metoda, kao i korištenjem glavnih komponenti i predviđanja vremenskih serija.
Ako znate druge metode, napišite o njima u komentarima na članak.
Izvor: www.habr.com