9 pristupa za otkrivanje anomalija

В prethodni članak razgovarali smo o predviđanju vremenskih serija. Logičan nastavak bi bio članak o identifikaciji anomalija.

Aplikacija

Detekcija anomalija se koristi u područjima kao što su:

1) Predviđanje kvarova opreme

Tako je 2010. godine iranske centrifuge napao virus Stuxnet, koji je opremu postavio u neoptimalan rad i onesposobio dio opreme zbog ubrzanog habanja.

Da su na opremi korišteni algoritmi za otkrivanje anomalija, situacija kvara bi se mogla izbjeći.

9 pristupa za otkrivanje anomalija

Potraga za anomalijama u radu opreme koristi se ne samo u nuklearnoj industriji, već iu metalurgiji i radu avionskih turbina. I u drugim područjima gdje je korištenje prediktivne dijagnostike jeftinije od mogućih gubitaka zbog nepredvidivog kvara.

2) Predviđanje prevare

Ako se novac povuče sa kartice koju koristite u Podolsku u Albaniji, transakcije će možda trebati dodatno provjeriti.

3) Identifikacija abnormalnih potrošačkih obrazaca

Ako neki kupci pokažu nenormalno ponašanje, možda postoji problem kojeg niste svjesni.

4) Identifikacija nenormalne potražnje i opterećenja

Ako je prodaja u FMCG radnji pala ispod intervala povjerenja prognoze, vrijedi pronaći razlog za ono što se događa.

Pristupi identifikaciji anomalija

1) Podrška vektorska mašina sa jednom klasom jednoklasnog SVM-a

Pogodno kada podaci u skupu za obuku prate normalnu distribuciju, ali testni skup sadrži anomalije.

Jednoklasna mašina vektora podrške konstruiše nelinearnu površinu oko ishodišta. Moguće je postaviti graničnu granicu za koju se podaci smatraju anomalnim.

Na osnovu iskustva našeg DATA4 tima, One-Class SVM je najčešće korišćeni algoritam za rešavanje problema detekcije anomalija.

9 pristupa za otkrivanje anomalija

2) Metoda izolacije šume

Kod „slučajne“ metode građenja stabala, emisije će ući u lišće u ranim fazama (na maloj dubini drveta), tj. emisije je lakše “izolirati”. Izolacija anomalnih vrijednosti javlja se u prvim iteracijama algoritma.

9 pristupa za otkrivanje anomalija

3) Eliptički omotač i statističke metode

Koristi se kada se podaci normalno distribuiraju. Što je mjerenje bliže repu mješavine distribucija, to je vrijednost anomalnija.

U ovu klasu mogu se uključiti i druge statističke metode.

9 pristupa za otkrivanje anomalija

9 pristupa za otkrivanje anomalija
Slika sa dyakonov.org

4) Metričke metode

Metode uključuju algoritme kao što su k-najbliži susjedi, k-najbliži susjedi, ABOD (detekcija odstupanja na osnovu ugla) ili LOF (faktor lokalnog odstupanja).

Pogodno ako je udaljenost između vrijednosti u karakteristikama ekvivalentna ili normalizirana (kako se ne bi mjerio boa constrictor kod papagaja).

Algoritam k-najbližih susjeda pretpostavlja da se normalne vrijednosti nalaze u određenom području višedimenzionalnog prostora, a udaljenost do anomalija će biti veća nego do hiperravnine koja razdvaja.

9 pristupa za otkrivanje anomalija

5) Klaster metode

Suština metoda klastera je da ako je vrijednost više od određenog iznosa udaljena od centara klastera, vrijednost se može smatrati anomalnom.

Glavna stvar je koristiti algoritam koji ispravno grupiše podatke, što ovisi o konkretnom zadatku.

9 pristupa za otkrivanje anomalija

6) Metoda glavne komponente

Pogodno tamo gdje su istaknuti pravci najveće promjene disperzije.

7) Algoritmi zasnovani na predviđanju vremenskih serija

Ideja je da ako vrijednost padne izvan intervala pouzdanosti predviđanja, vrijednost se smatra anomalnom. Za predviđanje vremenske serije koriste se algoritmi kao što su trostruko izglađivanje, S(ARIMA), pojačavanje itd.

Algoritmi za predviđanje vremenskih serija razmatrani su u prethodnom članku.

9 pristupa za otkrivanje anomalija

8) Učenje pod nadzorom (regresija, klasifikacija)

Ako podaci dozvoljavaju, koristimo algoritme u rasponu od linearne regresije do rekurentnih mreža. Izmjerimo razliku između predviđanja i stvarne vrijednosti i zaključimo u kojoj mjeri podaci odstupaju od norme. Važno je da algoritam ima dovoljnu sposobnost generalizacije i da skup za obuku ne sadrži anomalne vrijednosti.

9) Testovi modela

Pristupimo problemu traženja anomalija kao problemu traženja preporuka. Hajde da dekomponujemo našu matricu karakteristika koristeći SVD ili mašine za faktorizaciju, i uzmimo vrednosti u novoj matrici koje se značajno razlikuju od originalnih kao anomalne.

9 pristupa za otkrivanje anomalija

Slika sa dyakonov.org

zaključak

U ovom članku pregledali smo glavne pristupe otkrivanju anomalija.

Pronalaženje anomalija se na mnogo načina može nazvati umjetnošću. Ne postoji idealan algoritam ili pristup čija upotreba rješava sve probleme. Češće se koristi skup metoda za rješavanje konkretnog slučaja. Detekcija anomalija se vrši korišćenjem jednoklasnih mašina za vektore podrške, izolacionih šuma, metričkih i klaster metoda, kao i korišćenjem glavnih komponenti i predviđanja vremenskih serija.

Ako znate druge metode, pišite o njima u komentarima na članak.

izvor: www.habr.com

Dodajte komentar