В
Uporaba
Zaznavanje anomalij se uporablja na področjih, kot so:
1) Predvidevanje okvar opreme
Tako je leta 2010 iranske centrifuge napadel virus Stuxnet, ki je opremo nastavil na neoptimalno delovanje in del opreme zaradi pospešene obrabe onesposobil.
Če bi bili na opremi uporabljeni algoritmi za odkrivanje nepravilnosti, bi se lahko izognili okvari.
Iskanje nepravilnosti v delovanju opreme se uporablja ne le v jedrski industriji, ampak tudi v metalurgiji in delovanju letalskih turbin. In na drugih področjih, kjer je uporaba prediktivne diagnostike cenejša od morebitnih izgub zaradi nepredvidljive okvare.
2) Napoved goljufij
Če je denar dvignjen s kartice, ki jo uporabljate v Podolsku v Albaniji, bo morda treba transakcije dodatno preveriti.
3) Prepoznavanje neobičajnih potrošniških vzorcev
Če se nekatere stranke obnašajo nenormalno, je morda težava, ki se je ne zavedate.
4) Identifikacija nenormalnega povpraševanja in obremenitve
Če je prodaja v trgovini FMCG padla pod interval zaupanja napovedi, je vredno poiskati razlog za to.
Pristopi k prepoznavanju anomalij
1) Podporni vektorski stroj z enim razredom One-Class SVM
Primerno, kadar podatki v učnem nizu sledijo normalni porazdelitvi, vendar testni niz vsebuje anomalije.
Enorazredni podporni vektorski stroj zgradi nelinearno površino okoli izhodišča. Možno je nastaviti mejno vrednost, za katero se podatki štejejo za nenormalne.
Na podlagi izkušenj naše ekipe DATA4 je One-Class SVM najpogosteje uporabljen algoritem za reševanje problema iskanja nepravilnosti.
2) Gozdna metoda izolacije
Pri »naključni« metodi gradnje dreves bodo emisije vstopile v liste v zgodnjih fazah (na majhni globini drevesa), tj. emisije je lažje "izolirati". Izolacija nepravilnih vrednosti se pojavi v prvih iteracijah algoritma.
3) Eliptična ovojnica in statistične metode
Uporablja se, ko so podatki normalno porazdeljeni. Bližje kot je meritev repu mešanice porazdelitev, bolj nenormalna je vrednost.
V ta razred lahko vključimo tudi druge statistične metode.
Slika iz dyakonov.org
4) Metrične metode
Metode vključujejo algoritme, kot so k-najbližji sosedi, k-najbližji sosedi, ABOD (zaznavanje odstopanj na podlagi kota) ali LOF (faktor lokalnih odstopanj).
Primerno, če je razdalja med vrednostmi v značilnostih enakovredna ali normalizirana (da ne bi merili udava pri papigah).
Algoritem k-najbližjih sosedov predpostavlja, da se normalne vrednosti nahajajo v določenem območju večdimenzionalnega prostora, razdalja do anomalij pa bo večja kot do ločevalne hiperravnine.
5) Grozdne metode
Bistvo metod grozdov je, da če je vrednost več kot določeno oddaljena od središč grozdov, se vrednost lahko šteje za nenormalno.
Glavna stvar je uporaba algoritma, ki pravilno združuje podatke, kar je odvisno od specifične naloge.
6) Metoda glavne komponente
Primerno tam, kjer so poudarjene smeri največje spremembe razpršenosti.
7) Algoritmi, ki temeljijo na napovedovanju časovnih vrst
Ideja je, da če vrednost pade izven intervala zaupanja napovedi, se vrednost šteje za nepravilno. Za napovedovanje časovne vrste se uporabljajo algoritmi, kot so trojno glajenje, S(ARIMA), boosting itd.
Algoritme za napovedovanje časovnih vrst smo obravnavali v prejšnjem članku.
8) Nadzorovano učenje (regresija, klasifikacija)
Če podatki dopuščajo, uporabljamo algoritme, ki segajo od linearne regresije do ponavljajočih se mrež. Izmerimo razliko med napovedjo in dejansko vrednostjo ter sklepamo, v kolikšni meri podatek odstopa od norme. Pomembno je, da ima algoritem zadostno sposobnost posploševanja in da učna množica ne vsebuje anomalnih vrednosti.
9) Modelni testi
K problemu iskanja anomalij pristopimo kot k problemu iskanja priporočil. Razčlenimo našo matriko funkcij z uporabo SVD ali faktorizacijskih strojev in vzemimo vrednosti v novi matriki, ki se bistveno razlikujejo od prvotnih, kot nenormalne.
Slika iz dyakonov.org
Zaključek
V tem članku smo pregledali glavne pristope k odkrivanju nepravilnosti.
Iskanje nepravilnosti lahko na več načinov imenujemo umetnost. Ne obstaja idealen algoritem ali pristop, katerega uporaba bi rešila vse težave. Pogosteje se za rešitev določenega primera uporablja niz metod. Odkrivanje anomalij se izvaja z uporabo enorazrednih podpornih vektorskih strojev, izolacijskih gozdov, metričnih in grozdnih metod ter z uporabo glavnih komponent in napovedovanja časovnih vrst.
Če poznate druge metode, pišite o njih v komentarjih k članku.
Vir: www.habr.com