9 lähenemisviisi kõrvalekallete tuvastamiseks

В Eelmine artikkel rääkisime aegridade prognoosimisest. Loogiline jätk oleks anomaaliate tuvastamise artikkel.

Taotlus

Anomaaliate tuvastamist kasutatakse sellistes valdkondades nagu:

1) Seadmete rikete ennustamine

Nii ründas 2010. aastal Iraani tsentrifuuge Stuxneti viirus, mis pani seadmed ebaoptimaalsele tööle ja lülitas osa seadmeid kiirenenud kulumise tõttu välja.

Kui seadmetes oleks kasutatud anomaalia tuvastamise algoritme, oleks rikkeid saanud vältida.

9 lähenemisviisi kõrvalekallete tuvastamiseks

Anomaaliate otsimist seadmete töös ei kasutata mitte ainult tuumatööstuses, vaid ka metallurgias ja lennukiturbiinide töös. Ja teistes valdkondades, kus ennustava diagnostika kasutamine on odavam kui ettearvamatust rikkest tingitud võimalikud kahjud.

2) Pettuste ennustamine

Kui Albaanias Podolskis kasutatavalt kaardilt võetakse raha välja, võib olla vaja tehinguid täiendavalt kontrollida.

3) Ebanormaalsete tarbimisharjumuste tuvastamine

Kui mõned kliendid käituvad ebatavaliselt, võib tegemist olla probleemiga, millest te ei tea.

4) Ebatavalise nõudluse ja koormuse tuvastamine

Kui müük FMCG kaupluses on langenud alla prognoosi usaldusvahemiku, tasub leida toimuva põhjus.

Lähenemisviisid kõrvalekallete tuvastamiseks

1) Toetage vektormasinat ühe klassi üheklassilise SVM-iga

Sobib, kui treeningkomplekti andmed järgivad normaaljaotust, kuid testikomplekt sisaldab kõrvalekaldeid.

Üheklassiline tugivektori masin konstrueerib lähtepunkti ümber mittelineaarse pinna. Võimalik on seada piirmäär, mille puhul andmeid peetakse anomaalseteks.

Meie DATA4 meeskonna kogemuste põhjal on One-Class SVM kõige sagedamini kasutatav algoritm anomaaliate leidmise probleemi lahendamiseks.

9 lähenemisviisi kõrvalekallete tuvastamiseks

2) Metsa isoleerimise meetod

Puude ehitamise “juhusliku” meetodi korral satuvad heitmed lehtedele juba varajases staadiumis (puu madalal sügavusel), s.o. heitmeid on lihtsam "isoleerida". Anomaalsete väärtuste eraldamine toimub algoritmi esimestel iteratsioonidel.

9 lähenemisviisi kõrvalekallete tuvastamiseks

3) Elliptiline mähisjoon ja statistilised meetodid

Kasutatakse siis, kui andmed on normaalselt jaotatud. Mida lähemal on mõõtmine jaotuste segu sabale, seda anomaalsem on väärtus.

Sellesse klassi võib lisada ka muid statistilisi meetodeid.

9 lähenemisviisi kõrvalekallete tuvastamiseks

9 lähenemisviisi kõrvalekallete tuvastamiseks
Pilt saidilt dyakonov.org

4) Meetrilised meetodid

Meetodid hõlmavad selliseid algoritme nagu k-lähimad naabrid, k-lähim naaber, ABOD (nurgapõhine kõrvalekallete tuvastamine) või LOF (kohalik kõrvalekalletegur).

Sobib, kui karakteristikute väärtuste vaheline kaugus on samaväärne või normaliseeritud (et mitte mõõta papagoidel boa-konstriktorit).

K-lähimate naabrite algoritm eeldab, et normaalväärtused asuvad mitmemõõtmelise ruumi teatud piirkonnas ja kaugus kõrvalekalleteni on suurem kui eraldava hüpertasandini.

9 lähenemisviisi kõrvalekallete tuvastamiseks

5) Klastermeetodid

Klastrimeetodite olemus seisneb selles, et kui väärtus on klastri keskustest rohkem kui teatud summa kaugusel, võib väärtust pidada anomaalseks.

Peaasi on kasutada andmeid õigesti rühmitavat algoritmi, mis sõltub konkreetsest ülesandest.

9 lähenemisviisi kõrvalekallete tuvastamiseks

6) Põhikomponendi meetod

Sobib sinna, kus on esile tõstetud dispersiooni suurima muutuse suunad.

7) Algoritmid, mis põhinevad aegridade prognoosimisel

Idee seisneb selles, et kui väärtus jääb ennustuse usaldusvahemikust välja, loetakse väärtus anomaalseks. Aegrea ennustamiseks kasutatakse selliseid algoritme nagu triple smoothing, S(ARIMA), boosting jne.

Aegridade prognoosimise algoritme käsitleti eelmises artiklis.

9 lähenemisviisi kõrvalekallete tuvastamiseks

8) Juhendatud õpe (regressioon, klassifitseerimine)

Kui andmed lubavad, kasutame algoritme, mis ulatuvad lineaarsest regressioonist korduvate võrkudeni. Mõõdame ennustuse ja tegeliku väärtuse erinevust ning teeme järelduse, mil määral andmed normist kõrvale kalduvad. Oluline on, et algoritmil oleks piisav üldistusvõime ja treeningkomplekt ei sisaldaks anomaalseid väärtusi.

9) Mudelkatsed

Lähenegem anomaaliate otsimise probleemile kui soovituste otsimise probleemile. Dekomponeerime oma funktsioonimaatriksi SVD või faktoriseerimismasinate abil ja võtame uue maatriksi väärtused, mis erinevad oluliselt algsetest, anomaalseteks.

9 lähenemisviisi kõrvalekallete tuvastamiseks

Pilt saidilt dyakonov.org

Järeldus

Käesolevas artiklis vaatlesime anomaaliate tuvastamise peamisi lähenemisviise.

Anomaaliate leidmist võib paljuski nimetada kunstiks. Pole olemas ideaalset algoritmi või lähenemist, mille kasutamine lahendab kõik probleemid. Konkreetse juhtumi lahendamiseks kasutatakse sagedamini meetodite komplekti. Anomaaliate tuvastamiseks kasutatakse ühe klassi tugivektori masinaid, eraldades metsi, meetermõõdustiku ja klastri meetodeid, samuti põhikomponentide ja aegridade prognoosimist.

Kui teate muid meetodeid, kirjutage neist artikli kommentaarides.

Allikas: www.habr.com

Lisa kommentaar