В
Sovellus
Poikkeamien havaitsemista käytetään esimerkiksi seuraavilla alueilla:
1) Laitevikojen ennustaminen
Niinpä vuonna 2010 Stuxnet-virus hyökkäsi iranilaisten sentrifugien kimppuun, mikä asetti laitteet epäoptimaaliseen toimintaan ja sammutti osan laitteista kiihtyneen kulumisen vuoksi.
Jos laitteessa olisi käytetty poikkeamien havaitsemisalgoritmeja, vikatilanne olisi voitu välttää.
Laitteiden toiminnan poikkeavuuksien etsintää ei käytetä vain ydinteollisuudessa, vaan myös metallurgiassa ja lentokoneiden turbiinien toiminnassa. Ja muilla alueilla, joilla ennustavan diagnostiikan käyttö on halvempaa kuin arvaamattomasta viasta johtuvat mahdolliset häviöt.
2) Petoksen ennustaminen
Jos Podolskissa Albaniassa käyttämältäsi kortilta nostetaan rahaa, tapahtumat saattavat joutua tarkistamaan lisää.
3) Poikkeavien kulutustottumusten tunnistaminen
Jos jotkut asiakkaat käyttäytyvät epänormaalisti, kyseessä voi olla ongelma, jota et ole tietoinen.
4) Epänormaalin kysynnän ja kuormituksen tunnistaminen
Jos FMCG-liikkeen myynti on pudonnut ennusteen luottamusvälin alapuolelle, on syytä selvittää tapahtuman syy.
Lähestymistavat poikkeavuuksien tunnistamiseen
1) Tuki vektorikonetta yhden luokan yhden luokan SVM:llä
Sopii, kun harjoitusjoukon tiedot noudattavat normaalijakaumaa, mutta testisarjassa on poikkeamia.
Yksiluokkainen tukivektorikone rakentaa epälineaarisen pinnan origon ympärille. On mahdollista asettaa raja, jonka tietoja pidetään poikkeavina.
DATA4-tiimimme kokemuksen perusteella One-Class SVM on yleisimmin käytetty algoritmi poikkeavuuksien löytämisen ongelman ratkaisemiseen.
2) Eristä metsämenetelmä
Puiden "satunnaisella" rakentamismenetelmällä päästöt tulevat lehtiin varhaisessa vaiheessa (puun matalassa syvyydessä), eli. päästöt on helpompi "eristää". Poikkeavien arvojen eristäminen tapahtuu algoritmin ensimmäisissä iteraatioissa.
3) Elliptinen verhokäyrä ja tilastolliset menetelmät
Käytetään, kun tiedot on jaettu normaalisti. Mitä lähempänä mittaus on jakaumien seoksen häntää, sitä epänormaalimpi arvo on.
Tähän luokkaan voidaan sisällyttää myös muita tilastollisia menetelmiä.
Kuva: dyakonov.org
4) Metrinen menetelmät
Menetelmiin kuuluvat algoritmit, kuten k-lähin naapuri, k-lähin naapuri, ABOD (kulmapohjainen poikkeamien havaitseminen) tai LOF (local outlier factor).
Soveltuu, jos ominaisuuksien arvojen välinen etäisyys on yhtä suuri tai normalisoitu (jotta ei mitata papukaijoissa boa-kurottajaa).
K-lähimpien naapureiden algoritmi olettaa, että normaaliarvot sijaitsevat tietyllä moniulotteisen avaruuden alueella ja etäisyys poikkeavuuksiin on suurempi kuin erottavaan hypertasoon.
5) Klusterimenetelmät
Klusterimenetelmien ydin on, että jos arvo on tietyn määrän kauempana klusterikeskuksista, arvoa voidaan pitää poikkeavana.
Tärkeintä on käyttää algoritmia, joka klusteroi tiedot oikein, mikä riippuu tietystä tehtävästä.
6) Pääkomponenttimenetelmä
Sopii kohteisiin, joissa suurimman hajontamuutoksen suunnat on korostettu.
7) Aikasarjaennusteisiin perustuvat algoritmit
Ajatuksena on, että jos arvo putoaa ennusteen luottamusvälin ulkopuolelle, arvoa pidetään poikkeavana. Aikasarjan ennustamiseen käytetään algoritmeja, kuten kolmois tasoitus, S(ARIMA), tehostus jne.
Aikasarjaennustusalgoritmeja käsiteltiin edellisessä artikkelissa.
8) Ohjattu oppiminen (regressio, luokittelu)
Jos data sallii, käytämme algoritmeja, jotka vaihtelevat lineaarisesta regressiosta toistuviin verkkoihin. Mittaataan ennusteen ja todellisen arvon välinen ero ja tehdään johtopäätös, missä määrin data poikkeaa normista. On tärkeää, että algoritmilla on riittävä yleistyskyky ja että opetusjoukko ei sisällä poikkeavia arvoja.
9) Mallikokeet
Lähestytään poikkeamien etsimisen ongelmaa suositusten etsimisen ongelmana. Hajotetaan ominaisuusmatriisimme SVD- tai faktorointikoneilla ja otetaan uuden matriisin arvot, jotka eroavat merkittävästi alkuperäisistä, poikkeaviksi.
Kuva: dyakonov.org
Johtopäätös
Tässä artikkelissa käymme läpi tärkeimmät lähestymistavat poikkeamien havaitsemiseen.
Poikkeavuuksien löytämistä voidaan monella tapaa kutsua taiteeksi. Ei ole olemassa ideaalista algoritmia tai lähestymistapaa, jonka käyttö ratkaisee kaikki ongelmat. Useammin tietyn tapauksen ratkaisemiseksi käytetään joukkoa menetelmiä. Poikkeamien havaitseminen tehdään yhden luokan tukivektorikoneilla, eristäen metsiä, metri- ja klusterimenetelmiä sekä pääkomponentteja ja aikasarjaennusteita.
Jos tiedät muita menetelmiä, kirjoita niistä artikkelin kommentteihin.
Lähde: will.com