9 būdai aptikti anomalijas

В ankstesnis straipsnis kalbėjome apie laiko eilučių prognozavimą. Logiškas tęsinys būtų straipsnis apie anomalijų nustatymą.

taikymas

Anomalijų aptikimas naudojamas tokiose srityse kaip:

1) Įrangos gedimų numatymas

Taigi 2010 m. Irano centrifugas užpuolė Stuxnet virusas, kuris įjungė įrangą į neoptimalų darbą ir išjungė dalį įrangos dėl pagreitėjusio susidėvėjimo.

Jei įrenginyje būtų buvę naudojami anomalijų aptikimo algoritmai, gedimo situacijos būtų buvę galima išvengti.

9 būdai aptikti anomalijas

Įrenginių veikimo anomalijų paieška naudojama ne tik branduolinėje pramonėje, bet ir metalurgijoje bei orlaivių turbinų eksploatacijoje. Ir kitose srityse, kur nuspėjamosios diagnostikos naudojimas yra pigesnis nei galimi nuostoliai dėl nenuspėjamo gedimo.

2) Sukčiavimo numatymas

Jei pinigai nuimami iš kortelės, kurią naudojate Podolske Albanijoje, operacijas gali tekti papildomai tikrinti.

3) Nenormalių vartotojų modelių nustatymas

Jei kai kurie klientai elgiasi neįprastai, gali kilti problema, kurios jūs nežinote.

4) Nenormalios paklausos ir apkrovos nustatymas

Jei pardavimai FMCG parduotuvėje nukrito žemiau prognozės pasikliautinojo intervalo, verta rasti to, kas vyksta, priežastį.

Anomalijų nustatymo metodai

1) Palaikykite vektorinį įrenginį su vienos klasės vienos klasės SVM

Tinka, kai treniruočių rinkinio duomenys yra normaliai pasiskirstę, tačiau testų rinkinyje yra nukrypimų.

Vienos klasės atramos vektoriaus mašina aplink pradžią sukonstruoja netiesinį paviršių. Galima nustatyti ribą, kuriai esant duomenys laikomi anomaliais.

Remiantis mūsų DATA4 komandos patirtimi, One-Class SVM yra dažniausiai naudojamas algoritmas sprendžiant anomalijų nustatymo problemą.

9 būdai aptikti anomalijas

2) Miško izoliavimo metodas

Taikant „atsitiktinį“ medžių konstravimo metodą, emisijos į lapus pateks ankstyvoje stadijoje (negiliame medžio gylyje), t.y. emisijas lengviau „izoliuoti“. Anomalinių verčių išskyrimas įvyksta pirmose algoritmo iteracijose.

9 būdai aptikti anomalijas

3) Elipsinė gaubė ir statistiniai metodai

Naudojamas, kai duomenys paskirstomi įprastai. Kuo matavimas arčiau skirstinių mišinio uodegos, tuo reikšmė anomalesnė.

Kiti statistiniai metodai taip pat gali būti įtraukti į šią klasę.

9 būdai aptikti anomalijas

9 būdai aptikti anomalijas
Vaizdas iš dyakonov.org

4) Metriniai metodai

Metodai apima tokius algoritmus kaip k-arčiausiai kaimynai, k-artimiausias kaimynas, ABOD (kampu pagrįstas išskirtinių parametrų aptikimas) arba LOF (vietinis išorinių parametrų faktorius).

Tinka, jei atstumas tarp charakteristikų verčių yra lygiavertis arba normalizuotas (kad nebūtų matuojamas boa susitraukimas papūgose).

K-arčiausių kaimynų algoritmas daro prielaidą, kad normaliosios reikšmės yra tam tikrame daugiamatės erdvės regione, o atstumas iki anomalijų bus didesnis nei iki atskiriančios hiperplokštumos.

9 būdai aptikti anomalijas

5) Klasteriniai metodai

Klasterių metodų esmė yra ta, kad jei reikšmė yra daugiau nei tam tikra dydžiu nuo klasterio centrų, reikšmė gali būti laikoma anomaalia.

Svarbiausia yra naudoti algoritmą, kuris teisingai sugrupuoja duomenis, o tai priklauso nuo konkrečios užduoties.

9 būdai aptikti anomalijas

6) Pagrindinio komponento metodas

Tinka ten, kur išryškintos didžiausio sklaidos kitimo kryptys.

7) Algoritmai, pagrįsti laiko eilučių prognozavimu

Idėja yra ta, kad jei vertė nepatenka į numatymo pasikliautinąjį intervalą, vertė laikoma anomaalia. Norint numatyti laiko eilutę, naudojami tokie algoritmai kaip trigubas išlyginimas, S(ARIMA), padidinimas ir kt.

Laiko eilučių prognozavimo algoritmai buvo aptarti ankstesniame straipsnyje.

9 būdai aptikti anomalijas

8) Prižiūrimas mokymasis (regresija, klasifikacija)

Jei leidžia duomenys, naudojame algoritmus nuo tiesinės regresijos iki pasikartojančių tinklų. Išmatuokime skirtumą tarp prognozės ir tikrosios vertės ir padarykime išvadą, kiek duomenys nukrypsta nuo normos. Svarbu, kad algoritmas turėtų pakankamai apibendrinimo galimybių ir kad mokymo rinkinyje nebūtų anomalių verčių.

9) Modelių bandymai

Anomalijų paieškos problemą prižiūrėkime kaip rekomendacijų paieškos problemą. Išskaidykime savo funkcijų matricą naudodami SVD arba faktorizavimo mašinas ir laikykime naujosios matricos reikšmes, kurios gerokai skiriasi nuo pradinių, kaip anomaalias.

9 būdai aptikti anomalijas

Vaizdas iš dyakonov.org

išvada

Šiame straipsnyje apžvelgėme pagrindinius anomalijų aptikimo būdus.

Anomalijų radimas daugeliu atžvilgių gali būti vadinamas menu. Nėra idealaus algoritmo ar požiūrio, kurio naudojimas išspręstų visas problemas. Dažniau konkrečiam atvejui išspręsti naudojamas metodų rinkinys. Anomalijų aptikimas atliekamas naudojant vienos klasės paramos vektorių mašinas, izoliuojant miškus, metrinius ir klasterinius metodus, taip pat naudojant pagrindinių komponentų ir laiko eilučių prognozavimą.

Jei žinote kitus metodus, parašykite apie juos straipsnio komentaruose.

Šaltinis: www.habr.com

Добавить комментарий