В
Aplicació
La detecció d'anomalies s'utilitza en àrees com ara:
1) Predicció d'avaries d'equips
Així, l'any 2010, les centrífugues iranianes van ser atacades pel virus Stuxnet, que va posar l'equip a un funcionament no òptim i va desactivar alguns dels equips a causa del desgast accelerat.
Si s'haguessin utilitzat algorismes de detecció d'anomalies a l'equip, es podria haver evitat la situació de fallada.
La recerca d'anomalies en el funcionament dels equips s'utilitza no només en la indústria nuclear, sinó també en la metal·lúrgia i el funcionament de les turbines d'avions. I en altres àrees on l'ús del diagnòstic predictiu és més econòmic que les possibles pèrdues per avaria imprevisible.
2) Predicció del frau
Si es retiren diners de la targeta que utilitzeu a Podolsk a Albània, és possible que s'hagin de revisar més les transaccions.
3) Identificació de patrons de consum anormals
Si alguns clients presenten un comportament anormal, pot haver-hi un problema del qual no coneixeu.
4) Identificació de la demanda i càrrega anormals
Si les vendes en una botiga de gran consum han baixat per sota de l'interval de confiança de la previsió, val la pena trobar el motiu del que està passant.
Aproximacions per identificar anomalies
1) Suport de la màquina vectorial amb una classe SVM d'una classe
Adequat quan les dades del conjunt d'entrenament segueixen una distribució normal, però el conjunt de prova conté anomalies.
La màquina vectorial de suport d'una classe construeix una superfície no lineal al voltant de l'origen. És possible establir un límit de tall per al qual les dades es consideren anòmals.
Basat en l'experiència del nostre equip DATA4, One-Class SVM és l'algorisme més utilitzat per resoldre el problema de trobar anomalies.
2) Mètode de bosc aïllat
Amb el mètode "atzar" de construcció d'arbres, les emissions entraran a les fulles en les primeres etapes (a poca profunditat de l'arbre), és a dir. les emissions són més fàcils d'"aïllar". L'aïllament de valors anòmals es produeix en les primeres iteracions de l'algorisme.
3) Embolcall el·líptic i mètodes estadístics
S'utilitza quan les dades es distribueixen normalment. Com més a prop estigui la mesura de la cua de la barreja de distribucions, més anòmal és el valor.
També es poden incloure altres mètodes estadístics en aquesta classe.
Imatge de dyakonov.org
4) Mètodes mètrics
Els mètodes inclouen algorismes com ara k-veïns més propers, k-veïns més propers, ABOD (detecció de valors atípics basat en angle) o LOF (factor atípic local).
Adequat si la distància entre els valors de les característiques són equivalents o normalitzades (per no mesurar una boa constrictor en lloros).
L'algoritme de k-veïns més propers suposa que els valors normals es troben en una determinada regió de l'espai multidimensional i la distància a les anomalies serà més gran que a l'hiperpla separador.
5) Mètodes de clústers
L'essència dels mètodes de clúster és que si un valor està més d'una certa distància dels centres de clúster, el valor es pot considerar anòmal.
El més important és utilitzar un algorisme que agrupa correctament les dades, que depèn de la tasca específica.
6) Mètode dels components principals
Adequat on es destaquen les direccions de major canvi de dispersió.
7) Algorismes basats en la previsió de sèries temporals
La idea és que si un valor queda fora de l'interval de confiança de predicció, el valor es considera anòmal. Per predir una sèrie temporal s'utilitzen algorismes com el triple suavització, S(ARIMA), boosting, etc.
Els algorismes de previsió de sèries temporals es van discutir a l'article anterior.
8) Aprenentatge supervisat (regressió, classificació)
Si les dades ho permeten, utilitzem algorismes que van des de la regressió lineal fins a les xarxes recurrents. Mesurem la diferència entre la predicció i el valor real i traurem una conclusió fins a quin punt les dades es desvien de la norma. És important que l'algoritme tingui prou capacitat de generalització i que el conjunt d'entrenament no contingui valors anòmals.
9) Proves de model
Abordem el problema de la recerca d'anomalies com un problema de la recerca de recomanacions. Anem a descompondre la nostra matriu de característiques mitjançant SVD o màquines de factorització, i prenem com a anòmals els valors de la nova matriu que són significativament diferents dels originals.
Imatge de dyakonov.org
Conclusió
En aquest article, hem revisat els principals enfocaments per a la detecció d'anomalies.
Trobar anomalies es pot anomenar de moltes maneres un art. No hi ha cap algorisme ni enfocament ideal, l'ús del qual resol tots els problemes. Més sovint s'utilitza un conjunt de mètodes per resoldre un cas concret. La detecció d'anomalies es realitza mitjançant màquines de vectors de suport d'una classe, aïllant boscos, mètodes mètrics i de clúster, així com utilitzant components principals i previsió de sèries temporals.
Si coneixeu altres mètodes, escriu-ne als comentaris de l'article.
Font: www.habr.com