В
Aplicación
A detección de anomalías úsase en áreas como:
1) Predición de avarías de equipos
Así, en 2010, as centrífugas iranianas foron atacadas polo virus Stuxnet, que fixo que o equipo funcionase de forma non óptima e desactivou algúns dos equipos debido ao desgaste acelerado.
Se no equipo se utilizaran algoritmos de detección de anomalías, poderíase evitar a situación de avaría.
A busca de anomalías no funcionamento dos equipos úsase non só na industria nuclear, senón tamén na metalurxia e no funcionamento de turbinas de avións. E noutras áreas onde o uso de diagnósticos preditivos é máis barato que as posibles perdas por avaría imprevisible.
2) Predición de fraude
Se se retira diñeiro da tarxeta que usas en Podolsk en Albania, é posible que teñas que revisar máis as transaccións.
3) Identificación de patróns anormais de consumo
Se algúns clientes presentan un comportamento anormal, pode haber un problema que non teña coñecemento.
4) Identificación de demanda e carga anormais
Se as vendas nunha tenda de gran consumo caeron por debaixo do intervalo de confianza da previsión, paga a pena atopar a razón do que está a suceder.
Enfoques para identificar anomalías
1) Soporta máquina vectorial con SVM de clase única
Axeitado cando os datos do conxunto de adestramento seguen unha distribución normal, pero o conxunto de proba contén anomalías.
A máquina vectorial de apoio dunha clase constrúe unha superficie non lineal arredor da orixe. É posible establecer un límite de corte para o cal os datos se consideran anómalos.
Baseándose na experiencia do noso equipo de DATA4, One-Class SVM é o algoritmo máis utilizado para resolver o problema de atopar anomalías.
2) Método forestal illado
Co método "aleatorio" de construción de árbores, as emisións entrarán nas follas en fases iniciais (a pouca profundidade da árbore), é dicir. as emisións son máis fáciles de "illar". O illamento de valores anómalos prodúcese nas primeiras iteracións do algoritmo.
3) Envolvente elíptica e métodos estatísticos
Utilízase cando os datos se distribúen normalmente. Canto máis preto estea a medida da cola da mestura de distribucións, máis anómalo será o valor.
Tamén se poden incluír nesta clase outros métodos estatísticos.
Imaxe de dyakonov.org
4) Métodos métricos
Os métodos inclúen algoritmos como k-nearest neighbors, k-nearest neighbor, ABOD (detección de valores atípicos baseados en ángulos) ou LOF (factor atípico local).
Axeitada se a distancia entre os valores nas características é equivalente ou normalizada (para non medir unha boa constrictor en loros).
O algoritmo de k-veciños máis próximos asume que os valores normais están situados nunha determinada rexión do espazo multidimensional e a distancia ás anomalías será maior que ao hiperplano de separación.
5) Métodos de agrupación
A esencia dos métodos de clúster é que se un valor está a máis dunha certa cantidade de distancia dos centros de clúster, o valor pode considerarse anómalo.
O principal é usar un algoritmo que agrupa correctamente os datos, que depende da tarefa específica.
6) Método dos compoñentes principais
Axeitada onde se resaltan as direccións de maior cambio na dispersión.
7) Algoritmos baseados na previsión de series temporais
A idea é que se un valor queda fóra do intervalo de confianza da predición, o valor considérase anómalo. Para predicir unha serie temporal utilízanse algoritmos como o triple suavizado, S(ARIMA), boosting, etc.
Os algoritmos de predición de series temporais foron discutidos no artigo anterior.
8) Aprendizaxe supervisada (regresión, clasificación)
Se os datos o permiten, utilizamos algoritmos que van desde a regresión lineal ata as redes recorrentes. Midamos a diferenza entre a predición e o valor real e saquemos unha conclusión en que medida os datos se desvían da norma. É importante que o algoritmo teña suficiente capacidade de xeneralización e que o conxunto de adestramento non conteña valores anómalos.
9) Probas de modelos
Abordemos o problema da busca de anomalías como un problema de busca de recomendacións. Descompoñamos a nosa matriz de características usando SVD ou máquinas de factorización e tomemos como anómalos os valores da nova matriz que son significativamente diferentes dos orixinais.
Imaxe de dyakonov.org
Conclusión
Neste artigo, revisamos os principais enfoques para a detección de anomalías.
Atopar anomalías de moitos xeitos pode chamarse arte. Non existe un algoritmo ou enfoque ideal, cuxo uso resolve todos os problemas. Máis a miúdo úsase un conxunto de métodos para resolver un caso específico. A detección de anomalías lévase a cabo mediante máquinas vectoriais de soporte dunha clase, illado de bosques, métodos métricos e de cluster, así como utilizando compoñentes principais e previsión de series temporais.
Se coñeces outros métodos, escribe sobre eles nos comentarios do artigo.
Fonte: www.habr.com