9 approches pour détecter les anomalies

В article précédent nous avons parlé de prévision de séries chronologiques. Une suite logique serait un article sur l'identification des anomalies.

application

La détection des anomalies est utilisée dans des domaines tels que :

1) Prédiction des pannes d'équipements

Ainsi, en 2010, les centrifugeuses iraniennes ont été attaquées par le virus Stuxnet, qui a mis les équipements en fonctionnement non optimal et a désactivé certains équipements en raison d'une usure accélérée.

Si des algorithmes de détection d’anomalies avaient été utilisés sur l’équipement, la situation de panne aurait pu être évitée.

9 approches pour détecter les anomalies

La recherche d'anomalies dans le fonctionnement des équipements est utilisée non seulement dans l'industrie nucléaire, mais aussi dans la métallurgie et dans le fonctionnement des turbines d'avions. Et dans d'autres domaines où l'utilisation de diagnostics prédictifs est moins coûteuse que d'éventuelles pertes dues à une panne imprévisible.

2) Prédiction de fraude

Si de l'argent est retiré de la carte que vous utilisez à Podolsk en Albanie, les transactions devront peut-être être vérifiées davantage.

3) Identification des modes de consommation anormaux

Si certains clients présentent un comportement anormal, il peut y avoir un problème dont vous n'avez pas conscience.

4) Identification de la demande et de la charge anormales

Si les ventes dans un magasin FMCG sont tombées en dessous de l'intervalle de confiance des prévisions, il vaut la peine de trouver la raison de ce qui se passe.

Approches pour identifier les anomalies

1) Machine à vecteurs de support avec SVM d'une classe et d'une classe

Convient lorsque les données de l'ensemble d'apprentissage suivent une distribution normale, mais que l'ensemble de test contient des anomalies.

La machine à vecteurs de support à une classe construit une surface non linéaire autour de l'origine. Il est possible de définir une limite pour laquelle les données sont considérées comme anormales.

Basé sur l'expérience de notre équipe DATA4, One-Class SVM est l'algorithme le plus couramment utilisé pour résoudre le problème de recherche d'anomalies.

9 approches pour détecter les anomalies

2) Méthode d’isolement de la forêt

Avec la méthode « aléatoire » de construction des arbres, les émissions pénétreront dans les feuilles dès les premiers stades (à faible profondeur de l’arbre), c’est-à-dire les émissions sont plus faciles à « isoler ». L'isolement des valeurs anormales se produit lors des premières itérations de l'algorithme.

9 approches pour détecter les anomalies

3) Enveloppe elliptique et méthodes statistiques

Utilisé lorsque les données sont normalement distribuées. Plus la mesure est proche de la queue du mélange de distributions, plus la valeur est anormale.

D'autres méthodes statistiques peuvent également être incluses dans cette classe.

9 approches pour détecter les anomalies

9 approches pour détecter les anomalies
Image de dyakonov.org

4) Méthodes métriques

Les méthodes incluent des algorithmes tels que les k-voisins les plus proches, les k-voisins les plus proches, ABOD (détection de valeurs aberrantes basée sur l'angle) ou LOF (facteur de valeurs aberrantes local).

Convient si les distances entre les valeurs dans les caractéristiques sont équivalentes ou normalisées (afin de ne pas mesurer un boa constrictor chez les perroquets).

L'algorithme des k-voisins les plus proches suppose que les valeurs normales sont situées dans une certaine région de l'espace multidimensionnel et que la distance aux anomalies sera plus grande qu'à l'hyperplan de séparation.

9 approches pour détecter les anomalies

5) Méthodes de cluster

L’essence des méthodes de cluster est que si une valeur est éloignée de plus d’un certain point des centres du cluster, la valeur peut être considérée comme anormale.

L'essentiel est d'utiliser un algorithme qui regroupe correctement les données, en fonction de la tâche spécifique.

9 approches pour détecter les anomalies

6) Méthode des composantes principales

Convient là où les directions du plus grand changement de dispersion sont mises en évidence.

7) Algorithmes basés sur la prévision de séries chronologiques

L’idée est que si une valeur se situe en dehors de l’intervalle de confiance de prédiction, elle est considérée comme anormale. Pour prédire une série temporelle, des algorithmes tels que le triple lissage, S(ARIMA), le boosting, etc. sont utilisés.

Les algorithmes de prévision de séries chronologiques ont été abordés dans l’article précédent.

9 approches pour détecter les anomalies

8) Apprentissage supervisé (régression, classification)

Si les données le permettent, nous utilisons des algorithmes allant de la régression linéaire aux réseaux récurrents. Mesurons la différence entre la prédiction et la valeur réelle et tirons une conclusion dans quelle mesure les données s'écartent de la norme. Il est important que l’algorithme ait une capacité de généralisation suffisante et que l’ensemble d’apprentissage ne contienne pas de valeurs anormales.

9) Tests sur modèle

Abordons le problème de la recherche d'anomalies comme un problème de recherche de recommandations. Décomposons notre matrice de caractéristiques à l'aide de SVD ou de machines de factorisation et considérons comme anormales les valeurs de la nouvelle matrice qui sont significativement différentes de celles d'origine.

9 approches pour détecter les anomalies

Image de dyakonov.org

Conclusion

Dans cet article, nous avons passé en revue les principales approches de détection des anomalies.

Trouver des anomalies peut, à bien des égards, être considéré comme un art. Il n’existe pas d’algorithme ou d’approche idéal dont l’utilisation résoudrait tous les problèmes. Le plus souvent, un ensemble de méthodes est utilisé pour résoudre un cas spécifique. La détection des anomalies est effectuée à l'aide de machines à vecteurs de support d'une classe, en isolant les forêts, en méthodes métriques et en cluster, ainsi qu'en utilisant les composants principaux et la prévision de séries chronologiques.

Si vous connaissez d'autres méthodes, écrivez-en dans les commentaires de l'article.

Source: habr.com

Ajouter un commentaire