В
Anwendung
Die Anomalieerkennung wird in folgenden Bereichen eingesetzt:
1) Vorhersage von Geräteausfällen
So wurden im Jahr 2010 iranische Zentrifugen vom Stuxnet-Virus befallen, was dazu führte, dass die Geräte nicht optimal funktionierten und einige der Geräte aufgrund beschleunigten Verschleißes lahmlegten.
Wenn an der Anlage Anomalieerkennungsalgorithmen eingesetzt worden wären, hätte die Ausfallsituation vermieden werden können.
Die Suche nach Anomalien beim Betrieb von Anlagen wird nicht nur in der Nuklearindustrie, sondern auch in der Metallurgie und beim Betrieb von Flugzeugturbinen eingesetzt. Und in anderen Bereichen, in denen der Einsatz prädiktiver Diagnostik günstiger ist als mögliche Verluste durch einen unvorhersehbaren Ausfall.
2) Betrugsvorhersage
Wenn Geld von der Karte abgebucht wird, die Sie in Podolsk in Albanien verwenden, müssen die Transaktionen möglicherweise noch einmal überprüft werden.
3) Identifizierung abnormaler Verbrauchermuster
Wenn einige Kunden ungewöhnliches Verhalten zeigen, liegt möglicherweise ein Problem vor, das Ihnen nicht bekannt ist.
4) Identifizierung anormaler Nachfrage und Belastung
Wenn die Umsätze in einem FMCG-Geschäft unter das Konfidenzintervall der Prognose gefallen sind, lohnt es sich, den Grund dafür zu finden.
Ansätze zur Identifizierung von Anomalien
1) Unterstützen Sie Vector Machine mit einer SVM einer Klasse
Geeignet, wenn die Daten im Trainingssatz einer Normalverteilung folgen, der Testsatz jedoch Anomalien enthält.
Die Ein-Klassen-Unterstützungsvektormaschine konstruiert eine nichtlineare Oberfläche um den Ursprung. Es ist möglich, einen Grenzwert festzulegen, ab dem Daten als anomal gelten.
Basierend auf der Erfahrung unseres DATA4-Teams ist One-Class SVM der am häufigsten verwendete Algorithmus zur Lösung des Problems der Auffindung von Anomalien.
2) Isolate-Forest-Methode
Bei der „zufälligen“ Methode der Baumkonstruktion gelangen die Emissionen bereits in einem frühen Stadium (in einer geringen Tiefe des Baumes) in die Blätter, d. h. Emissionen lassen sich leichter „isolieren“. Die Isolierung anomaler Werte erfolgt in den ersten Iterationen des Algorithmus.
3) Elliptische Hülle und statistische Methoden
Wird verwendet, wenn die Daten normalverteilt sind. Je näher die Messung am Ende der Verteilungsmischung liegt, desto anomaler ist der Wert.
Auch andere statistische Methoden können in diese Klasse einbezogen werden.
Bild von dyakonov.org
4) Metrische Methoden
Zu den Methoden gehören Algorithmen wie k-nächste Nachbarn, k-nächster Nachbar, ABOD (winkelbasierte Ausreißererkennung) oder LOF (lokaler Ausreißerfaktor).
Geeignet, wenn der Abstand zwischen den Werten in den Merkmalen äquivalent oder normalisiert ist (um bei Papageien keine Boa constrictor zu messen).
Der k-Nächste-Nachbarn-Algorithmus geht davon aus, dass sich Normalwerte in einem bestimmten Bereich des mehrdimensionalen Raums befinden und der Abstand zu Anomalien größer ist als zur trennenden Hyperebene.
5) Cluster-Methoden
Der Kern von Cluster-Methoden besteht darin, dass ein Wert als anomal betrachtet werden kann, wenn er mehr als einen bestimmten Betrag von den Clusterzentren entfernt ist.
Die Hauptsache besteht darin, einen Algorithmus zu verwenden, der die Daten korrekt gruppiert, was von der spezifischen Aufgabe abhängt.
6) Hauptkomponentenmethode
Geeignet, wenn die Richtungen der größten Dispersionsänderung hervorgehoben sind.
7) Algorithmen basierend auf Zeitreihenvorhersagen
Die Idee dahinter ist, dass ein Wert als anomal betrachtet wird, wenn er außerhalb des Prognose-Konfidenzintervalls liegt. Zur Vorhersage einer Zeitreihe werden Algorithmen wie Triple Smoothing, S(ARIMA), Boosting usw. verwendet.
Algorithmen zur Zeitreihenvorhersage wurden im vorherigen Artikel besprochen.
8) Überwachtes Lernen (Regression, Klassifizierung)
Wenn es die Daten zulassen, verwenden wir Algorithmen, die von der linearen Regression bis hin zu wiederkehrenden Netzwerken reichen. Lassen Sie uns den Unterschied zwischen der Vorhersage und dem tatsächlichen Wert messen und daraus schließen, inwieweit die Daten von der Norm abweichen. Wichtig ist, dass der Algorithmus über eine ausreichende Generalisierungsfähigkeit verfügt und der Trainingssatz keine anomalen Werte enthält.
9) Modellversuche
Betrachten wir das Problem der Suche nach Anomalien als Problem der Suche nach Empfehlungen. Zerlegen wir unsere Merkmalsmatrix mithilfe von SVD- oder Faktorisierungsmaschinen und betrachten wir die Werte in der neuen Matrix, die sich erheblich von den ursprünglichen unterscheiden, als anomal.
Bild von dyakonov.org
Abschluss
In diesem Artikel haben wir die wichtigsten Ansätze zur Anomalieerkennung untersucht.
Das Auffinden von Anomalien kann in vielerlei Hinsicht als Kunst bezeichnet werden. Es gibt keinen idealen Algorithmus oder Ansatz, dessen Verwendung alle Probleme löst. Häufiger wird eine Reihe von Methoden verwendet, um einen bestimmten Fall zu lösen. Die Anomalieerkennung erfolgt unter Verwendung von Support-Vektor-Maschinen einer Klasse, isolierenden Wäldern, Metrik- und Cluster-Methoden sowie unter Verwendung von Hauptkomponenten und Zeitreihenprognosen.
Wenn Sie andere Methoden kennen, schreiben Sie in den Kommentaren zum Artikel darüber.
Source: habr.com