9 Ansätze zur Erkennung von Anomalien

В vorheriger Artikel Wir haben über Zeitreihenprognosen gesprochen. Eine logische Fortsetzung wäre ein Artikel zur Identifizierung von Anomalien.

Anwendung

Die Anomalieerkennung wird in folgenden Bereichen eingesetzt:

1) Vorhersage von Geräteausfällen

So wurden im Jahr 2010 iranische Zentrifugen vom Stuxnet-Virus befallen, was dazu führte, dass die Geräte nicht optimal funktionierten und einige der Geräte aufgrund beschleunigten Verschleißes lahmlegten.

Wenn an der Anlage Anomalieerkennungsalgorithmen eingesetzt worden wären, hätte die Ausfallsituation vermieden werden können.

9 Ansätze zur Erkennung von Anomalien

Die Suche nach Anomalien beim Betrieb von Anlagen wird nicht nur in der Nuklearindustrie, sondern auch in der Metallurgie und beim Betrieb von Flugzeugturbinen eingesetzt. Und in anderen Bereichen, in denen der Einsatz prädiktiver Diagnostik günstiger ist als mögliche Verluste durch einen unvorhersehbaren Ausfall.

2) Betrugsvorhersage

Wenn Geld von der Karte abgebucht wird, die Sie in Podolsk in Albanien verwenden, müssen die Transaktionen möglicherweise noch einmal überprüft werden.

3) Identifizierung abnormaler Verbrauchermuster

Wenn einige Kunden ungewöhnliches Verhalten zeigen, liegt möglicherweise ein Problem vor, das Ihnen nicht bekannt ist.

4) Identifizierung anormaler Nachfrage und Belastung

Wenn die Umsätze in einem FMCG-Geschäft unter das Konfidenzintervall der Prognose gefallen sind, lohnt es sich, den Grund dafür zu finden.

Ansätze zur Identifizierung von Anomalien

1) Unterstützen Sie Vector Machine mit einer SVM einer Klasse

Geeignet, wenn die Daten im Trainingssatz einer Normalverteilung folgen, der Testsatz jedoch Anomalien enthält.

Die Ein-Klassen-Unterstützungsvektormaschine konstruiert eine nichtlineare Oberfläche um den Ursprung. Es ist möglich, einen Grenzwert festzulegen, ab dem Daten als anomal gelten.

Basierend auf der Erfahrung unseres DATA4-Teams ist One-Class SVM der am häufigsten verwendete Algorithmus zur Lösung des Problems der Auffindung von Anomalien.

9 Ansätze zur Erkennung von Anomalien

2) Isolate-Forest-Methode

Bei der „zufälligen“ Methode der Baumkonstruktion gelangen die Emissionen bereits in einem frühen Stadium (in einer geringen Tiefe des Baumes) in die Blätter, d. h. Emissionen lassen sich leichter „isolieren“. Die Isolierung anomaler Werte erfolgt in den ersten Iterationen des Algorithmus.

9 Ansätze zur Erkennung von Anomalien

3) Elliptische Hülle und statistische Methoden

Wird verwendet, wenn die Daten normalverteilt sind. Je näher die Messung am Ende der Verteilungsmischung liegt, desto anomaler ist der Wert.

Auch andere statistische Methoden können in diese Klasse einbezogen werden.

9 Ansätze zur Erkennung von Anomalien

9 Ansätze zur Erkennung von Anomalien
Bild von dyakonov.org

4) Metrische Methoden

Zu den Methoden gehören Algorithmen wie k-nächste Nachbarn, k-nächster Nachbar, ABOD (winkelbasierte Ausreißererkennung) oder LOF (lokaler Ausreißerfaktor).

Geeignet, wenn der Abstand zwischen den Werten in den Merkmalen äquivalent oder normalisiert ist (um bei Papageien keine Boa constrictor zu messen).

Der k-Nächste-Nachbarn-Algorithmus geht davon aus, dass sich Normalwerte in einem bestimmten Bereich des mehrdimensionalen Raums befinden und der Abstand zu Anomalien größer ist als zur trennenden Hyperebene.

9 Ansätze zur Erkennung von Anomalien

5) Cluster-Methoden

Der Kern von Cluster-Methoden besteht darin, dass ein Wert als anomal betrachtet werden kann, wenn er mehr als einen bestimmten Betrag von den Clusterzentren entfernt ist.

Die Hauptsache besteht darin, einen Algorithmus zu verwenden, der die Daten korrekt gruppiert, was von der spezifischen Aufgabe abhängt.

9 Ansätze zur Erkennung von Anomalien

6) Hauptkomponentenmethode

Geeignet, wenn die Richtungen der größten Dispersionsänderung hervorgehoben sind.

7) Algorithmen basierend auf Zeitreihenvorhersagen

Die Idee dahinter ist, dass ein Wert als anomal betrachtet wird, wenn er außerhalb des Prognose-Konfidenzintervalls liegt. Zur Vorhersage einer Zeitreihe werden Algorithmen wie Triple Smoothing, S(ARIMA), Boosting usw. verwendet.

Algorithmen zur Zeitreihenvorhersage wurden im vorherigen Artikel besprochen.

9 Ansätze zur Erkennung von Anomalien

8) Überwachtes Lernen (Regression, Klassifizierung)

Wenn es die Daten zulassen, verwenden wir Algorithmen, die von der linearen Regression bis hin zu wiederkehrenden Netzwerken reichen. Lassen Sie uns den Unterschied zwischen der Vorhersage und dem tatsächlichen Wert messen und daraus schließen, inwieweit die Daten von der Norm abweichen. Wichtig ist, dass der Algorithmus über eine ausreichende Generalisierungsfähigkeit verfügt und der Trainingssatz keine anomalen Werte enthält.

9) Modellversuche

Betrachten wir das Problem der Suche nach Anomalien als Problem der Suche nach Empfehlungen. Zerlegen wir unsere Merkmalsmatrix mithilfe von SVD- oder Faktorisierungsmaschinen und betrachten wir die Werte in der neuen Matrix, die sich erheblich von den ursprünglichen unterscheiden, als anomal.

9 Ansätze zur Erkennung von Anomalien

Bild von dyakonov.org

Abschluss

In diesem Artikel haben wir die wichtigsten Ansätze zur Anomalieerkennung untersucht.

Das Auffinden von Anomalien kann in vielerlei Hinsicht als Kunst bezeichnet werden. Es gibt keinen idealen Algorithmus oder Ansatz, dessen Verwendung alle Probleme löst. Häufiger wird eine Reihe von Methoden verwendet, um einen bestimmten Fall zu lösen. Die Anomalieerkennung erfolgt unter Verwendung von Support-Vektor-Maschinen einer Klasse, isolierenden Wäldern, Metrik- und Cluster-Methoden sowie unter Verwendung von Hauptkomponenten und Zeitreihenprognosen.

Wenn Sie andere Methoden kennen, schreiben Sie in den Kommentaren zum Artikel darüber.

Source: habr.com

Kommentar hinzufügen