9 προσεγγίσεις για την ανίχνευση ανωμαλιών

В προηγούμενο άρθρο μιλήσαμε για την πρόβλεψη χρονοσειρών. Μια λογική συνέχεια θα ήταν ένα άρθρο για τον εντοπισμό ανωμαλιών.

Εφαρμογή

Η ανίχνευση ανωμαλιών χρησιμοποιείται σε τομείς όπως:

1) Πρόβλεψη βλαβών εξοπλισμού

Έτσι, το 2010, οι ιρανικές φυγόκεντρες δέχθηκαν επίθεση από τον ιό Stuxnet, ο οποίος έθεσε τον εξοπλισμό σε μη βέλτιστη λειτουργία και απενεργοποίησε μέρος του εξοπλισμού λόγω επιταχυνόμενης φθοράς.

Εάν είχαν χρησιμοποιηθεί αλγόριθμοι ανίχνευσης ανωμαλιών στον εξοπλισμό, η κατάσταση αστοχίας θα μπορούσε να είχε αποφευχθεί.

9 προσεγγίσεις για την ανίχνευση ανωμαλιών

Η αναζήτηση ανωμαλιών στη λειτουργία του εξοπλισμού χρησιμοποιείται όχι μόνο στην πυρηνική βιομηχανία, αλλά και στη μεταλλουργία και τη λειτουργία στροβίλων αεροσκαφών. Και σε άλλους τομείς όπου η χρήση προγνωστικών διαγνωστικών είναι φθηνότερη από πιθανές απώλειες λόγω απρόβλεπτης βλάβης.

2) Πρόβλεψη απάτης

Εάν γίνει ανάληψη χρημάτων από την κάρτα που χρησιμοποιείτε στο Podolsk της Αλβανίας, οι συναλλαγές μπορεί να χρειαστεί περαιτέρω έλεγχος.

3) Προσδιορισμός μη φυσιολογικών καταναλωτικών προτύπων

Εάν ορισμένοι πελάτες παρουσιάζουν μη φυσιολογική συμπεριφορά, μπορεί να υπάρχει ένα πρόβλημα που δεν γνωρίζετε.

4) Προσδιορισμός μη φυσιολογικής ζήτησης και φορτίου

Εάν οι πωλήσεις σε ένα κατάστημα FMCG έχουν πέσει κάτω από το διάστημα εμπιστοσύνης της πρόβλεψης, αξίζει να βρείτε τον λόγο για αυτό που συμβαίνει.

Προσεγγίσεις για τον εντοπισμό ανωμαλιών

1) Υποστήριξη Vector Machine με One Class One-Class SVM

Κατάλληλο όταν τα δεδομένα στο σετ εκπαίδευσης ακολουθούν μια κανονική κατανομή, αλλά το σύνολο δοκιμής περιέχει ανωμαλίες.

Η μηχανή διανυσμάτων υποστήριξης μιας κατηγορίας κατασκευάζει μια μη γραμμική επιφάνεια γύρω από την αρχή. Είναι δυνατό να οριστεί ένα όριο αποκοπής για το οποίο τα δεδομένα θεωρούνται ανώμαλα.

Με βάση την εμπειρία της ομάδας μας DATA4, το One-Class SVM είναι ο πιο συχνά χρησιμοποιούμενος αλγόριθμος για την επίλυση του προβλήματος της εύρεσης ανωμαλιών.

9 προσεγγίσεις για την ανίχνευση ανωμαλιών

2) Μέθοδος απομόνωσης δασών

Με την «τυχαία» μέθοδο κατασκευής δέντρων, οι εκπομπές θα εισέρχονται στα φύλλα σε πρώιμα στάδια (σε μικρό βάθος του δέντρου), π.χ. Οι εκπομπές είναι πιο εύκολο να «απομονωθούν». Η απομόνωση ανώμαλων τιμών συμβαίνει στις πρώτες επαναλήψεις του αλγορίθμου.

9 προσεγγίσεις για την ανίχνευση ανωμαλιών

3) Ελλειπτικός φάκελος και στατιστικές μέθοδοι

Χρησιμοποιείται όταν τα δεδομένα διανέμονται κανονικά. Όσο πιο κοντά είναι η μέτρηση στην ουρά του μείγματος κατανομών, τόσο πιο ανώμαλη είναι η τιμή.

Άλλες στατιστικές μέθοδοι μπορούν επίσης να συμπεριληφθούν σε αυτήν την κατηγορία.

9 προσεγγίσεις για την ανίχνευση ανωμαλιών

9 προσεγγίσεις για την ανίχνευση ανωμαλιών
Εικόνα από dyakonov.org

4) Μετρικές μέθοδοι

Οι μέθοδοι περιλαμβάνουν αλγόριθμους όπως k-πλησιέστερος γείτονας, k-πλησιέστερος γείτονας, ABOD (ανίχνευση ακραίων τιμών με βάση τη γωνία) ή LOF (τοπικός παράγοντας ακραίου επιπέδου).

Κατάλληλο εάν η απόσταση μεταξύ των τιμών των χαρακτηριστικών είναι ισοδύναμη ή κανονικοποιημένη (για να μην μετριέται ένας συστολέας βόα στους παπαγάλους).

Ο αλγόριθμος k-πλησιέστερων γειτόνων υποθέτει ότι οι κανονικές τιμές βρίσκονται σε μια συγκεκριμένη περιοχή πολυδιάστατου χώρου και η απόσταση από τις ανωμαλίες θα είναι μεγαλύτερη από το διαχωριστικό υπερεπίπεδο.

9 προσεγγίσεις για την ανίχνευση ανωμαλιών

5) Μέθοδοι συμπλέγματος

Η ουσία των μεθόδων συμπλέγματος είναι ότι εάν μια τιμή απέχει περισσότερο από ένα συγκεκριμένο ποσό από τα κέντρα συμπλέγματος, η τιμή μπορεί να θεωρηθεί ανώμαλη.

Το κύριο πράγμα είναι να χρησιμοποιήσετε έναν αλγόριθμο που ομαδοποιεί σωστά τα δεδομένα, κάτι που εξαρτάται από τη συγκεκριμένη εργασία.

9 προσεγγίσεις για την ανίχνευση ανωμαλιών

6) Μέθοδος κύριας συνιστώσας

Κατάλληλο όπου επισημαίνονται οι κατευθύνσεις της μεγαλύτερης αλλαγής στη διασπορά.

7) Αλγόριθμοι βασισμένοι σε προβλέψεις χρονοσειρών

Η ιδέα είναι ότι εάν μια τιμή πέσει έξω από το διάστημα εμπιστοσύνης της πρόβλεψης, η τιμή θεωρείται ανώμαλη. Για την πρόβλεψη μιας χρονοσειράς χρησιμοποιούνται αλγόριθμοι όπως τριπλή εξομάλυνση, S(ARIMA), ενίσχυση κ.λπ.

Οι αλγόριθμοι πρόβλεψης χρονοσειρών συζητήθηκαν στο προηγούμενο άρθρο.

9 προσεγγίσεις για την ανίχνευση ανωμαλιών

8) Εποπτευόμενη μάθηση (παλίνδρομος, ταξινόμηση)

Εάν τα δεδομένα το επιτρέπουν, χρησιμοποιούμε αλγόριθμους που κυμαίνονται από τη γραμμική παλινδρόμηση έως τα επαναλαμβανόμενα δίκτυα. Ας μετρήσουμε τη διαφορά μεταξύ της πρόβλεψης και της πραγματικής τιμής και ας βγάλουμε ένα συμπέρασμα σε ποιο βαθμό τα δεδομένα αποκλίνουν από τον κανόνα. Είναι σημαντικό ο αλγόριθμος να έχει επαρκή ικανότητα γενίκευσης και το σύνολο εκπαίδευσης να μην περιέχει ανώμαλες τιμές.

9) Δοκιμές μοντέλων

Ας προσεγγίσουμε το πρόβλημα της αναζήτησης ανωμαλιών ως πρόβλημα αναζήτησης συστάσεων. Ας αποσυνθέσουμε τον πίνακα χαρακτηριστικών μας χρησιμοποιώντας SVD ή μηχανές παραγοντοποίησης και ας πάρουμε τις τιμές στη νέα μήτρα που είναι σημαντικά διαφορετικές από τις αρχικές ως ανώμαλες.

9 προσεγγίσεις για την ανίχνευση ανωμαλιών

Εικόνα από dyakonov.org

Συμπέρασμα

Σε αυτό το άρθρο, εξετάσαμε τις κύριες προσεγγίσεις για την ανίχνευση ανωμαλιών.

Η εύρεση ανωμαλιών μπορεί με πολλούς τρόπους να ονομαστεί τέχνη. Δεν υπάρχει ιδανικός αλγόριθμος ή προσέγγιση, η χρήση των οποίων να λύνει όλα τα προβλήματα. Συχνότερα χρησιμοποιείται ένα σύνολο μεθόδων για την επίλυση μιας συγκεκριμένης περίπτωσης. Η ανίχνευση ανωμαλιών πραγματοποιείται χρησιμοποιώντας μηχανές διανυσμάτων υποστήριξης μιας κατηγορίας, απομόνωση δασών, μεθόδων μέτρησης και συστάδων, καθώς και με χρήση κύριων στοιχείων και πρόβλεψης χρονοσειρών.

Εάν γνωρίζετε άλλες μεθόδους, γράψτε για αυτές στα σχόλια του άρθρου.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο