В
Stosowanie
Wykrywanie anomalii znajduje zastosowanie w takich obszarach jak:
1) Przewidywanie awarii sprzętu
I tak w 2010 roku irańskie wirówki zostały zaatakowane przez wirusa Stuxnet, który spowodował nieoptymalną pracę sprzętu i unieruchomił część sprzętu na skutek przyspieszonego zużycia.
Gdyby w sprzęcie zastosowano algorytmy wykrywania anomalii, można byłoby uniknąć sytuacji awaryjnej.
Poszukiwanie anomalii w pracy urządzeń znajduje zastosowanie nie tylko w przemyśle nuklearnym, ale także w hutnictwie i eksploatacji turbin lotniczych. Oraz w innych obszarach, gdzie zastosowanie diagnostyki predykcyjnej jest tańsze niż ewentualne straty spowodowane nieprzewidywalną awarią.
2) Przewidywanie oszustw
Jeśli pieniądze zostaną pobrane z karty, której używasz w Podolsku w Albanii, konieczne może być dalsze sprawdzenie transakcji.
3) Identyfikacja nieprawidłowych wzorców konsumenckich
Jeśli niektórzy klienci zachowują się nietypowo, może to oznaczać problem, o którym nie wiesz.
4) Identyfikacja nietypowego zapotrzebowania i obciążenia
Jeżeli sprzedaż w sklepie FMCG spadła poniżej przedziału ufności prognozy, warto znaleźć przyczynę tego, co się dzieje.
Podejścia do identyfikacji anomalii
1) Obsługuje maszynę wektorową z jedną klasą jednej klasy SVM
Odpowiednie, gdy dane w zestawie szkoleniowym mają rozkład normalny, ale zestaw testowy zawiera anomalie.
Jednoklasowa maszyna wektorów nośnych konstruuje nieliniową powierzchnię wokół początku układu współrzędnych. Możliwe jest ustawienie granicy odcięcia, dla której dane są uznawane za anomalne.
Bazując na doświadczeniach naszego zespołu DATA4, One-Class SVM jest najczęściej używanym algorytmem rozwiązywania problemu znajdowania anomalii.
2) Metoda izolowania lasu
W przypadku „losowej” metody konstruowania drzew emisje dostaną się do liści we wczesnych stadiach (na małej głębokości drzewa), tj. emisje są łatwiejsze do „wyizolowania”. Izolacja wartości anomalnych następuje w pierwszych iteracjach algorytmu.
3) Obwiednia eliptyczna i metody statystyczne
Używane, gdy dane mają rozkład normalny. Im pomiar bliżej ogona mieszaniny rozkładów, tym bardziej anomalna jest wartość.
Do tej klasy można zaliczyć także inne metody statystyczne.
Zdjęcie z dyakonov.org
4) Metody metryczne
Metody obejmują algorytmy takie jak k-najbliższych sąsiadów, k-najbliższych sąsiadów, ABOD (wykrywanie wartości odstających na podstawie kąta) lub LOF (lokalny współczynnik odstający).
Nadaje się, jeśli odległość między wartościami w charakterystyce jest równoważna lub znormalizowana (aby nie mierzyć boa dusiciela u papug).
Algorytm k-najbliższych sąsiadów zakłada, że wartości normalne znajdują się w pewnym obszarze przestrzeni wielowymiarowej, a odległość do anomalii będzie większa niż do hiperpłaszczyzny oddzielającej.
5) Metody klastrowe
Istota metod skupień polega na tym, że jeśli wartość znajduje się w odległości większej niż pewna odległość od środków skupień, wartość można uznać za nienormalną.
Najważniejsze jest użycie algorytmu, który poprawnie grupuje dane, co zależy od konkretnego zadania.
6) Metoda głównych składowych
Nadaje się tam, gdzie podkreślone są kierunki największej zmiany dyspersji.
7) Algorytmy oparte na prognozowaniu szeregów czasowych
Pomysł jest taki, że jeśli wartość wykracza poza przedział ufności przewidywania, jest uważana za nienormalną. Aby przewidzieć szereg czasowy, stosuje się algorytmy takie jak potrójne wygładzanie, S(ARIMA), wzmacnianie itp.
Algorytmy prognozowania szeregów czasowych zostały omówione w poprzednim artykule.
8) Uczenie się pod nadzorem (regresja, klasyfikacja)
Jeśli dane na to pozwalają, stosujemy algorytmy od regresji liniowej po sieci rekurencyjne. Zmierzmy różnicę między prognozą a wartością rzeczywistą i wyciągnijmy wniosek, w jakim stopniu dane odbiegają od normy. Ważne jest, aby algorytm miał wystarczającą zdolność generalizacji i aby zbiór uczący nie zawierał wartości anomalnych.
9) Badania modelowe
Podejdźmy do problemu poszukiwania anomalii jako do problemu poszukiwania rekomendacji. Rozłóżmy naszą macierz cech za pomocą maszyn SVD lub faktoryzacji i przyjmijmy wartości w nowej macierzy, które znacząco różnią się od oryginalnych, jako anomalne.
Zdjęcie z dyakonov.org
wniosek
W tym artykule dokonaliśmy przeglądu głównych podejść do wykrywania anomalii.
Znajdowanie anomalii można pod wieloma względami nazwać sztuką. Nie ma idealnego algorytmu ani podejścia, którego zastosowanie rozwiązuje wszystkie problemy. Częściej do rozwiązania konkretnego przypadku stosuje się zestaw metod. Wykrywanie anomalii odbywa się z wykorzystaniem jednoklasowych maszyn wektorów nośnych, lasów izolacyjnych, metod metrycznych i klastrowych, a także z wykorzystaniem składowych głównych i prognozowania szeregów czasowych.
Jeśli znasz inne metody, napisz o nich w komentarzach do artykułu.
Źródło: www.habr.com