9 abordări pentru detectarea anomaliilor

В anterioară articol am vorbit despre prognoza serii temporale. O continuare logică ar fi un articol despre identificarea anomaliilor.

cerere

Detectarea anomaliilor este utilizată în domenii precum:

1) Predicția defecțiunilor echipamentelor

Astfel, în 2010, centrifugele iraniene au fost atacate de virusul Stuxnet, care a pus echipamentul la o funcționare neoptimă și a dezactivat unele dintre echipamente din cauza uzurii accelerate.

Dacă pe echipament ar fi fost folosiți algoritmi de detectare a anomaliilor, situația de defecțiune ar fi putut fi evitată.

9 abordări pentru detectarea anomaliilor

Căutarea anomaliilor în funcționarea echipamentelor este folosită nu numai în industria nucleară, ci și în metalurgie și operarea turbinelor aeronavelor. Și în alte zone în care utilizarea diagnosticului predictiv este mai ieftină decât posibilele pierderi din cauza unei defecțiuni imprevizibile.

2) Predicția fraudei

Dacă banii sunt retrași de pe cardul pe care îl utilizați în Podolsk în Albania, este posibil ca tranzacțiile să fie verificate în continuare.

3) Identificarea tiparelor anormale de consum

Dacă unii clienți prezintă un comportament anormal, este posibil să existe o problemă de care nu știți.

4) Identificarea cererii și sarcinii anormale

Dacă vânzările într-un magazin FMCG au scăzut sub intervalul de încredere al prognozei, merită să găsiți motivul a ceea ce se întâmplă.

Abordări pentru identificarea anomaliilor

1) Sprijină mașină vectorială cu SVM de o clasă de o clasă

Potrivit atunci când datele din setul de antrenament urmează o distribuție normală, dar setul de testare conține anomalii.

Mașina vectorială de suport cu o singură clasă construiește o suprafață neliniară în jurul originii. Este posibil să se stabilească o limită pentru care datele sunt considerate anormale.

Pe baza experienței echipei noastre DATA4, One-Class SVM este cel mai des folosit algoritm pentru rezolvarea problemei de a găsi anomalii.

9 abordări pentru detectarea anomaliilor

2) Metoda de izolare a pădurii

Cu metoda „aleatorie” de construire a copacilor, emisiile vor intra în frunze în stadii incipiente (la o adâncime mică a copacului), adică. emisiile sunt mai ușor de „izolat”. Izolarea valorilor anormale are loc în primele iterații ale algoritmului.

9 abordări pentru detectarea anomaliilor

3) Plicul eliptic și metode statistice

Folosit atunci când datele sunt distribuite în mod normal. Cu cât măsurarea este mai aproape de coada amestecului de distribuții, cu atât valoarea este mai anormală.

În această clasă pot fi incluse și alte metode statistice.

9 abordări pentru detectarea anomaliilor

9 abordări pentru detectarea anomaliilor
Imagine de pe dyakonov.org

4) Metode metrice

Metodele includ algoritmi precum k-nearest neighbors, k-nearest neighbor, ABOD (detecția valorii aberante bazate pe unghi) sau LOF (factorul local outlier).

Potrivit dacă distanța dintre valorile din caracteristici este echivalentă sau normalizată (pentru a nu măsura un boa constrictor la papagali).

Algoritmul k-nearest neighbors presupune că valorile normale sunt situate într-o anumită regiune a spațiului multidimensional, iar distanța până la anomalii va fi mai mare decât la hiperplanul de separare.

9 abordări pentru detectarea anomaliilor

5) Metode de grupare

Esența metodelor cluster este că, dacă o valoare este mai mult de o anumită sumă depărtare de centrele clusterului, valoarea poate fi considerată anormală.

Principalul lucru este să utilizați un algoritm care grupează corect datele, care depinde de sarcina specifică.

9 abordări pentru detectarea anomaliilor

6) Metoda componentei principale

Potrivit acolo unde sunt evidențiate direcțiile celei mai mari schimbări în dispersie.

7) Algoritmi bazați pe prognoza serii de timp

Ideea este că, dacă o valoare se încadrează în afara intervalului de încredere al predicției, valoarea este considerată anormală. Pentru a prezice o serie de timp, se folosesc algoritmi precum tripla netezire, S(ARIMA), boosting etc.

Algoritmii de prognoză a seriilor temporale au fost discutați în articolul anterior.

9 abordări pentru detectarea anomaliilor

8) Învățare supravegheată (regresie, clasificare)

Dacă datele permit, folosim algoritmi de la regresie liniară la rețele recurente. Să măsurăm diferența dintre predicție și valoarea reală și să tragem o concluzie în ce măsură datele se abat de la normă. Este important ca algoritmul să aibă suficientă capacitate de generalizare și ca setul de antrenament să nu conțină valori anormale.

9) Teste de model

Să abordăm problema căutării anomaliilor ca pe o problemă a căutării recomandărilor. Să descompunăm matricea noastră de caracteristici folosind SVD sau mașini de factorizare și să luăm ca anormale valorile din noua matrice care sunt semnificativ diferite de cele originale.

9 abordări pentru detectarea anomaliilor

Imagine de pe dyakonov.org

Concluzie

În acest articol, am trecut în revistă principalele abordări ale detectării anomaliilor.

Găsirea anomaliilor poate fi numită în multe feluri o artă. Nu există un algoritm sau o abordare ideală, a cărui utilizare rezolvă toate problemele. Mai des se folosește un set de metode pentru a rezolva un caz specific. Detectarea anomaliilor se realizează folosind mașini vector de suport de o singură clasă, izolarea pădurilor, metode metrice și cluster, precum și folosind componentele principale și prognoza serii de timp.

Dacă cunoașteți alte metode, scrieți despre ele în comentariile articolului.

Sursa: www.habr.com

Adauga un comentariu