В
cerere
Detectarea anomaliilor este utilizată în domenii precum:
1) Predicția defecțiunilor echipamentelor
Astfel, în 2010, centrifugele iraniene au fost atacate de virusul Stuxnet, care a pus echipamentul la o funcționare neoptimă și a dezactivat unele dintre echipamente din cauza uzurii accelerate.
Dacă pe echipament ar fi fost folosiți algoritmi de detectare a anomaliilor, situația de defecțiune ar fi putut fi evitată.
Căutarea anomaliilor în funcționarea echipamentelor este folosită nu numai în industria nucleară, ci și în metalurgie și operarea turbinelor aeronavelor. Și în alte zone în care utilizarea diagnosticului predictiv este mai ieftină decât posibilele pierderi din cauza unei defecțiuni imprevizibile.
2) Predicția fraudei
Dacă banii sunt retrași de pe cardul pe care îl utilizați în Podolsk în Albania, este posibil ca tranzacțiile să fie verificate în continuare.
3) Identificarea tiparelor anormale de consum
Dacă unii clienți prezintă un comportament anormal, este posibil să existe o problemă de care nu știți.
4) Identificarea cererii și sarcinii anormale
Dacă vânzările într-un magazin FMCG au scăzut sub intervalul de încredere al prognozei, merită să găsiți motivul a ceea ce se întâmplă.
Abordări pentru identificarea anomaliilor
1) Sprijină mașină vectorială cu SVM de o clasă de o clasă
Potrivit atunci când datele din setul de antrenament urmează o distribuție normală, dar setul de testare conține anomalii.
Mașina vectorială de suport cu o singură clasă construiește o suprafață neliniară în jurul originii. Este posibil să se stabilească o limită pentru care datele sunt considerate anormale.
Pe baza experienței echipei noastre DATA4, One-Class SVM este cel mai des folosit algoritm pentru rezolvarea problemei de a găsi anomalii.
2) Metoda de izolare a pădurii
Cu metoda „aleatorie” de construire a copacilor, emisiile vor intra în frunze în stadii incipiente (la o adâncime mică a copacului), adică. emisiile sunt mai ușor de „izolat”. Izolarea valorilor anormale are loc în primele iterații ale algoritmului.
3) Plicul eliptic și metode statistice
Folosit atunci când datele sunt distribuite în mod normal. Cu cât măsurarea este mai aproape de coada amestecului de distribuții, cu atât valoarea este mai anormală.
În această clasă pot fi incluse și alte metode statistice.
Imagine de pe dyakonov.org
4) Metode metrice
Metodele includ algoritmi precum k-nearest neighbors, k-nearest neighbor, ABOD (detecția valorii aberante bazate pe unghi) sau LOF (factorul local outlier).
Potrivit dacă distanța dintre valorile din caracteristici este echivalentă sau normalizată (pentru a nu măsura un boa constrictor la papagali).
Algoritmul k-nearest neighbors presupune că valorile normale sunt situate într-o anumită regiune a spațiului multidimensional, iar distanța până la anomalii va fi mai mare decât la hiperplanul de separare.
5) Metode de grupare
Esența metodelor cluster este că, dacă o valoare este mai mult de o anumită sumă depărtare de centrele clusterului, valoarea poate fi considerată anormală.
Principalul lucru este să utilizați un algoritm care grupează corect datele, care depinde de sarcina specifică.
6) Metoda componentei principale
Potrivit acolo unde sunt evidențiate direcțiile celei mai mari schimbări în dispersie.
7) Algoritmi bazați pe prognoza serii de timp
Ideea este că, dacă o valoare se încadrează în afara intervalului de încredere al predicției, valoarea este considerată anormală. Pentru a prezice o serie de timp, se folosesc algoritmi precum tripla netezire, S(ARIMA), boosting etc.
Algoritmii de prognoză a seriilor temporale au fost discutați în articolul anterior.
8) Învățare supravegheată (regresie, clasificare)
Dacă datele permit, folosim algoritmi de la regresie liniară la rețele recurente. Să măsurăm diferența dintre predicție și valoarea reală și să tragem o concluzie în ce măsură datele se abat de la normă. Este important ca algoritmul să aibă suficientă capacitate de generalizare și ca setul de antrenament să nu conțină valori anormale.
9) Teste de model
Să abordăm problema căutării anomaliilor ca pe o problemă a căutării recomandărilor. Să descompunăm matricea noastră de caracteristici folosind SVD sau mașini de factorizare și să luăm ca anormale valorile din noua matrice care sunt semnificativ diferite de cele originale.
Imagine de pe dyakonov.org
Concluzie
În acest articol, am trecut în revistă principalele abordări ale detectării anomaliilor.
Găsirea anomaliilor poate fi numită în multe feluri o artă. Nu există un algoritm sau o abordare ideală, a cărui utilizare rezolvă toate problemele. Mai des se folosește un set de metode pentru a rezolva un caz specific. Detectarea anomaliilor se realizează folosind mașini vector de suport de o singură clasă, izolarea pădurilor, metode metrice și cluster, precum și folosind componentele principale și prognoza serii de timp.
Dacă cunoașteți alte metode, scrieți despre ele în comentariile articolului.
Sursa: www.habr.com