9 planteamendu anomaliak detektatzeko

Π’ aurreko artikulua denbora serieen iragarpenari buruz hitz egin dugu. Jarraipen logiko bat anomaliak identifikatzeari buruzko artikulua izango litzateke.

Eskaera

Anomalia detektatzeko eremuetan erabiltzen da:

1) Ekipoen matxuren aurreikuspena

Horrela, 2010ean, Irango zentrifugatzaileei Stuxnet birusak erasotu zieten, ekipoak ez-ondoko funtzionamendura ezarri eta ekipoetako batzuk desgaitu baitzituen higadura bizkortuaren ondorioz.

Ekipoan anomaliak detektatzeko algoritmoak erabili izan balira, hutsegite egoera saihestu zitekeen.

9 planteamendu anomaliak detektatzeko

Ekipoen funtzionamenduan anomaliak bilatzea industria nuklearrean ez ezik, metalurgian eta hegazkinen turbinen funtzionamenduan ere erabiltzen da. Eta diagnostiko iragarleen erabilera ezusteko matxura baten ondorioz izan daitezkeen galerak baino merkeagoa den beste eremu batzuetan.

2) Iruzurraren aurreikuspena

Albaniako Podolsken erabiltzen duzun txarteletik dirua ateratzen bada, baliteke transakzioak gehiago egiaztatu behar izatea.

3) Kontsumo-eredu anormalak identifikatzea

Bezero batzuek portaera anormala erakusten badute, baliteke ezagutzen ez duzun arazoren bat egotea.

4) Eskari eta karga anormalen identifikazioa

FMCG denda batean salmentak aurreikuspenaren konfiantza-tartearen azpitik jaitsi badira, merezi du gertatzen ari denaren arrazoia aurkitzea.

Anomaliak identifikatzeko planteamenduak

1) Onartu Bektore Makina Klase bakarreko SVM batekin

Egokia entrenamendu-multzoko datuek banaketa normal bat jarraitzen dutenean, baina proba-multzoak anomaliak ditu.

Klase bakarreko euskarri-makina bektorialak azalera ez-lineal bat eraikitzen du jatorriaren inguruan. Datuak anomalitzat jotzen diren ebaki-muga bat ezar daiteke.

Gure DATA4 taldearen esperientzian oinarrituta, One-Class SVM anomaliak aurkitzeko arazoa konpontzeko gehien erabiltzen den algoritmoa da.

9 planteamendu anomaliak detektatzeko

2) Basoa isolatu metodoa

Zuhaitzak eraikitzeko "ausazko" metodoarekin, emisioak hostoetan sartuko dira hasierako faseetan (zuhaitzaren sakonera txikian), hau da. isurketak errazago "isolatzen" dira. Algoritmoaren lehen iterazioetan balio anormalen isolamendua gertatzen da.

9 planteamendu anomaliak detektatzeko

3) Inguratzaile eliptikoa eta metodo estatistikoak

Datuak normalean banatzen direnean erabiltzen da. Neurketa zenbat eta hurbilago egon banaketa-nahastearen buztanetik, orduan eta anormalagoa izango da balioa.

Klase honetan beste estatistika-metodo batzuk ere sar daitezke.

9 planteamendu anomaliak detektatzeko

9 planteamendu anomaliak detektatzeko
Dyakonov.org-eko irudia

4) Metodo metrikoak

Metodoen artean, k-nearest neighbors, k-nearest neighbor, ABOD (angeluan oinarritutako outlier detekzio) edo LOF (local outlier factor) bezalako algoritmoak daude.

Egokia ezaugarrietako balioen arteko distantzia baliokidea edo normalizatua bada (loroetan boa constrictor bat ez neurtzeko).

Hurbilen dauden k auzokoen algoritmoak balio normalak dimentsio anitzeko espazioko eskualde jakin batean kokatzen direla suposatzen du, eta anomalien distantzia bereizten duen hiperplanoarekiko baino handiagoa izango da.

9 planteamendu anomaliak detektatzeko

5) Cluster metodoak

Kluster-metodoen funtsa hauxe da: balio bat kluster-zentroetatik kopuru jakin bat baino gehiago badago, balioa anormaltzat har daitekeela.

Gauza nagusia datuak behar bezala biltzen dituen algoritmo bat erabiltzea da, zeregin zehatzaren araberakoa.

9 planteamendu anomaliak detektatzeko

6) Osagai nagusien metodoa

Egokia non sakabanaketa-aldaketarik handienaren norabideak nabarmentzen diren.

7) Denbora-serieen aurreikuspenean oinarritutako algoritmoak

Ideia da balio bat iragarpenaren konfiantza-tartetik kanpo geratzen bada, balioa anormaltzat hartzen dela. Denbora serie bat aurreikusteko, leuntze hirukoitza, S(ARIMA), boosting eta abar bezalako algoritmoak erabiltzen dira.

Denbora-serieen aurreikuspen-algoritmoak aurreko artikuluan eztabaidatu ziren.

9 planteamendu anomaliak detektatzeko

8) Ikaskuntza gainbegiratua (erregresioa, sailkapena)

Datuek ahalbidetzen badute, erregresio linealetik sare errekurrenteetara doazen algoritmoak erabiltzen ditugu. Neurtu dezagun iragarpenaren eta benetako balioaren arteko aldea, eta atera dezagun datuak arautik zenbateraino aldentzen diren. Garrantzitsua da algoritmoak orokortze-gaitasun nahikoa izatea eta entrenamendu-multzoak balio anomaliak ez edukitzea.

9) Modelo-probak

Ikus dezagun anomaliak bilatzeko arazoari gomendioak bilatzeko arazo gisa. Deskonposa ditzagun gure ezaugarri-matrizea SVD edo faktorizazio-makinak erabiliz, eta har ditzagun matrize berrian jatorrizkoetatik nabarmen desberdinak diren balioak anomalitzat.

9 planteamendu anomaliak detektatzeko

Dyakonov.org-eko irudia

Ondorioa

Artikulu honetan, anomaliak detektatzeko ikuspegi nagusiak berrikusi ditugu.

Anomaliak aurkitzea arte dei daiteke modu askotan. Ez dago algoritmo edo planteamendu idealik, eta horren erabilerak arazo guztiak konpontzen ditu. Sarritan kasu zehatz bat ebazteko metodo multzo bat erabiltzen da. Anomalia detektatzeko klase bakarreko euskarri bektore-makinak erabiliz egiten da, basoak isolatuz, metrika eta kluster metodoak, baita osagai nagusiak eta denbora serieen aurreikuspena erabiliz ere.

Beste metodo batzuk ezagutzen badituzu, idatzi haiei buruz artikuluko iruzkinetan.

Iturria: www.habr.com

Gehitu iruzkin berria