Π
Eskaera
Anomalia detektatzeko eremuetan erabiltzen da:
1) Ekipoen matxuren aurreikuspena
Horrela, 2010ean, Irango zentrifugatzaileei Stuxnet birusak erasotu zieten, ekipoak ez-ondoko funtzionamendura ezarri eta ekipoetako batzuk desgaitu baitzituen higadura bizkortuaren ondorioz.
Ekipoan anomaliak detektatzeko algoritmoak erabili izan balira, hutsegite egoera saihestu zitekeen.
Ekipoen funtzionamenduan anomaliak bilatzea industria nuklearrean ez ezik, metalurgian eta hegazkinen turbinen funtzionamenduan ere erabiltzen da. Eta diagnostiko iragarleen erabilera ezusteko matxura baten ondorioz izan daitezkeen galerak baino merkeagoa den beste eremu batzuetan.
2) Iruzurraren aurreikuspena
Albaniako Podolsken erabiltzen duzun txarteletik dirua ateratzen bada, baliteke transakzioak gehiago egiaztatu behar izatea.
3) Kontsumo-eredu anormalak identifikatzea
Bezero batzuek portaera anormala erakusten badute, baliteke ezagutzen ez duzun arazoren bat egotea.
4) Eskari eta karga anormalen identifikazioa
FMCG denda batean salmentak aurreikuspenaren konfiantza-tartearen azpitik jaitsi badira, merezi du gertatzen ari denaren arrazoia aurkitzea.
Anomaliak identifikatzeko planteamenduak
1) Onartu Bektore Makina Klase bakarreko SVM batekin
Egokia entrenamendu-multzoko datuek banaketa normal bat jarraitzen dutenean, baina proba-multzoak anomaliak ditu.
Klase bakarreko euskarri-makina bektorialak azalera ez-lineal bat eraikitzen du jatorriaren inguruan. Datuak anomalitzat jotzen diren ebaki-muga bat ezar daiteke.
Gure DATA4 taldearen esperientzian oinarrituta, One-Class SVM anomaliak aurkitzeko arazoa konpontzeko gehien erabiltzen den algoritmoa da.
2) Basoa isolatu metodoa
Zuhaitzak eraikitzeko "ausazko" metodoarekin, emisioak hostoetan sartuko dira hasierako faseetan (zuhaitzaren sakonera txikian), hau da. isurketak errazago "isolatzen" dira. Algoritmoaren lehen iterazioetan balio anormalen isolamendua gertatzen da.
3) Inguratzaile eliptikoa eta metodo estatistikoak
Datuak normalean banatzen direnean erabiltzen da. Neurketa zenbat eta hurbilago egon banaketa-nahastearen buztanetik, orduan eta anormalagoa izango da balioa.
Klase honetan beste estatistika-metodo batzuk ere sar daitezke.
Dyakonov.org-eko irudia
4) Metodo metrikoak
Metodoen artean, k-nearest neighbors, k-nearest neighbor, ABOD (angeluan oinarritutako outlier detekzio) edo LOF (local outlier factor) bezalako algoritmoak daude.
Egokia ezaugarrietako balioen arteko distantzia baliokidea edo normalizatua bada (loroetan boa constrictor bat ez neurtzeko).
Hurbilen dauden k auzokoen algoritmoak balio normalak dimentsio anitzeko espazioko eskualde jakin batean kokatzen direla suposatzen du, eta anomalien distantzia bereizten duen hiperplanoarekiko baino handiagoa izango da.
5) Cluster metodoak
Kluster-metodoen funtsa hauxe da: balio bat kluster-zentroetatik kopuru jakin bat baino gehiago badago, balioa anormaltzat har daitekeela.
Gauza nagusia datuak behar bezala biltzen dituen algoritmo bat erabiltzea da, zeregin zehatzaren araberakoa.
6) Osagai nagusien metodoa
Egokia non sakabanaketa-aldaketarik handienaren norabideak nabarmentzen diren.
7) Denbora-serieen aurreikuspenean oinarritutako algoritmoak
Ideia da balio bat iragarpenaren konfiantza-tartetik kanpo geratzen bada, balioa anormaltzat hartzen dela. Denbora serie bat aurreikusteko, leuntze hirukoitza, S(ARIMA), boosting eta abar bezalako algoritmoak erabiltzen dira.
Denbora-serieen aurreikuspen-algoritmoak aurreko artikuluan eztabaidatu ziren.
8) Ikaskuntza gainbegiratua (erregresioa, sailkapena)
Datuek ahalbidetzen badute, erregresio linealetik sare errekurrenteetara doazen algoritmoak erabiltzen ditugu. Neurtu dezagun iragarpenaren eta benetako balioaren arteko aldea, eta atera dezagun datuak arautik zenbateraino aldentzen diren. Garrantzitsua da algoritmoak orokortze-gaitasun nahikoa izatea eta entrenamendu-multzoak balio anomaliak ez edukitzea.
9) Modelo-probak
Ikus dezagun anomaliak bilatzeko arazoari gomendioak bilatzeko arazo gisa. Deskonposa ditzagun gure ezaugarri-matrizea SVD edo faktorizazio-makinak erabiliz, eta har ditzagun matrize berrian jatorrizkoetatik nabarmen desberdinak diren balioak anomalitzat.
Dyakonov.org-eko irudia
Ondorioa
Artikulu honetan, anomaliak detektatzeko ikuspegi nagusiak berrikusi ditugu.
Anomaliak aurkitzea arte dei daiteke modu askotan. Ez dago algoritmo edo planteamendu idealik, eta horren erabilerak arazo guztiak konpontzen ditu. Sarritan kasu zehatz bat ebazteko metodo multzo bat erabiltzen da. Anomalia detektatzeko klase bakarreko euskarri bektore-makinak erabiliz egiten da, basoak isolatuz, metrika eta kluster metodoak, baita osagai nagusiak eta denbora serieen aurreikuspena erabiliz ere.
Beste metodo batzuk ezagutzen badituzu, idatzi haiei buruz artikuluko iruzkinetan.
Iturria: www.habr.com