9 na paraan upang makita ang mga anomalya

Π’ nakaraang artikulo napag-usapan namin ang tungkol sa pagtataya ng serye ng oras. Ang isang lohikal na pagpapatuloy ay isang artikulo sa pagtukoy ng mga anomalya.

Application

Ang pagtuklas ng anomalya ay ginagamit sa mga lugar tulad ng:

1) Hula ng mga pagkasira ng kagamitan

Kaya, noong 2010, ang mga Iranian centrifuges ay inatake ng Stuxnet virus, na nagtakda ng kagamitan sa hindi pinakamainam na operasyon at hindi pinagana ang ilan sa mga kagamitan dahil sa pinabilis na pagkasira.

Kung ginamit ang mga algorithm ng pagtuklas ng anomalya sa kagamitan, maaaring naiwasan ang sitwasyon ng pagkabigo.

9 na paraan upang makita ang mga anomalya

Ang paghahanap para sa mga anomalya sa pagpapatakbo ng mga kagamitan ay ginagamit hindi lamang sa industriya ng nukleyar, kundi pati na rin sa metalurhiya at pagpapatakbo ng mga turbine ng sasakyang panghimpapawid. At sa iba pang mga lugar kung saan ang paggamit ng predictive diagnostics ay mas mura kaysa sa mga posibleng pagkalugi dahil sa isang hindi inaasahang pagkasira.

2) Hula ng pandaraya

Kung ang pera ay na-withdraw mula sa card na iyong ginagamit sa Podolsk sa Albania, ang mga transaksyon ay maaaring kailanganing suriin pa.

3) Pagkilala sa mga abnormal na pattern ng mamimili

Kung ang ilang mga customer ay nagpapakita ng abnormal na pag-uugali, maaaring may problema na hindi mo alam.

4) Pagkilala sa abnormal na demand at load

Kung ang mga benta sa isang tindahan ng FMCG ay bumaba sa ibaba ng agwat ng kumpiyansa ng forecast, ito ay nagkakahalaga ng paghahanap ng dahilan para sa kung ano ang nangyayari.

Mga diskarte sa pagtukoy ng mga anomalya

1) Suportahan ang Vector Machine na may One Class One-Class SVM

Angkop kapag ang data sa set ng pagsasanay ay sumusunod sa isang normal na distribusyon, ngunit ang set ng pagsubok ay naglalaman ng mga anomalya.

Ang one-class support vector machine ay gumagawa ng nonlinear surface sa paligid ng pinanggalingan. Posibleng magtakda ng cutoff limit kung saan ang data ay itinuturing na anomalya.

Batay sa karanasan ng aming DATA4 team, ang One-Class SVM ay ang pinakakaraniwang ginagamit na algorithm para sa paglutas ng problema sa paghahanap ng mga anomalya.

9 na paraan upang makita ang mga anomalya

2) Ihiwalay ang paraan ng kagubatan

Gamit ang "random" na paraan ng pagtatayo ng mga puno, ang mga emisyon ay papasok sa mga dahon sa mga unang yugto (sa isang mababaw na lalim ng puno), i.e. ang mga emisyon ay mas madaling "ihiwalay." Ang paghihiwalay ng mga anomalyang halaga ay nangyayari sa mga unang pag-ulit ng algorithm.

9 na paraan upang makita ang mga anomalya

3) Elliptic envelope at mga istatistikal na pamamaraan

Ginagamit kapag ang data ay karaniwang ipinamamahagi. Kung mas malapit ang pagsukat sa buntot ng pinaghalong mga distribusyon, mas maanomalyang ang halaga.

Ang iba pang mga istatistikal na pamamaraan ay maaari ding isama sa klase na ito.

9 na paraan upang makita ang mga anomalya

9 na paraan upang makita ang mga anomalya
Larawan mula sa dyakonov.org

4) Mga pamamaraan ng panukat

Kasama sa mga pamamaraan ang mga algorithm tulad ng k-pinakamalapit na kapitbahay, k-pinakamalapit na kapitbahay, ABOD (angle-based outlier detection) o LOF (local outlier factor).

Angkop kung ang distansya sa pagitan ng mga halaga sa mga katangian ay katumbas o na-normalize (upang hindi masukat ang isang boa constrictor sa mga loro).

Ipinapalagay ng algorithm ng k-pinakamalapit na kapitbahay na ang mga normal na halaga ay matatagpuan sa isang tiyak na rehiyon ng multidimensional na espasyo, at ang distansya sa mga anomalya ay magiging mas malaki kaysa sa naghihiwalay na hyperplane.

9 na paraan upang makita ang mga anomalya

5) Mga pamamaraan ng cluster

Ang kakanyahan ng mga pamamaraan ng cluster ay kung ang isang halaga ay higit sa isang tiyak na halaga ang layo mula sa mga sentro ng cluster, ang halaga ay maaaring ituring na maanomalya.

Ang pangunahing bagay ay ang paggamit ng isang algorithm na tama ang mga kumpol ng data, na nakasalalay sa partikular na gawain.

9 na paraan upang makita ang mga anomalya

6) Paraan ng pangunahing bahagi

Angkop kung saan naka-highlight ang mga direksyon ng pinakamalaking pagbabago sa pagpapakalat.

7) Algorithm batay sa pagtataya ng serye ng oras

Ang ideya ay kung ang isang halaga ay bumaba sa labas ng agwat ng kumpiyansa ng hula, ang halaga ay itinuturing na maanomalya. Upang mahulaan ang isang serye ng oras, ginagamit ang mga algorithm tulad ng triple smoothing, S(ARIMA), boosting, atbp.

Ang mga algorithm ng pagtataya ng serye ng oras ay tinalakay sa nakaraang artikulo.

9 na paraan upang makita ang mga anomalya

8) Pinangangasiwaang pag-aaral (regression, classification)

Kung pinapayagan ng data, gumagamit kami ng mga algorithm mula sa linear regression hanggang sa mga paulit-ulit na network. Sukatin natin ang pagkakaiba sa pagitan ng hula at ang aktwal na halaga, at gumawa ng konklusyon kung hanggang saan ang data ay lumihis mula sa pamantayan. Mahalaga na ang algorithm ay may sapat na kakayahan sa pangkalahatan at ang set ng pagsasanay ay hindi naglalaman ng mga maanomalyang halaga.

9) Mga pagsubok sa modelo

Ating lapitan ang problema sa paghahanap ng mga anomalya bilang problema sa paghahanap ng mga rekomendasyon. I-decompose natin ang ating feature matrix gamit ang SVD o factorization machine, at kunin ang mga value sa bagong matrix na makabuluhang naiiba sa mga orihinal bilang maanomalyang.

9 na paraan upang makita ang mga anomalya

Larawan mula sa dyakonov.org

Konklusyon

Sa artikulong ito, sinuri namin ang mga pangunahing diskarte sa pagtuklas ng anomalya.

Ang paghahanap ng mga anomalya ay maaaring tawaging isang sining sa maraming paraan. Walang perpektong algorithm o diskarte, ang paggamit nito ay malulutas ang lahat ng mga problema. Mas madalas ang isang hanay ng mga pamamaraan ay ginagamit upang malutas ang isang partikular na kaso. Isinasagawa ang pagtuklas ng anomalya gamit ang one-class support vector machine, isolating forest, metric at cluster method, pati na rin ang paggamit ng mga pangunahing bahagi at pagtataya ng time series.

Kung alam mo ang iba pang mga pamamaraan, isulat ang tungkol sa mga ito sa mga komento sa artikulo.

Pinagmulan: www.habr.com

Magdagdag ng komento