9 pendekatan untuk mengesan anomali

Π’ artikel sebelumnya kami bercakap tentang ramalan siri masa. Sambungan logik akan menjadi artikel tentang mengenal pasti anomali.

Permohonan

Pengesanan anomali digunakan di kawasan seperti:

1) Ramalan kerosakan peralatan

Oleh itu, pada tahun 2010, emparan Iran telah diserang oleh virus Stuxnet, yang menetapkan peralatan kepada operasi tidak optimum dan melumpuhkan beberapa peralatan kerana haus yang dipercepatkan.

Jika algoritma pengesanan anomali telah digunakan pada peralatan, situasi kegagalan boleh dielakkan.

9 pendekatan untuk mengesan anomali

Pencarian anomali dalam pengendalian peralatan digunakan bukan sahaja dalam industri nuklear, tetapi juga dalam metalurgi dan operasi turbin pesawat. Dan di kawasan lain di mana penggunaan diagnostik ramalan adalah lebih murah daripada kemungkinan kerugian akibat kerosakan yang tidak dapat diramalkan.

2) Ramalan penipuan

Jika wang dikeluarkan daripada kad yang anda gunakan di Podolsk di Albania, urus niaga mungkin perlu disemak lebih lanjut.

3) Pengenalpastian corak pengguna yang tidak normal

Jika sesetengah pelanggan menunjukkan tingkah laku yang tidak normal, mungkin terdapat masalah yang anda tidak sedari.

4) Pengenalpastian permintaan dan beban yang tidak normal

Jika jualan di kedai FMCG telah menurun di bawah selang keyakinan ramalan, adalah wajar mencari sebab untuk apa yang berlaku.

Pendekatan untuk mengenal pasti anomali

1) Sokongan Mesin Vektor dengan SVM Satu Kelas Satu

Sesuai apabila data dalam set latihan mengikut taburan normal, tetapi set ujian mengandungi anomali.

Mesin vektor sokongan satu kelas membina permukaan tak linear di sekeliling asal. Adalah mungkin untuk menetapkan had cutoff yang mana data dianggap sebagai anomali.

Berdasarkan pengalaman pasukan DATA4 kami, One-Class SVM ialah algoritma yang paling biasa digunakan untuk menyelesaikan masalah mencari anomali.

9 pendekatan untuk mengesan anomali

2) Mengasingkan kaedah hutan

Dengan kaedah "rawak" untuk membina pokok, pelepasan akan memasuki daun pada peringkat awal (pada kedalaman cetek pokok), i.e. pelepasan lebih mudah untuk "diasingkan." Pengasingan nilai anomali berlaku dalam lelaran pertama algoritma.

9 pendekatan untuk mengesan anomali

3) Sampul eliptik dan kaedah statistik

Digunakan apabila data diedarkan secara normal. Semakin dekat ukuran dengan ekor campuran taburan, semakin anomali nilainya.

Kaedah statistik lain juga boleh dimasukkan ke dalam kelas ini.

9 pendekatan untuk mengesan anomali

9 pendekatan untuk mengesan anomali
Imej dari dyakonov.org

4) Kaedah metrik

Kaedah termasuk algoritma seperti jiran k-terdekat, jiran k-terdekat, ABOD (pengesanan outlier berasaskan sudut) atau LOF (faktor terpencil tempatan).

Sesuai jika jarak antara nilai dalam ciri adalah setara atau dinormalisasi (supaya tidak mengukur boa constrictor dalam burung kakak tua).

Algoritma k-nerest neighbors mengandaikan bahawa nilai normal terletak di kawasan ruang multidimensi tertentu, dan jarak ke anomali akan lebih besar daripada hyperplane yang memisahkan.

9 pendekatan untuk mengesan anomali

5) Kaedah kluster

Intipati kaedah kluster ialah jika nilai lebih daripada jumlah tertentu dari pusat kluster, nilai itu boleh dianggap anomali.

Perkara utama ialah menggunakan algoritma yang mengelompokkan data dengan betul, yang bergantung pada tugas tertentu.

9 pendekatan untuk mengesan anomali

6) Kaedah komponen utama

Sesuai di mana arah perubahan terbesar dalam penyebaran diserlahkan.

7) Algoritma berdasarkan ramalan siri masa

Ideanya ialah jika nilai berada di luar selang keyakinan ramalan, nilai itu dianggap anomali. Untuk meramalkan siri masa, algoritma seperti pelicinan tiga kali ganda, S(ARIMA), penggalak, dsb. digunakan.

Algoritma ramalan siri masa telah dibincangkan dalam artikel sebelumnya.

9 pendekatan untuk mengesan anomali

8) Pembelajaran diselia (regresi, klasifikasi)

Jika data membenarkan, kami menggunakan algoritma daripada regresi linear kepada rangkaian berulang. Mari kita ukur perbezaan antara ramalan dan nilai sebenar, dan buat kesimpulan sejauh mana data menyimpang daripada norma. Adalah penting bahawa algoritma mempunyai keupayaan generalisasi yang mencukupi dan set latihan tidak mengandungi nilai anomali.

9) Ujian model

Mari kita mendekati masalah mencari anomali sebagai masalah mencari cadangan. Mari kita uraikan matriks ciri kami menggunakan mesin SVD atau pemfaktoran, dan ambil nilai dalam matriks baharu yang jauh berbeza daripada yang asal sebagai anomali.

9 pendekatan untuk mengesan anomali

Imej dari dyakonov.org

Kesimpulan

Dalam artikel ini, kami menyemak pendekatan utama untuk pengesanan anomali.

Mencari anomali dalam banyak cara boleh dipanggil seni. Tiada algoritma atau pendekatan yang ideal, penggunaannya menyelesaikan semua masalah. Lebih kerap satu set kaedah digunakan untuk menyelesaikan kes tertentu. Pengesanan anomali dijalankan menggunakan mesin vektor sokongan satu kelas, mengasingkan hutan, kaedah metrik dan kelompok, serta menggunakan komponen utama dan ramalan siri masa.

Jika anda tahu kaedah lain, tulis tentangnya dalam ulasan artikel.

Sumber: www.habr.com

Tambah komen