Π
Permohonan
Pengesanan anomali digunakan di kawasan seperti:
1) Ramalan kerosakan peralatan
Oleh itu, pada tahun 2010, emparan Iran telah diserang oleh virus Stuxnet, yang menetapkan peralatan kepada operasi tidak optimum dan melumpuhkan beberapa peralatan kerana haus yang dipercepatkan.
Jika algoritma pengesanan anomali telah digunakan pada peralatan, situasi kegagalan boleh dielakkan.
Pencarian anomali dalam pengendalian peralatan digunakan bukan sahaja dalam industri nuklear, tetapi juga dalam metalurgi dan operasi turbin pesawat. Dan di kawasan lain di mana penggunaan diagnostik ramalan adalah lebih murah daripada kemungkinan kerugian akibat kerosakan yang tidak dapat diramalkan.
2) Ramalan penipuan
Jika wang dikeluarkan daripada kad yang anda gunakan di Podolsk di Albania, urus niaga mungkin perlu disemak lebih lanjut.
3) Pengenalpastian corak pengguna yang tidak normal
Jika sesetengah pelanggan menunjukkan tingkah laku yang tidak normal, mungkin terdapat masalah yang anda tidak sedari.
4) Pengenalpastian permintaan dan beban yang tidak normal
Jika jualan di kedai FMCG telah menurun di bawah selang keyakinan ramalan, adalah wajar mencari sebab untuk apa yang berlaku.
Pendekatan untuk mengenal pasti anomali
1) Sokongan Mesin Vektor dengan SVM Satu Kelas Satu
Sesuai apabila data dalam set latihan mengikut taburan normal, tetapi set ujian mengandungi anomali.
Mesin vektor sokongan satu kelas membina permukaan tak linear di sekeliling asal. Adalah mungkin untuk menetapkan had cutoff yang mana data dianggap sebagai anomali.
Berdasarkan pengalaman pasukan DATA4 kami, One-Class SVM ialah algoritma yang paling biasa digunakan untuk menyelesaikan masalah mencari anomali.
2) Mengasingkan kaedah hutan
Dengan kaedah "rawak" untuk membina pokok, pelepasan akan memasuki daun pada peringkat awal (pada kedalaman cetek pokok), i.e. pelepasan lebih mudah untuk "diasingkan." Pengasingan nilai anomali berlaku dalam lelaran pertama algoritma.
3) Sampul eliptik dan kaedah statistik
Digunakan apabila data diedarkan secara normal. Semakin dekat ukuran dengan ekor campuran taburan, semakin anomali nilainya.
Kaedah statistik lain juga boleh dimasukkan ke dalam kelas ini.
Imej dari dyakonov.org
4) Kaedah metrik
Kaedah termasuk algoritma seperti jiran k-terdekat, jiran k-terdekat, ABOD (pengesanan outlier berasaskan sudut) atau LOF (faktor terpencil tempatan).
Sesuai jika jarak antara nilai dalam ciri adalah setara atau dinormalisasi (supaya tidak mengukur boa constrictor dalam burung kakak tua).
Algoritma k-nerest neighbors mengandaikan bahawa nilai normal terletak di kawasan ruang multidimensi tertentu, dan jarak ke anomali akan lebih besar daripada hyperplane yang memisahkan.
5) Kaedah kluster
Intipati kaedah kluster ialah jika nilai lebih daripada jumlah tertentu dari pusat kluster, nilai itu boleh dianggap anomali.
Perkara utama ialah menggunakan algoritma yang mengelompokkan data dengan betul, yang bergantung pada tugas tertentu.
6) Kaedah komponen utama
Sesuai di mana arah perubahan terbesar dalam penyebaran diserlahkan.
7) Algoritma berdasarkan ramalan siri masa
Ideanya ialah jika nilai berada di luar selang keyakinan ramalan, nilai itu dianggap anomali. Untuk meramalkan siri masa, algoritma seperti pelicinan tiga kali ganda, S(ARIMA), penggalak, dsb. digunakan.
Algoritma ramalan siri masa telah dibincangkan dalam artikel sebelumnya.
8) Pembelajaran diselia (regresi, klasifikasi)
Jika data membenarkan, kami menggunakan algoritma daripada regresi linear kepada rangkaian berulang. Mari kita ukur perbezaan antara ramalan dan nilai sebenar, dan buat kesimpulan sejauh mana data menyimpang daripada norma. Adalah penting bahawa algoritma mempunyai keupayaan generalisasi yang mencukupi dan set latihan tidak mengandungi nilai anomali.
9) Ujian model
Mari kita mendekati masalah mencari anomali sebagai masalah mencari cadangan. Mari kita uraikan matriks ciri kami menggunakan mesin SVD atau pemfaktoran, dan ambil nilai dalam matriks baharu yang jauh berbeza daripada yang asal sebagai anomali.
Imej dari dyakonov.org
Kesimpulan
Dalam artikel ini, kami menyemak pendekatan utama untuk pengesanan anomali.
Mencari anomali dalam banyak cara boleh dipanggil seni. Tiada algoritma atau pendekatan yang ideal, penggunaannya menyelesaikan semua masalah. Lebih kerap satu set kaedah digunakan untuk menyelesaikan kes tertentu. Pengesanan anomali dijalankan menggunakan mesin vektor sokongan satu kelas, mengasingkan hutan, kaedah metrik dan kelompok, serta menggunakan komponen utama dan ramalan siri masa.
Jika anda tahu kaedah lain, tulis tentangnya dalam ulasan artikel.
Sumber: www.habr.com