В
Aplikasi
Deteksi anomali digunakan di berbagai bidang seperti:
1) Prediksi kerusakan peralatan
Misalnya, pada tahun 2010, sentrifugal Iran diserang oleh virus Stuxnet, yang menyebabkan peralatan tersebut tidak beroperasi secara optimal dan menonaktifkan beberapa peralatan karena keausan yang dipercepat.
Jika algoritma deteksi anomali digunakan pada peralatan, situasi kegagalan dapat dihindari.
Pencarian anomali dalam pengoperasian peralatan tidak hanya digunakan dalam industri nuklir, tetapi juga dalam metalurgi dan pengoperasian turbin pesawat. Dan di area lain di mana penggunaan diagnostik prediktif lebih murah daripada kemungkinan kerugian akibat kerusakan yang tidak dapat diprediksi.
2) Prediksi penipuan
Jika uang ditarik dari kartu yang Anda gunakan di Podolsk di Albania, transaksinya mungkin perlu diperiksa lebih lanjut.
3) Identifikasi pola konsumen yang tidak normal
Jika beberapa pelanggan menunjukkan perilaku tidak normal, mungkin ada masalah yang tidak Anda sadari.
4) Identifikasi permintaan dan beban abnormal
Jika penjualan di toko FMCG turun di bawah interval kepercayaan perkiraan, ada baiknya mencari tahu alasan atas apa yang terjadi.
Pendekatan untuk mengidentifikasi anomali
1) Mendukung Mesin Vektor dengan SVM Satu Kelas Satu Kelas
Cocok bila data dalam set pelatihan mengikuti distribusi normal, namun set pengujian mengandung anomali.
Mesin vektor dukungan satu kelas membangun permukaan nonlinier di sekitar titik asal. Dimungkinkan untuk menetapkan batas batas data yang dianggap anomali.
Berdasarkan pengalaman tim DATA4 kami, One-Class SVM adalah algoritma yang paling umum digunakan untuk memecahkan masalah pencarian anomali.
2) Metode isolasi hutan
Dengan metode pembuatan pohon “acak”, emisi akan masuk ke daun pada tahap awal (pada kedalaman pohon yang dangkal), yaitu. emisi lebih mudah untuk “diisolasi.” Isolasi nilai anomali terjadi pada iterasi pertama algoritma.
3) Amplop elips dan metode statistik
Digunakan ketika data berdistribusi normal. Semakin dekat pengukuran ke ekor campuran distribusi, semakin besar anomali nilainya.
Metode statistik lainnya juga dapat dimasukkan dalam kelas ini.
Gambar dari dyakonov.org
4) Metode metrik
Metodenya mencakup algoritma seperti k-nearest neighbour, k-nearest neighbour, ABOD (angle-based outlier deteksi) atau LOF (local outlier factor).
Cocok jika jarak antara nilai-nilai dalam karakteristik setara atau dinormalisasi (agar tidak mengukur ular boa pada burung beo).
Algoritma k-nearest neighbours mengasumsikan bahwa nilai normal terletak di wilayah tertentu dalam ruang multidimensi, dan jarak ke anomali akan lebih besar daripada jarak ke hyperplane pemisah.
5) Metode klaster
Inti dari metode cluster adalah jika suatu nilai lebih dari jumlah tertentu dari pusat cluster, maka nilai tersebut dapat dianggap anomali.
Hal utama adalah menggunakan algoritma yang mengelompokkan data dengan benar, yang bergantung pada tugas spesifik.
6) Metode komponen utama
Cocok jika arah perubahan dispersi terbesar disorot.
7) Algoritma berdasarkan peramalan deret waktu
Idenya adalah jika suatu nilai berada di luar interval kepercayaan prediksi, nilai tersebut dianggap anomali. Untuk memprediksi deret waktu, digunakan algoritma seperti triple smoothing, S(ARIMA), boosting, dll.
Algoritma peramalan deret waktu telah dibahas pada artikel sebelumnya.
8) Pembelajaran yang diawasi (regresi, klasifikasi)
Jika data memungkinkan, kami menggunakan algoritme mulai dari regresi linier hingga jaringan berulang. Mari kita ukur perbedaan antara prediksi dan nilai sebenarnya, dan tarik kesimpulan sejauh mana data tersebut menyimpang dari norma. Penting agar algoritme memiliki kemampuan generalisasi yang memadai dan set pelatihan tidak mengandung nilai yang ganjil.
9) Tes model
Mari kita dekati masalah pencarian anomali sebagai masalah pencarian rekomendasi. Mari kita dekomposisi matriks fitur kita menggunakan SVD atau mesin faktorisasi, dan ambil nilai dalam matriks baru yang berbeda secara signifikan dari nilai asli sebagai anomali.
Gambar dari dyakonov.org
Kesimpulan
Pada artikel ini, kami meninjau pendekatan utama untuk mendeteksi anomali.
Menemukan anomali dalam banyak hal bisa disebut sebagai seni. Tidak ada algoritma atau pendekatan yang ideal, yang penggunaannya dapat menyelesaikan semua masalah. Seringkali serangkaian metode digunakan untuk menyelesaikan kasus tertentu. Deteksi anomali dilakukan dengan menggunakan mesin vektor dukungan satu kelas, mengisolasi hutan, metode metrik dan cluster, serta menggunakan komponen utama dan peramalan deret waktu.
Jika Anda mengetahui metode lain, tulislah di komentar artikel.
Sumber: www.habr.com