В
ứng dụng
Phát hiện bất thường được sử dụng trong các lĩnh vực như:
1) Dự đoán sự cố thiết bị
Do đó, vào năm 2010, các máy ly tâm của Iran đã bị virus Stuxnet tấn công, khiến thiết bị ở trạng thái hoạt động không tối ưu và vô hiệu hóa một số thiết bị do hao mòn nhanh.
Nếu thuật toán phát hiện bất thường đã được sử dụng trên thiết bị thì tình trạng lỗi có thể tránh được.
Việc tìm kiếm những điểm bất thường trong hoạt động của thiết bị không chỉ được sử dụng trong ngành công nghiệp hạt nhân mà còn trong luyện kim và vận hành tua-bin máy bay. Và ở những lĩnh vực khác, nơi việc sử dụng chẩn đoán dự đoán sẽ rẻ hơn những tổn thất có thể xảy ra do sự cố không thể đoán trước.
2) Dự đoán gian lận
Nếu tiền được rút từ thẻ bạn sử dụng ở Podolsk ở Albania, các giao dịch có thể cần được kiểm tra thêm.
3) Xác định các mô hình tiêu dùng bất thường
Nếu một số khách hàng có hành vi bất thường thì có thể có vấn đề gì đó mà bạn không nhận ra.
4) Xác định nhu cầu và phụ tải bất thường
Nếu doanh số bán hàng tại một cửa hàng FMCG giảm xuống dưới khoảng tin cậy của dự báo thì cần tìm ra lý do cho những gì đang xảy ra.
Các phương pháp xác định dị thường
1) Máy vectơ hỗ trợ với SVM một lớp một lớp
Thích hợp khi dữ liệu trong tập huấn luyện tuân theo phân phối chuẩn, nhưng tập kiểm tra có chứa các điểm bất thường.
Máy vectơ hỗ trợ một lớp xây dựng một bề mặt phi tuyến xung quanh gốc tọa độ. Có thể đặt giới hạn giới hạn cho dữ liệu nào được coi là bất thường.
Dựa trên kinh nghiệm của nhóm DATA4 của chúng tôi, SVM một lớp là thuật toán được sử dụng phổ biến nhất để giải quyết vấn đề tìm kiếm điểm bất thường.
2) Phương pháp cô lập rừng
Với phương pháp xây dựng cây “ngẫu nhiên”, khí thải sẽ xâm nhập vào lá ở giai đoạn đầu (ở độ sâu nông của cây), tức là. khí thải dễ “cô lập” hơn. Việc cô lập các giá trị dị thường xảy ra trong lần lặp đầu tiên của thuật toán.
3) Đường bao elip và phương pháp thống kê
Được sử dụng khi dữ liệu được phân phối bình thường. Phép đo càng gần đuôi của hỗn hợp phân phối thì giá trị càng bất thường.
Các phương pháp thống kê khác cũng có thể được đưa vào lớp này.
Hình ảnh từ dyakonov.org
4) Phương pháp số liệu
Các phương pháp bao gồm các thuật toán như k-láng giềng gần nhất, k-láng giềng gần nhất, ABOD (phát hiện ngoại lệ dựa trên góc) hoặc LOF (yếu tố ngoại lệ cục bộ).
Thích hợp nếu khoảng cách giữa các giá trị trong các đặc điểm là tương đương hoặc được chuẩn hóa (để không đo được con trăn ở vẹt).
Thuật toán k-láng giềng gần nhất giả định rằng các giá trị bình thường nằm trong một vùng không gian đa chiều nhất định và khoảng cách đến các điểm dị thường sẽ lớn hơn so với siêu phẳng phân tách.
5) Phương pháp cụm
Bản chất của các phương pháp phân cụm là nếu một giá trị cách xa tâm cụm nhiều hơn một mức nhất định thì giá trị đó có thể được coi là bất thường.
Điều chính là sử dụng thuật toán phân cụm dữ liệu một cách chính xác, điều này phụ thuộc vào nhiệm vụ cụ thể.
6) Phương pháp thành phần chính
Thích hợp khi các hướng có sự thay đổi lớn nhất về độ phân tán được làm nổi bật.
7) Thuật toán dựa trên dự báo chuỗi thời gian
Ý tưởng là nếu một giá trị nằm ngoài khoảng tin cậy dự đoán thì giá trị đó được coi là bất thường. Để dự đoán chuỗi thời gian, các thuật toán như làm mịn ba lần, S(ARIMA), tăng tốc, v.v. được sử dụng.
Các thuật toán dự báo chuỗi thời gian đã được thảo luận trong bài viết trước.
8) Học có giám sát (hồi quy, phân loại)
Nếu dữ liệu cho phép, chúng tôi sử dụng các thuật toán từ hồi quy tuyến tính đến mạng lặp lại. Hãy đo lường sự khác biệt giữa dự đoán và giá trị thực tế và đưa ra kết luận về mức độ dữ liệu sai lệch so với định mức. Điều quan trọng là thuật toán có đủ khả năng khái quát hóa và tập huấn luyện không chứa các giá trị bất thường.
9) Kiểm tra mô hình
Hãy tiếp cận vấn đề tìm kiếm sự bất thường như vấn đề tìm kiếm khuyến nghị. Hãy phân tách ma trận đặc trưng của chúng ta bằng cách sử dụng SVD hoặc máy nhân tố hóa và lấy các giá trị trong ma trận mới khác biệt đáng kể so với ma trận ban đầu là bất thường.
Hình ảnh từ dyakonov.org
Kết luận
Trong bài viết này, chúng tôi đã xem xét các phương pháp chính để phát hiện sự bất thường.
Việc tìm ra những điều bất thường theo nhiều cách có thể được gọi là một nghệ thuật. Không có thuật toán hay cách tiếp cận lý tưởng nào mà việc sử dụng chúng có thể giải quyết được mọi vấn đề. Thông thường, một tập hợp các phương pháp được sử dụng để giải quyết một trường hợp cụ thể. Việc phát hiện bất thường được thực hiện bằng cách sử dụng máy vectơ hỗ trợ một lớp, rừng cô lập, phương pháp số liệu và cụm, cũng như sử dụng các thành phần chính và dự báo chuỗi thời gian.
Nếu bạn biết các phương pháp khác, hãy viết về chúng trong phần bình luận cho bài viết.
Nguồn: www.habr.com