В
کاربرد
تشخیص ناهنجاری در زمینه هایی مانند:
1) پیش بینی خرابی تجهیزات
بنابراین در سال 2010، سانتریفیوژهای ایرانی مورد حمله ویروس استاکس نت قرار گرفتند که تجهیزات را در حالت غیربهینه قرار داد و برخی از تجهیزات را به دلیل فرسودگی تسریع از کار انداخت.
اگر الگوریتمهای تشخیص ناهنجاری روی تجهیزات استفاده میشد، میتوان از وضعیت خرابی جلوگیری کرد.
جستجوی ناهنجاری ها در عملکرد تجهیزات نه تنها در صنعت هسته ای، بلکه در متالورژی و بهره برداری از توربین های هواپیما نیز استفاده می شود. و در سایر مناطق که استفاده از تشخیص پیش بینی ارزان تر از ضررهای احتمالی به دلیل خرابی غیرقابل پیش بینی است.
2) پیش بینی تقلب
اگر پول از کارتی که در Podolsk در آلبانی استفاده می کنید برداشت شود، ممکن است تراکنش ها نیاز به بررسی بیشتر داشته باشند.
3) شناسایی الگوهای مصرف کننده غیرعادی
اگر برخی از مشتریان رفتار غیرعادی از خود نشان دهند، ممکن است مشکلی وجود داشته باشد که شما از آن آگاه نباشید.
4) شناسایی تقاضا و بار غیرعادی
اگر فروش در یک فروشگاه FMCG کمتر از فاصله اطمینان پیش بینی شده باشد، ارزش آن را دارد که دلیل آنچه را که اتفاق می افتد پیدا کنید.
رویکردهای شناسایی ناهنجاری ها
1) پشتیبانی از ماشین برداری با SVM یک کلاس یک کلاس
زمانی مناسب است که دادههای مجموعه آموزشی از توزیع نرمال پیروی میکنند، اما مجموعه آزمایشی حاوی ناهنجاریهایی است.
ماشین بردار پشتیبان یک کلاس یک سطح غیر خطی در اطراف مبدا می سازد. می توان حدی را تعیین کرد که برای آن داده ها غیرعادی در نظر گرفته شوند.
بر اساس تجربه تیم DATA4 ما، یک کلاس SVM رایج ترین الگوریتم مورد استفاده برای حل مشکل یافتن ناهنجاری ها است.
2) روش جنگل ایزوله
با روش "تصادفی" ساخت درختان، انتشار گازها در مراحل اولیه (در عمق کم درخت) وارد برگ ها می شود. انتشار گازهای گلخانه ای را آسان تر می توان "ایزوله" کرد. جداسازی مقادیر غیرعادی در اولین تکرارهای الگوریتم اتفاق می افتد.
3) پاکت بیضوی و روش های آماری
زمانی استفاده می شود که داده ها به طور معمول توزیع شوند. هرچه اندازهگیری به انتهای مخلوط توزیعها نزدیکتر باشد، مقدار غیرعادیتر است.
سایر روش های آماری را نیز می توان در این کلاس قرار داد.
تصویر از dyakonov.org
4) روش های متریک
روشها شامل الگوریتمهایی مانند k-نزدیکترین همسایه، k-نزدیکترین همسایه، ABOD (تشخیص نقاط پرت مبتنی بر زاویه) یا LOF (ضریب پرت محلی) هستند.
اگر فاصله بین مقادیر در ویژگی ها معادل یا نرمال باشد (به طوری که یک بوآ منقبض کننده در طوطی ها اندازه گیری نشود) مناسب است.
الگوریتم k-نزدیکترین همسایه فرض می کند که مقادیر نرمال در ناحیه خاصی از فضای چند بعدی قرار دارند و فاصله تا ناهنجاری ها بیشتر از ابر صفحه جداکننده خواهد بود.
5) روش های خوشه ای
ماهیت روش های خوشه ای این است که اگر مقداری بیش از مقدار معینی از مراکز خوشه فاصله داشته باشد، می توان آن را غیرعادی در نظر گرفت.
نکته اصلی استفاده از الگوریتمی است که داده ها را به درستی خوشه بندی می کند، که بستگی به کار خاص دارد.
6) روش جزء اصلی
مناسب برای جایی که جهات بیشترین تغییر در پراکندگی مشخص شده است.
7) الگوریتم های مبتنی بر پیش بینی سری های زمانی
ایده این است که اگر مقداری خارج از فاصله اطمینان پیشبینی قرار گیرد، آن مقدار غیرعادی در نظر گرفته میشود. برای پیش بینی یک سری زمانی از الگوریتم هایی مانند هموارسازی سه گانه، S(ARIMA)، تقویت و ... استفاده می شود.
الگوریتم های پیش بینی سری های زمانی در مقاله قبلی مورد بحث قرار گرفت.
8) یادگیری تحت نظارت (رگرسیون، طبقه بندی)
اگر داده ها اجازه دهند، از الگوریتم هایی از رگرسیون خطی تا شبکه های تکراری استفاده می کنیم. بیایید تفاوت بین پیش بینی و مقدار واقعی را اندازه گیری کنیم و به این نتیجه برسیم که تا چه حد داده ها از هنجار منحرف می شوند. مهم است که الگوریتم دارای قابلیت تعمیم کافی باشد و مجموعه آموزشی حاوی مقادیر غیرعادی نباشد.
9) آزمون های مدل
بیایید به مشکل جستجوی ناهنجاری ها به عنوان مشکل جستجوی توصیه ها نزدیک شویم. بیایید ماتریس ویژگی خود را با استفاده از ماشینهای SVD یا فاکتورسازی تجزیه کنیم و مقادیری را در ماتریس جدید که تفاوت قابلتوجهی با ماتریسهای اصلی دارند غیرعادی در نظر بگیریم.
تصویر از dyakonov.org
نتیجه
در این مقاله، رویکردهای اصلی برای تشخیص ناهنجاری را بررسی کردیم.
یافتن ناهنجاری ها را از بسیاری جهات می توان هنر نامید. هیچ الگوریتم یا رویکرد ایده آلی وجود ندارد که استفاده از آن همه مشکلات را حل کند. اغلب از مجموعه ای از روش ها برای حل یک مورد خاص استفاده می شود. تشخیص ناهنجاری با استفاده از ماشینهای بردار پشتیبان یککلاس، جداسازی جنگلها، روشهای متریک و خوشهای و همچنین با استفاده از اجزای اصلی و پیشبینی سریهای زمانی انجام میشود.
اگر روش های دیگری را می شناسید، در نظرات مقاله در مورد آنها بنویسید.
منبع: www.habr.com