В
Ужыванне
Выяўленне анамалій выкарыстоўваецца ў такіх галінах як:
1) Прадказанне паломак абсталявання
Так, у 2010 годзе Іранскія цэнтрыфугі былі атакаваны вірусам Stuxnet, які задаў неаптымальны рэжым працы абсталявання і вывеў са строю частку абсталявання за кошт паскоранага зносу.
Калі б на абсталяванні выкарыстоўваліся алгарытмы пошуку анамалій, сітуацыі выйсця са строю можна было пазбегнуць.
Пошук анамалій у рабоце абсталявання выкарыстоўваецца не толькі ў атамнай прамысловасці, але і ў металургіі, і рабоце авіяцыйных турбін. І ў іншых галінах, дзе выкарыстанне прэдыктыўнай дыягностыкі танней магчымых страт пры непрагназуемай паломцы.
2) Прадказанне ашуканскіх дзеянняў
Калі з карты, якой вы карыстаецеся ў Падольску, здымаюць грошы ў Албаніі, магчыма, транзакцыі трэба дадаткова праверыць.
3) Выяўленне анамальных спажывецкіх патэрнаў
Калі частка кліентаў дэманструе анамальныя паводзіны, магчыма, ёсць праблема, пра якую вы не ведаеце.
4) Выяўленне анамальнага попыту і нагрузкі
Калі продажу ў краме FMCG панізіліся ніжэй за мяжу давернага інтэрвалу прагнозу, варта знайсці прычыну таго, што адбываецца.
Падыходы да выяўлення анамалій
1) Метад апорных вектараў з адным класам One-Class SVM
Падыходзіць, калі ў навучальным наборы дадзеныя падпарадкоўваюцца звычайнаму размеркаванню, а ў тэставым утрымоўваюць анамаліі.
Аднакласавы метад апорных вектараў будуе нелінейную паверхню вакол пачатку каардынат. Можна задаць мяжу адсячэння, якія дадзеныя лічыць анамальнымі.
Зыходзячы з досведу нашай каманды DATA4, One-Class SVM самы часта выкарыстоўваны алгарытм для рашэння задачы пошуку анамалій.
2) Метад ізалявальнага лесу - isolate forest
Пры "выпадковым" спосабе пабудовы дрэў выкіды будуць трапляць у лісце на ранніх этапах (на невялікай глыбіні дрэва), г.зн. выкіды прасцей "ізаляваць". Вылучэнне анамальных значэнняў адбываецца на першых ітэрацыях працы алгарытму.
3) Elliptic envelope і статыстычныя метады
Выкарыстоўваецца, калі дадзеныя нармальна размеркаваны. Чым бліжэй вымярэнне да хваста сумесі размеркаванняў, тым больш анамальна значэнне.
Да дадзенага класа можна аднесці і іншыя статыстычныя метады.
Выява з сайта dyakonov.org
4) Мэтрычныя метады
Да метадаў адносяцца такія алгарытмы, як k бліжэйшых суседзяў, k-га бліжэйшага суседа, ABOD (angle-based outlier detection) або LOF (local outlier factor).
Падыходзяць, калі адлегласць паміж значэннямі ў прыкметах раўназначныя або нармаваныя (каб не вымяраць ўдава ў папугаях).
Алгарытм k бліжэйшых суседзяў мяркуе, што нармальныя значэння размешчаны ў пэўнай вобласці шматмернай прасторы, а адлегласць да анамалій будзе больш, чым да падзяляльнай гіперплоскасці.
5) Кластарныя метады
Сутнасць кластарных метадаў складаецца ў тым, што калі значэнне выдаленае ад цэнтраў кластараў больш за на вызначаную велічыню, значэнне можна лічыць анамальным.
Галоўнае, выкарыстоўваць алгарытм, якія правільна кластэрызуюць дадзеныя, што залежыць ад канкрэтнай задачы.
6) Метад галоўных кампанент
Падыходзіць, дзе вылучаюцца напрамкі найбольшай змены дысперсіі.
7) Алгарытмы на аснове прагназавання часовых шэрагаў
Ідэя заключаецца ў тым, што калі значэнне выбіваецца з давернага інтэрвалу прадказанні, значэнне лічыцца анамальным. Для прадказанні часавага шэрагу выкарыстоўваюцца такія алгарытмы, як патройнае згладжванне, S(ARIMA), бустынг і г.д.
Пра алгарытмы прагназавання часовага шэрагу гаварылася ў папярэднім артыкуле.
8) Навучанне з настаўнікам (рэгрэсія, класіфікацыя)
Калі дадзеныя дазваляюць, выкарыстоўваем алгарытмы пачынальна ад лінейнай рэгрэсіі і сканчаючы рэкурэнтнымі сеткамі. Замерым розніцу паміж прадказаннем і фактычным значэннем, і зробім выснову, наколькі дадзеныя выбіваюцца з нормы. Важна, каб алгарытм валодаў дастатковай абагульняючай здольнасцю, і навучалая выбарка не ўтрымоўвала анамальных значэнняў.
9) Мадэльныя тэсты
Падыдзем да задачы пошуку анамалій як да задачы пошуку рэкамендацый. Раскладзем нашу матрыцу прыкмет з дапамогай SVD ці факторызацыйных машын, і значэнні ў новай матрыцы, істотна адрозныя ад зыходных, прымем анамальнымі.
Выява з сайта dyakonov.org
Заключэнне
У гэтым артыкуле мы разгледзелі асноўныя падыходы да выяўлення анамалій.
Пошук анамалій шмат у чым можна назваць мастацтвам. Няма ідэальнага алгарытму ці падыходу, ужыванне якога вырашае ўсе задачы. Часцей за выкарыстоўваецца комплекс метадаў для вырашэння канкрэтнага кейса. Пошук анамалій ажыццяўляецца з дапамогай аднакласавага метаду апорных вектараў, ізалявальнага лесу, метрычных і кластарных метадаў, а таксама з выкарыстаннем галоўных кампанент і прагназаванні часавых шэрагаў.
Калі вы ведаеце іншыя метады, напішыце пра іх у каментары да артыкула.
Крыніца: habr.com