9 падыходаў для выяўлення анамалій

В папярэдняй артыкуле мы казалі аб прагназаванні часовых шэрагаў. Лагічным працягам будзе артыкул аб выяўленні анамалій.

Ужыванне

Выяўленне анамалій выкарыстоўваецца ў такіх галінах як:

1) Прадказанне паломак абсталявання

Так, у 2010 годзе Іранскія цэнтрыфугі былі атакаваны вірусам Stuxnet, які задаў неаптымальны рэжым працы абсталявання і вывеў са строю частку абсталявання за кошт паскоранага зносу.

Калі б на абсталяванні выкарыстоўваліся алгарытмы пошуку анамалій, сітуацыі выйсця са строю можна было пазбегнуць.

9 падыходаў для выяўлення анамалій

Пошук анамалій у рабоце абсталявання выкарыстоўваецца не толькі ў атамнай прамысловасці, але і ў металургіі, і рабоце авіяцыйных турбін. І ў іншых галінах, дзе выкарыстанне прэдыктыўнай дыягностыкі танней магчымых страт пры непрагназуемай паломцы.

2) Прадказанне ашуканскіх дзеянняў

Калі з карты, якой вы карыстаецеся ў Падольску, здымаюць грошы ў Албаніі, магчыма, транзакцыі трэба дадаткова праверыць.

3) Выяўленне анамальных спажывецкіх патэрнаў

Калі частка кліентаў дэманструе анамальныя паводзіны, магчыма, ёсць праблема, пра якую вы не ведаеце.

4) Выяўленне анамальнага попыту і нагрузкі

Калі продажу ў краме FMCG панізіліся ніжэй за мяжу давернага інтэрвалу прагнозу, варта знайсці прычыну таго, што адбываецца.

Падыходы да выяўлення анамалій

1) Метад апорных вектараў з адным класам One-Class SVM

Падыходзіць, калі ў навучальным наборы дадзеныя падпарадкоўваюцца звычайнаму размеркаванню, а ў тэставым утрымоўваюць анамаліі.

Аднакласавы метад апорных вектараў будуе нелінейную паверхню вакол пачатку каардынат. Можна задаць мяжу адсячэння, якія дадзеныя лічыць анамальнымі.

Зыходзячы з досведу нашай каманды DATA4, One-Class SVM самы часта выкарыстоўваны алгарытм для рашэння задачы пошуку анамалій.

9 падыходаў для выяўлення анамалій

2) Метад ізалявальнага лесу - isolate forest

Пры "выпадковым" спосабе пабудовы дрэў выкіды будуць трапляць у лісце на ранніх этапах (на невялікай глыбіні дрэва), г.зн. выкіды прасцей "ізаляваць". Вылучэнне анамальных значэнняў адбываецца на першых ітэрацыях працы алгарытму.

9 падыходаў для выяўлення анамалій

3) Elliptic envelope і статыстычныя метады

Выкарыстоўваецца, калі дадзеныя нармальна размеркаваны. Чым бліжэй вымярэнне да хваста сумесі размеркаванняў, тым больш анамальна значэнне.

Да дадзенага класа можна аднесці і іншыя статыстычныя метады.

9 падыходаў для выяўлення анамалій

9 падыходаў для выяўлення анамалій
Выява з сайта dyakonov.org

4) Мэтрычныя метады

Да метадаў адносяцца такія алгарытмы, як k бліжэйшых суседзяў, k-га бліжэйшага суседа, ABOD (angle-based outlier detection) або LOF (local outlier factor).

Падыходзяць, калі адлегласць паміж значэннямі ў прыкметах раўназначныя або нармаваныя (каб не вымяраць ўдава ў папугаях).

Алгарытм k бліжэйшых суседзяў мяркуе, што нармальныя значэння размешчаны ў пэўнай вобласці шматмернай прасторы, а адлегласць да анамалій будзе больш, чым да падзяляльнай гіперплоскасці.

9 падыходаў для выяўлення анамалій

5) Кластарныя метады

Сутнасць кластарных метадаў складаецца ў тым, што калі значэнне выдаленае ад цэнтраў кластараў больш за на вызначаную велічыню, значэнне можна лічыць анамальным.

Галоўнае, выкарыстоўваць алгарытм, якія правільна кластэрызуюць дадзеныя, што залежыць ад канкрэтнай задачы.

9 падыходаў для выяўлення анамалій

6) Метад галоўных кампанент

Падыходзіць, дзе вылучаюцца напрамкі найбольшай змены дысперсіі.

7) Алгарытмы на аснове прагназавання часовых шэрагаў

Ідэя заключаецца ў тым, што калі значэнне выбіваецца з давернага інтэрвалу прадказанні, значэнне лічыцца анамальным. Для прадказанні часавага шэрагу выкарыстоўваюцца такія алгарытмы, як патройнае згладжванне, S(ARIMA), бустынг і г.д.

Пра алгарытмы прагназавання часовага шэрагу гаварылася ў папярэднім артыкуле.

9 падыходаў для выяўлення анамалій

8) Навучанне з настаўнікам (рэгрэсія, класіфікацыя)

Калі дадзеныя дазваляюць, выкарыстоўваем алгарытмы пачынальна ад лінейнай рэгрэсіі і сканчаючы рэкурэнтнымі сеткамі. Замерым розніцу паміж прадказаннем і фактычным значэннем, і зробім выснову, наколькі дадзеныя выбіваюцца з нормы. Важна, каб алгарытм валодаў дастатковай абагульняючай здольнасцю, і навучалая выбарка не ўтрымоўвала анамальных значэнняў.

9) Мадэльныя тэсты

Падыдзем да задачы пошуку анамалій як да задачы пошуку рэкамендацый. Раскладзем нашу матрыцу прыкмет з дапамогай SVD ці факторызацыйных машын, і значэнні ў новай матрыцы, істотна адрозныя ад зыходных, прымем анамальнымі.

9 падыходаў для выяўлення анамалій

Выява з сайта dyakonov.org

Заключэнне

У гэтым артыкуле мы разгледзелі асноўныя падыходы да выяўлення анамалій.

Пошук анамалій шмат у чым можна назваць мастацтвам. Няма ідэальнага алгарытму ці падыходу, ужыванне якога вырашае ўсе задачы. Часцей за выкарыстоўваецца комплекс метадаў для вырашэння канкрэтнага кейса. Пошук анамалій ажыццяўляецца з дапамогай аднакласавага метаду апорных вектараў, ізалявальнага лесу, метрычных і кластарных метадаў, а таксама з выкарыстаннем галоўных кампанент і прагназаванні часавых шэрагаў.

Калі вы ведаеце іншыя метады, напішыце пра іх у каментары да артыкула.

Крыніца: habr.com

Дадаць каментар