Aṣayan ẹya ara ẹrọ ni ẹkọ ẹrọ

Hey Habr!

A ni Reksoft tumọ nkan naa si Russian Aṣayan ẹya ara ẹrọ ni Ẹkọ ẹrọ. A nireti pe yoo wulo fun gbogbo eniyan ti o nifẹ si koko-ọrọ naa.

Ni agbaye gidi, data kii ṣe nigbagbogbo bi mimọ bi awọn alabara iṣowo ṣe ronu nigbakan. Eyi ni idi ti iwakusa data ati jijakadi data wa ni ibeere. O ṣe iranlọwọ idanimọ awọn iye ti o padanu ati awọn ilana ni data ti iṣeto ibeere ti eniyan ko le ṣe idanimọ. Lati le wa ati lo awọn ilana wọnyi lati ṣe asọtẹlẹ awọn abajade nipa lilo awọn ibatan ti a ṣe awari ninu data, ẹkọ ẹrọ wa ni ọwọ.

Lati loye eyikeyi alugoridimu, o nilo lati wo gbogbo awọn oniyipada ninu data naa ki o ṣe akiyesi kini awọn oniyipada yẹn ṣe aṣoju. Eyi ṣe pataki nitori idi ti o wa lẹhin awọn abajade da lori agbọye data naa. Ti data naa ba ni awọn oniyipada 5 tabi paapaa 50, o le ṣayẹwo gbogbo wọn. Ti o ba jẹ 200 ninu wọn nko? Lẹhinna kii yoo ni akoko ti o to lati kawe gbogbo oniyipada kan. Pẹlupẹlu, diẹ ninu awọn algoridimu ko ṣiṣẹ fun data isọri, lẹhinna o yoo ni lati yi gbogbo awọn ọwọn isori pada si awọn oniyipada titobi (wọn le wo titobi, ṣugbọn awọn metiriki yoo fihan pe wọn jẹ isori) lati ṣafikun wọn si awoṣe. Bayi, nọmba awọn oniyipada pọ si, ati pe o wa nipa 500. Kini lati ṣe ni bayi? Ẹnikan le ro pe idahun yoo jẹ lati dinku iwọn. Awọn algoridimu idinku iwọn iwọn dinku nọmba awọn paramita ṣugbọn ni ipa odi lori itumọ. Kini ti o ba wa awọn ilana miiran ti o yọkuro awọn ẹya lakoko ṣiṣe awọn ti o ku ni irọrun lati ni oye ati itumọ?

Da lori boya itupalẹ naa da lori ipadasẹhin tabi ipinya, awọn algoridimu yiyan ẹya le yatọ, ṣugbọn imọran akọkọ ti imuse wọn jẹ kanna.

Awọn Oniyipada Ibadọgba Giga

Awọn oniyipada ti o ni ibatan pupọ pẹlu ara wọn pese alaye kanna si awoṣe, nitorinaa ko si iwulo lati lo gbogbo wọn fun itupalẹ. Fun apẹẹrẹ, ti datasetiti kan ba ni awọn ẹya “Aago ori Ayelujara” ati “Ilo-ọja ti a lo”, a le ro pe wọn yoo ni ibatan diẹ, ati pe a yoo rii ibaramu to lagbara paapaa ti a ba yan apẹẹrẹ data aiṣedeede. Ni idi eyi, ọkan ninu awọn oniyipada wọnyi nilo ni awoṣe. Ti o ba lo awọn mejeeji, awoṣe yoo jẹ apọju ati abosi si ẹya kan pato.

P-iye

Ninu awọn algoridimu bii ipadasẹhin laini, awoṣe iṣiro akọkọ jẹ imọran to dara nigbagbogbo. O ṣe iranlọwọ lati ṣafihan pataki ti awọn ẹya nipasẹ awọn iye p-ti wọn gba nipasẹ awoṣe yii. Lẹhin ti ṣeto ipele pataki, a ṣayẹwo awọn idiyele p-ayọrisi, ati pe ti iye eyikeyi ba wa ni isalẹ ipele pataki ti a sọ tẹlẹ, lẹhinna ẹya ara ẹrọ yii ni a kede pataki, iyẹn ni, iyipada ninu iye rẹ yoo ṣeeṣe ja si iyipada ni iye ti afojusun.

Aṣayan taara

Yiyan siwaju jẹ ilana kan ti o kan lilo ipadasẹhin igbesẹ. Ilé awoṣe bẹrẹ pẹlu odo pipe, iyẹn ni, awoṣe ṣofo, ati lẹhinna aṣetunṣe kọọkan ṣafikun oniyipada ti o mu ilọsiwaju si awoṣe ti a kọ. Iru iyipada wo ni a fi kun si awoṣe jẹ ipinnu nipasẹ pataki rẹ. Eyi le ṣe iṣiro nipa lilo awọn metiriki oriṣiriṣi. Ọna ti o wọpọ julọ ni lati lo awọn iye p-ti o gba ni awoṣe iṣiro atilẹba nipa lilo gbogbo awọn oniyipada. Nigba miiran yiyan siwaju le ja si overfitting awoṣe nitori pe awọn oniyipada ti o ni ibatan gaan le wa ninu awoṣe, paapaa ti wọn ba pese alaye kanna si awoṣe (ṣugbọn awoṣe tun fihan ilọsiwaju).

Yiyan yiyipada

Yiyan yiyipada tun pẹlu imukuro igbese-nipasẹ-igbesẹ ti awọn abuda, ṣugbọn ni ọna idakeji akawe si yiyan siwaju. Ni idi eyi, awoṣe akọkọ pẹlu gbogbo awọn oniyipada ominira. Awọn oniyipada lẹhinna yọkuro (ọkan fun aṣetunṣe) ti wọn ko ba ṣe alabapin iye si awoṣe ifasilẹyin tuntun ni aṣetunṣe kọọkan. Iyasọtọ ẹya da lori awọn iye p ti awoṣe akọkọ. Ọna yii tun ni aidaniloju nigba yiyọ awọn oniyipada ti o ni ibatan gaan kuro.

Recursive Ẹya Imukuro

RFE jẹ ilana ti o gbajumo ni lilo / alugoridimu fun yiyan nọmba gangan ti awọn ẹya pataki. Nigba miiran ọna naa ni a lo lati ṣe alaye nọmba kan ti awọn ẹya "pataki julọ" ti o ni ipa awọn esi; ati ki o ma din kan gan tobi nọmba ti oniyipada (nipa 200-400), ati ki o nikan awon ti o ṣe ni o kere diẹ ninu awọn ilowosi si awọn awoṣe ti wa ni idaduro, ati gbogbo awọn miiran ti wa ni rara. RFE nlo eto ipo. Awọn ẹya ara ẹrọ ti o wa ninu ṣeto data jẹ awọn ipo sọtọ. Awọn ipo wọnyi ni a lo lati yọkuro awọn ẹya leralera ti o da lori ibaramu laarin wọn ati pataki ti awọn ẹya wọnyẹn ninu awoṣe. Ni afikun si awọn ẹya ara ẹrọ, RFE le fihan boya awọn ẹya wọnyi ṣe pataki tabi kii ṣe paapaa fun nọmba awọn ẹya ti a fun (nitori pe o ṣee ṣe pe nọmba ti a yan ti awọn ẹya le ma dara julọ, ati pe nọmba ti o dara julọ ti awọn ẹya le jẹ boya diẹ sii). tabi kere ju nọmba ti o yan).

Aworan pataki Ẹya

Nigbati o ba sọrọ nipa itumọ ti awọn algoridimu ikẹkọ ẹrọ, a maa n jiroro lori awọn atunṣe laini (eyiti o gba ọ laaye lati ṣe itupalẹ pataki awọn ẹya nipa lilo awọn iye p) ati awọn igi ipinnu (itumọ ọrọ gangan ti o ṣe afihan pataki awọn ẹya ni irisi igi, ati ni awọn akoko kanna wọn logalomomoise). Ni apa keji, awọn algoridimu bii Random Forest, LightGBM ati XG Boost nigbagbogbo lo apẹrẹ pataki ẹya kan, iyẹn ni, aworan atọka ti awọn oniyipada ati “awọn nọmba pataki wọn” ti wa ni igbero. Eyi jẹ iwulo paapaa nigbati o nilo lati pese ọgbọn ti iṣeto fun pataki ti awọn abuda ni awọn ofin ti ipa wọn lori iṣowo naa.

Iṣatunṣe

Ṣiṣe deede ni a ṣe lati ṣakoso iwọntunwọnsi laarin irẹjẹ ati iyatọ. Ojuṣaaju fihan iye ti awoṣe ti ṣaju lori ṣeto data ikẹkọ. Iyatọ naa fihan bi awọn asọtẹlẹ ṣe yatọ si laarin ikẹkọ ati awọn iwe data idanwo. Bi o ṣe yẹ, mejeeji irẹjẹ ati iyatọ yẹ ki o jẹ kekere. Eyi ni ibiti isọdọtun wa si igbala! Awọn imọ-ẹrọ akọkọ meji wa:

Ilana L1 - Lasso: Lasso ṣe ijiya awọn iwuwo awoṣe lati yi pataki wọn pada si awoṣe ati paapaa le pa wọn kuro (ie yọ awọn oniyipada wọnyẹn kuro ni awoṣe ikẹhin). Ni deede, Lasso ni a lo nigbati data data kan ni nọmba nla ti awọn oniyipada ati pe o fẹ yọkuro diẹ ninu wọn lati ni oye daradara bi awọn ẹya pataki ṣe ni ipa lori awoṣe (iyẹn, awọn ẹya wọnyẹn ti Lasso ti yan ati pe wọn ti yan pataki).

Ilana L2 - Ọna Ridge: Iṣẹ Ridge ni lati tọju gbogbo awọn oniyipada ati ni akoko kanna fi pataki si wọn da lori ilowosi wọn si iṣẹ awoṣe. Ridge yoo jẹ yiyan ti o dara ti datasetset ba ni nọmba kekere ti awọn oniyipada ati gbogbo wọn jẹ pataki lati tumọ awọn awari ati awọn abajade ti o gba.

Niwọn igba ti Ridge n tọju gbogbo awọn oniyipada ati Lasso ṣe iṣẹ ti o dara julọ lati fi idi pataki wọn mulẹ, a ṣe agbekalẹ algorithm kan ti o ṣajọpọ awọn ẹya ti o dara julọ ti awọn adaṣe deede mejeeji, ti a mọ ni Elastic-Net.

Ọpọlọpọ awọn ọna diẹ sii wa lati yan awọn ẹya ara ẹrọ fun ẹkọ ẹrọ, ṣugbọn ero akọkọ jẹ nigbagbogbo kanna: ṣe afihan pataki ti awọn oniyipada ati lẹhinna imukuro diẹ ninu wọn ti o da lori pataki abajade. Pataki jẹ ọrọ ti ara ẹni pupọ, nitori kii ṣe ẹyọkan, ṣugbọn gbogbo ṣeto ti awọn metiriki ati awọn shatti ti o le ṣee lo lati wa awọn abuda bọtini.

O ṣeun fun kika! Idunnu eko!

orisun: www.habr.com

Fi ọrọìwòye kun