Ezaugarrien aukeraketa makina ikaskuntzan

Aupa Habr!

Reksoft-en dugu artikulua errusierara itzulita Ezaugarrien hautaketa Machine Learning-en. Espero dugu gaian interesa duten guztientzat erabilgarria izatea.

Mundu errealean, datuak ez dira beti negozio bezeroek batzuetan uste bezain garbia. Horregatik eskatzen dira datuen meatzaritza eta datuen arteko eztabaida. Gizakiak identifikatu ezin dituen kontsulta-egituratutako datuetan falta diren balioak eta ereduak identifikatzen laguntzen du. Eredu hauek datuetan aurkitutako erlazioak erabiliz emaitzak iragartzeko aurkitu eta erabiltzeko, ikaskuntza automatikoa oso erabilgarria da.

Edozein algoritmo ulertzeko, datuetako aldagai guztiak aztertu eta aldagai horiek zer adierazten duten irudikatu behar duzu. Hau funtsezkoa da emaitzen atzean dagoen arrazoia datuak ulertzean oinarritzen delako. Datuek 5 edo 50 aldagai badituzte, guztiak aztertu ditzakezu. Eta 200 badira? Orduan, ez da nahikoa denbora izango aldagai bakoitza aztertzeko. Gainera, algoritmo batzuek ez dute funtzionatzen datu kategorikoetarako, eta, orduan, kategoriako zutabe guztiak aldagai kuantitatibo bihurtu beharko dituzu (kuantitatiboki itxura izan dezakete, baina neurketak kategoriakoak direla erakutsiko du) ereduari gehitzeko. Hala, aldagai kopurua handitzen da, eta 500 inguru dira.Zer egin orain? Pentsa liteke erantzuna dimentsio- tasuna murriztea izango litzatekeela. Dimentsioa murrizteko algoritmoek parametro kopurua murrizten dute baina eragin negatiboa dute interpretagarritasunean. Zer gertatzen da beste teknika batzuk badaude ezaugarriak ezabatzen dituztenak gainontzekoak erraz ulertzeko eta interpretatzeko?

Azterketa erregresioan edo sailkapenean oinarritzen den ala ez, ezaugarriak aukeratzeko algoritmoak desberdinak izan daitezke, baina haien ezarpenaren ideia nagusia berdina izaten jarraitzen du.

Korrelazio handiko aldagaiak

Elkarrekin oso erlazionatuta dauden aldagaiek informazio bera ematen diote ereduari, beraz, ez dago denak analisirako erabili beharrik. Adibidez, datu-multzo batek "Online Denbora" eta "Erabilitako trafikoa" ezaugarriak baditu, zertxobait erlazionatuta egongo direla pentsa dezakegu, eta korrelazio sendoa ikusiko dugu, nahiz eta alboragabeko datu-lagin bat hautatu. Kasu honetan, aldagai horietako bakarra behar da ereduan. Biak erabiltzen badituzu, eredua gehiegi egokituko da eta ezaugarri jakin batera bideratuko da.

P-balioak

Erregresio lineala bezalako algoritmoetan, hasierako eredu estatistiko bat ideia ona da beti. Eredu honek lortutako p-balioen bidez ezaugarrien garrantzia erakusten laguntzen du. Esangura-maila ezarrita, ondoriozko p-balioak egiaztatzen ditugu, eta balioren bat zehaztutako esangura-mailaren azpitik badago, orduan ezaugarri hau esanguratsua deklaratzen da, hau da, bere balioa aldatzeak balorearen aldaketa ekarriko du. helburua.

Zuzeneko hautaketa

Aurrerako hautapena urratseko erregresioa aplikatzen duen teknika da. Ereduaren eraikuntza zero oso batekin hasten da, hau da, eredu huts batekin, eta gero iterazio bakoitzak eraikitzen ari den ereduari hobekuntza egiten dion aldagai bat gehitzen du. Ereduari zein aldagai gehitzen zaion bere esanguraren arabera zehazten da. Hau hainbat neurri erabiliz kalkula daiteke. Modurik ohikoena aldagai guztiak erabiliz jatorrizko eredu estatistikoan lortutako p-balioak erabiltzea da. Batzuetan, aurrerako hautaketak eredu bat gehiegi egokitzea ekar dezake, ereduan oso korrelazionatutako aldagaiak egon daitezkeelako, nahiz eta ereduari informazio bera ematen dioten (baina ereduak hobekuntza erakusten du oraindik).

Alderantzizko hautaketa

Alderantzizko hautaketak ezaugarriak urratsez urrats ezabatzea ere dakar, baina aurrerako hautapenarekin alderatuta kontrako norabidean. Kasu honetan, hasierako ereduak aldagai independente guztiak barne hartzen ditu. Ondoren, aldagaiak ezabatzen dira (bat iterazio bakoitzeko) iterazio bakoitzean erregresio eredu berriari baliorik ematen ez badiote. Ezaugarrien bazterketa hasierako ereduaren p-balioetan oinarritzen da. Metodo honek ziurgabetasuna ere badu korrelazio handiko aldagaiak kentzean.

Ezaugarri errekurtsiboen ezabapena

RFE ezaugarri esanguratsuen kopuru zehatza hautatzeko teknika/algoritmo oso erabilia da. Batzuetan, emaitzetan eragina duten hainbat ezaugarri "garrantzitsuenak" azaltzeko erabiltzen da metodoa; eta, batzuetan, aldagai-kopuru oso handia murrizteko (200-400 inguru), eta ereduari gutxienez ekarpen bat egiten diotenak bakarrik mantentzen dira, eta beste guztiak baztertzen dira. RFEk sailkapen sistema bat erabiltzen du. Datu multzoko ezaugarriei mailak esleitzen zaizkie. Ondoren, maila hauek ezaugarriak modu errekurtsiboan ezabatzeko erabiltzen dira, haien arteko kolinealitatean eta ezaugarri horiek ereduan duten garrantzian oinarrituta. Ezaugarrien sailkapenaz gain, RFE-k ezaugarri horiek garrantzitsuak diren edo ez ezaugarri kopuru jakin baterako ere erakutsi dezake (oso litekeena baita aukeratutako ezaugarri kopurua optimoa ez izatea eta ezaugarri kopuru optimoa handiagoa izatea. edo aukeratutako zenbakia baino txikiagoa).

Ezaugarrien Garrantziaren Diagrama

Ikaskuntza automatikoko algoritmoen interpretagarritasunaz hitz egiterakoan, normalean, erregresio linealak (p-balioak erabiliz ezaugarrien garrantzia aztertzea ahalbidetzen dutenak) eta erabakien zuhaitzak (literalki zuhaitz forman ezaugarrien garrantzia erakusten dutenak) eztabaidatzen dugu. aldi berean euren hierarkia). Bestalde, Random Forest, LightGBM eta XG Boost bezalako algoritmoek maiz erabiltzen dute ezaugarrien garrantziaren diagrama, hau da, aldagaien diagrama eta β€œhaien garrantzia zenbakiak” irudikatzen dira. Hau bereziki erabilgarria da atributuek negozioan duten eraginari dagokionez duten garrantziaren arrazoi egituratua eman behar duzunean.

Erregularizazioa

Erregularizazioa alborapenaren eta bariantzaren arteko oreka kontrolatzeko egiten da. Alborapenak erakusten du zenbateraino egokitu den eredua prestakuntza datu multzoan. Desbideratzeak erakusten du zein desberdinak ziren iragarpenak entrenamenduaren eta probaren datu multzoen artean. Egokiena, alborapena eta bariantza txikiak izan behar dira. Hemen erregularizazioa erreskatatu egiten da! Bi teknika nagusi daude:

L1 Erregularizazioa - Lazoa: Lassoak ereduaren pisuak zigortzen ditu ereduarekiko duten garrantzia aldatzeko eta baliogabetu ere egin ditzake (hau da, aldagai horiek azken eredutik kendu). Normalean, Lasso erabiltzen da datu-multzo batek aldagai kopuru handia duenean eta horietako batzuk baztertu nahi dituzunean ezaugarri garrantzitsuak ereduari nola eragiten dioten hobeto ulertzeko (hau da, Lasso-k hautatu dituen eta garrantzia eman zaien ezaugarriak).

L2 Erregularizazioa - Ridge metodoa: Ridgeren lana aldagai guztiak gordetzea da eta, aldi berean, ereduaren errendimenduari egindako ekarpenaren arabera haiei garrantzia ematea da. Ridge aukera ona izango da datu multzoak aldagai kopuru txiki bat badu eta horiek guztiak beharrezkoak badira lortutako aurkikuntzak eta emaitzak interpretatzeko.

Ridgek aldagai guztiak mantentzen dituenez eta Lasso-k haien garrantzia ezartzeko lan hobea egiten duenez, bi erregularizazioen ezaugarri onenak konbinatzen dituen algoritmo bat garatu zen, Elastic-Net izenarekin ezagutzen dena.

Ikaskuntza automatikorako funtzioak aukeratzeko beste modu asko daude, baina ideia nagusia beti da bera: aldagaien garrantzia frogatzea eta, gero, horietako batzuk ezabatzea, ondoriozko garrantziaren arabera. Garrantzia oso termino subjektiboa da, ez baita bat bakarra, funtsezko atributuak aurkitzeko erabil daitezkeen metrika eta diagramen multzo osoa baizik.

Eskerrik asko irakurtzeagatik! Zoriontsu ikaskuntza!

Iturria: www.habr.com

Gehitu iruzkin berria