Eiginleikaval í vélanámi

Hæ Habr!

Við hjá Reksoft þýddum greinina á rússnesku Eiginleikaval í vélanámi. Við vonum að það nýtist öllum sem hafa áhuga á efninu.

Í hinum raunverulega heimi eru gögn ekki alltaf eins hrein og viðskiptavinir halda stundum. Þetta er ástæðan fyrir því að gagnavinnsla og gagnarugl er eftirsótt. Það hjálpar til við að bera kennsl á vantar gildi og mynstur í fyrirspurnaruppbyggðum gögnum sem menn geta ekki greint. Til að finna og nota þessi mynstur til að spá fyrir um niðurstöður með því að nota uppgötvuð tengsl í gögnunum kemur vélanám sér vel.

Til að skilja hvaða reiknirit sem er þarftu að skoða allar breyturnar í gögnunum og finna út hvað þær breytur tákna. Þetta er mikilvægt vegna þess að rökin á bak við niðurstöðurnar byggjast á því að skilja gögnin. Ef gögnin innihalda 5 eða jafnvel 50 breytur geturðu skoðað þær allar. Hvað ef þeir eru 200? Þá verður einfaldlega ekki nægur tími til að rannsaka hverja einustu breytu. Þar að auki virka sum reiknirit ekki fyrir flokkuð gögn og þá verður þú að breyta öllum flokkadálkum í megindlegar breytur (þær gætu litið út sem megindlegar, en mælingar sýna að þeir eru flokkaðir) til að bæta þeim við líkanið. Þannig fjölgar breytunum og þær eru um 500. Hvað á að gera núna? Maður gæti haldið að svarið væri að draga úr vídd. Reiknirit til minnkunar víddar fækka færibreytum en hafa neikvæð áhrif á túlkunarhæfni. Hvað ef það eru aðrar aðferðir sem útiloka eiginleika en gera þær sem eftir eru auðvelt að skilja og túlka?

Það fer eftir því hvort greiningin byggist á aðhvarfi eða flokkun, eiginleikavalsreikniritin geta verið mismunandi, en meginhugmyndin um útfærslu þeirra er sú sama.

Mjög tengdar breytur

Breytur sem eru mjög tengdar hver annarri gefa sömu upplýsingar til líkansins og því er óþarfi að nota þær allar til greiningar. Til dæmis, ef gagnasafn inniheldur eiginleikana „Tími á netinu“ og „Umferð notuð“, getum við gert ráð fyrir að þeir séu nokkuð tengdir og við munum sjá sterka fylgni jafnvel þótt við veljum óhlutdrægt gagnasýni. Í þessu tilviki þarf aðeins eina af þessum breytum í líkaninu. Ef þú notar bæði, mun líkanið vera of mikið og hallast að einum tilteknum eiginleikum.

P-gildi

Í reikniritum eins og línulegri aðhvarfi er upphaflegt tölfræðilegt líkan alltaf góð hugmynd. Það hjálpar til við að sýna mikilvægi eiginleikanna með p-gildum þeirra sem fengust með þessu líkani. Eftir að hafa stillt marktektarstigið athugum við p-gildin sem myndast, og ef eitthvert gildi er undir tilgreindu marktæknistigi, þá er þessi eiginleiki lýstur marktækur, það er að breyting á gildi hans mun líklega leiða til breytinga á gildi skotmarkið.

Beint val

Framvirkt val er tækni sem felur í sér að beita þrepalegri aðhvarf. Líkangerð byrjar á algjöru núlli, það er tómu líkani, og síðan bætir hver endurtekning við breytu sem gerir endurbætur á líkaninu sem verið er að smíða. Hvaða breyta er bætt við líkanið ræðst af mikilvægi þess. Þetta er hægt að reikna út með ýmsum mælingum. Algengasta leiðin er að nota p-gildin sem fást í upprunalega tölfræðilíkaninu með því að nota allar breytur. Stundum getur framvirkt val leitt til þess að líkanið sé offitað vegna þess að það geta verið mjög tengdar breytur í líkaninu, jafnvel þótt þær gefi líkaninu sömu upplýsingar (en líkanið sýnir samt framför).

Öfugt val

Öfugt val felur einnig í sér skref-fyrir-skref brottnám eiginleika, en í öfuga átt miðað við framvalið. Í þessu tilviki inniheldur upphafslíkanið allar óháðar breytur. Breytur eru síðan fjarlægðar (ein í hverri endurtekningu) ef þær gefa ekki gildi til nýja aðhvarfslíkansins í hverri endurtekningu. Útilokun eiginleika byggist á p-gildum upphafslíkans. Þessi aðferð hefur einnig óvissu þegar mjög tengdar breytur eru fjarlægðar.

Endurkvæm eiginleiki brotthvarf

RFE er mikið notuð tækni/algrím til að velja nákvæman fjölda mikilvægra eiginleika. Stundum er aðferðin notuð til að útskýra fjölda „mikilvægustu“ eiginleika sem hafa áhrif á niðurstöður; og stundum til að fækka mjög miklum fjölda breyta (um 200-400), og aðeins þeim sem leggja að minnsta kosti eitthvað til líkansins er haldið eftir, og allar aðrar eru undanskildar. RFE notar röðunarkerfi. Eiginleikunum í gagnasafninu er úthlutað röðum. Þessar raðir eru síðan notaðar til að útrýma eiginleikum með endurteknum hætti út frá samlínunni á milli þeirra og mikilvægi þessara eiginleika í líkaninu. Auk þess að raða eiginleikum getur RFE sýnt hvort þessir eiginleikar séu mikilvægir eða jafnvel ekki fyrir tiltekinn fjölda eiginleika (vegna þess að það er mjög líklegt að valinn fjöldi eiginleika sé ekki ákjósanlegur og ákjósanlegur fjöldi eiginleika gæti verið annaðhvort fleiri eða minna en valið númer).

Skýringarmynd um mikilvægi eiginleika

Þegar talað er um túlkanleika vélrænna reiknirita er venjulega fjallað um línuleg aðhvarf (sem gerir þér kleift að greina mikilvægi eiginleika með því að nota p-gildi) og ákvörðunartré (sem sýnir bókstaflega mikilvægi eiginleika í formi trés, og á sama tíma stigveldi þeirra). Á hinn bóginn nota reiknirit eins og Random Forest, LightGBM og XG Boost oft skýringarmynd um mikilvægi eiginleika, það er skýringarmynd af breytum og „mikilvægistölum þeirra“ er teiknuð. Þetta er sérstaklega gagnlegt þegar þú þarft að koma með skipulögð rök fyrir mikilvægi eiginda með tilliti til áhrifa þeirra á fyrirtækið.

Reglugerð

Reglugerð er gerð til að stjórna jafnvæginu milli hlutdrægni og dreifni. Hlutdrægni sýnir hversu mikið líkanið hefur offitað þjálfunargagnasettið. Frávikið sýnir hversu ólíkar spárnar voru á milli þjálfunar- og prófunargagnasettanna. Helst ætti bæði hlutdrægni og dreifni að vera lítil. Þetta er þar sem reglugerðin kemur til bjargar! Það eru tvær meginaðferðir:

L1 reglusetning - Lasso: Lasso refsar líkanavigtum til að breyta mikilvægi þeirra fyrir líkanið og getur jafnvel núllstillt þær (þ.e. fjarlægt þessar breytur úr lokalíkaninu). Venjulega er Lasso notað þegar gagnasafn inniheldur mikinn fjölda breyta og þú vilt útiloka sumar þeirra til að skilja betur hvernig mikilvægir eiginleikar hafa áhrif á líkanið (þ.e. eiginleikar sem hafa verið valdir af Lasso og hefur verið úthlutað mikilvægi).

L2 Regularization - Ridge aðferð: Hlutverk Ridge er að geyma allar breytur og á sama tíma gefa þeim mikilvægi miðað við framlag þeirra til frammistöðu líkansins. Ridge mun vera góður kostur ef gagnasafnið inniheldur fáar breytur og þær eru allar nauðsynlegar til að túlka niðurstöður og niðurstöður sem fást.

Þar sem Ridge heldur öllum breytunum og Lasso gerir betur við að staðfesta mikilvægi þeirra, var reiknirit þróað sem sameinar bestu eiginleika beggja reglusetninga, þekkt sem Elastic-Net.

Það eru margar fleiri leiðir til að velja eiginleika fyrir vélanám, en meginhugmyndin er alltaf sú sama: sýna fram á mikilvægi breyta og útrýma síðan sumum þeirra miðað við mikilvægi þess. Mikilvægi er mjög huglægt hugtak, þar sem það er ekki bara eitt, heldur heilt safn mæligilda og grafa sem hægt er að nota til að finna lykileiginleika.

Þakka þér fyrir að lesa! Gleðilegt nám!

Heimild: www.habr.com

Bæta við athugasemd