Pozdravljeni, Habr!
V Reksoftu smo članek prevedli v ruščino . Upamo, da bo koristno za vse, ki jih tema zanima.
V resničnem svetu podatki niso vedno tako čisti, kot včasih mislijo poslovne stranke. Zato sta podatkovno rudarjenje in podatkovni prepir povpraševanje. Pomaga prepoznati manjkajoče vrednosti in vzorce v podatkih, strukturiranih s poizvedbo, ki jih ljudje ne morejo prepoznati. Za iskanje in uporabo teh vzorcev za napovedovanje rezultatov z uporabo odkritih odnosov v podatkih je strojno učenje prav.
Če želite razumeti kateri koli algoritem, morate pogledati vse spremenljivke v podatkih in ugotoviti, kaj te spremenljivke predstavljajo. To je ključnega pomena, ker utemeljitev rezultatov temelji na razumevanju podatkov. Če podatki vsebujejo 5 ali celo 50 spremenljivk, jih lahko pregledate vse. Kaj pa, če jih je 200? Potem preprosto ne bo dovolj časa za preučevanje vsake posamezne spremenljivke. Poleg tega nekateri algoritmi ne delujejo za kategorične podatke in potem boste morali vse kategorične stolpce pretvoriti v kvantitativne spremenljivke (morda so videti kvantitativne, vendar bodo meritve pokazale, da so kategorične), da jih dodate v model. Tako se poveča število spremenljivk, teh pa je okoli 500. Kaj storiti zdaj? Lahko bi pomislili, da bi bil odgovor zmanjšanje dimenzionalnosti. Algoritmi za zmanjšanje dimenzionalnosti zmanjšajo število parametrov, vendar imajo negativen vpliv na interpretabilnost. Kaj pa, če obstajajo druge tehnike, ki odstranijo funkcije, medtem ko preostale olajšajo razumevanje in interpretacijo?
Odvisno od tega, ali analiza temelji na regresiji ali klasifikaciji, se lahko algoritmi za izbiro funkcij razlikujejo, vendar glavna ideja njihovega izvajanja ostaja enaka.
Visoko korelirane spremenljivke
Spremenljivke, ki so med seboj močno povezane, zagotavljajo enake informacije modelu, zato jih ni treba uporabiti vseh za analizo. Na primer, če nabor podatkov vsebuje funkciji »Spletni čas« in »Uporabljeni promet«, lahko domnevamo, da bosta nekoliko povezani, in videli bomo močno korelacijo, tudi če izberemo nepristranski vzorec podatkov. V tem primeru je v modelu potrebna samo ena od teh spremenljivk. Če uporabljate oboje, bo model preveč opremljen in nagnjen k eni posebni lastnosti.
P-vrednosti
Pri algoritmih, kot je linearna regresija, je začetni statistični model vedno dobra ideja. Pomaga pokazati pomembnost lastnosti prek njihovih p-vrednosti, ki so bile pridobljene s tem modelom. Ko nastavimo raven pomembnosti, preverimo nastale p-vrednosti in če je katera koli vrednost pod določeno stopnjo pomembnosti, se ta značilnost razglasi za pomembno, kar pomeni, da bo sprememba njene vrednosti verjetno povzročila spremembo vrednosti tarča.
Neposredna izbira
Izbira naprej je tehnika, ki vključuje uporabo postopne regresije. Gradnja modela se začne s popolno ničlo, to je praznim modelom, nato pa vsaka ponovitev doda spremenljivko, ki izboljša model, ki se gradi. Katera spremenljivka je dodana modelu, je odvisna od njene pomembnosti. To je mogoče izračunati z različnimi metrikami. Najpogostejši način je uporaba p-vrednosti, pridobljenih v izvirnem statističnem modelu z uporabo vseh spremenljivk. Včasih lahko vnaprejšnja izbira privede do prevelikega opremljanja modela, ker so v modelu lahko visoko korelirane spremenljivke, tudi če zagotavljajo enake informacije modelu (vendar model še vedno kaže izboljšave).
Obratna izbira
Povratna selekcija vključuje tudi postopno izločanje lastnosti, vendar v nasprotni smeri v primerjavi s selekcijo naprej. V tem primeru začetni model vključuje vse neodvisne spremenljivke. Spremenljivke se nato izločijo (ena na iteracijo), če v vsaki iteraciji ne prispevajo vrednosti k novemu regresijskemu modelu. Izključitev funkcij temelji na p-vrednostih začetnega modela. Ta metoda ima tudi negotovost pri odstranjevanju visoko koreliranih spremenljivk.
Odprava rekurzivne funkcije
RFE je pogosto uporabljena tehnika/algoritem za izbiro natančnega števila pomembnih značilnosti. Včasih se metoda uporablja za razlago številnih "najpomembnejših" značilnosti, ki vplivajo na rezultate; in včasih za zmanjšanje zelo velikega števila spremenljivk (približno 200-400), pri čemer se ohranijo le tiste, ki vsaj malo prispevajo k modelu, vse druge pa so izključene. RFE uporablja sistem razvrščanja. Funkcijam v naboru podatkov so dodeljeni rangi. Ti rangi se nato uporabijo za rekurzivno odstranjevanje funkcij na podlagi kolinearnosti med njimi in pomembnosti teh funkcij v modelu. Poleg razvrščanja funkcij lahko RFE pokaže, ali so te lastnosti pomembne ali celo ne za določeno število funkcij (ker je zelo verjetno, da izbrano število funkcij morda ni optimalno, optimalno število funkcij pa je lahko več ali manj kot izbrano število).
Diagram pomembnosti lastnosti
Ko govorimo o interpretabilnosti algoritmov strojnega učenja, običajno razpravljamo o linearnih regresijah (ki omogočajo analizo pomembnosti funkcij z uporabo p-vrednosti) in odločitvenih drevesih (ki dobesedno prikazujejo pomembnost funkcij v obliki drevesa in na hkrati njihova hierarhija). Po drugi strani pa algoritmi, kot so Random Forest, LightGBM in XG Boost, pogosto uporabljajo diagram pomembnosti lastnosti, to je diagram spremenljivk in "njihovih številk pomembnosti". To je še posebej uporabno, ko morate podati strukturirano utemeljitev pomembnosti atributov v smislu njihovega vpliva na podjetje.
Regulacija
Regulacija se izvede za nadzor ravnovesja med pristranskostjo in varianco. Pristranskost kaže, koliko je model preveč opremil nabor podatkov o usposabljanju. Odstopanje kaže, kako različne so bile napovedi med nabori podatkov za usposabljanje in testom. V idealnem primeru bi morala biti pristranskost in varianca majhni. Tu na pomoč priskoči zakonska ureditev! Obstajata dve glavni tehniki:
L1 Regularizacija – laso: laso kaznuje uteži modela, da spremeni njihov pomen za model in jih lahko celo ponastavi na nič (tj. odstrani te spremenljivke iz končnega modela). Običajno se Lasso uporablja, ko nabor podatkov vsebuje veliko število spremenljivk in želite nekatere od njih izključiti, da bi bolje razumeli, kako pomembne funkcije vplivajo na model (to so tiste funkcije, ki jih je izbral Lasso in jim je bila dodeljena pomembnost).
L2 Regularization – Ridge metoda: Ridgeova naloga je shraniti vse spremenljivke in jim hkrati dodeliti pomembnost glede na njihov prispevek k uspešnosti modela. Ridge bo dobra izbira, če nabor podatkov vsebuje majhno število spremenljivk in so vse potrebne za interpretacijo ugotovitev in dobljenih rezultatov.
Ker Ridge hrani vse spremenljivke, Lasso pa bolje ugotavlja njihov pomen, je bil razvit algoritem, ki združuje najboljše lastnosti obeh regulacij, znan kot Elastic-Net.
Obstaja veliko več načinov za izbiro funkcij za strojno učenje, vendar je glavna ideja vedno ista: pokazati pomembnost spremenljivk in nato nekatere od njih odstraniti na podlagi posledične pomembnosti. Pomembnost je zelo subjektiven izraz, saj ne gre le za enega, ampak za cel niz meritev in grafikonov, ki jih je mogoče uporabiti za iskanje ključnih atributov.
Hvala za branje! Srečno učenje!
Vir: www.habr.com
