🥇 Feature Auswiel am Machine Learning

Hey Habr!

Mir bei Reksoft hunn den Artikel op Russesch iwwersat Feature Auswiel am Machine Learning. Mir hoffen et wäert nëtzlech sinn fir jiddereen deen un d'Thema interesséiert ass.

An der realer Welt sinn d'Donnéeën net ëmmer sou propper wéi Geschäftsclienten heiansdo mengen. Dofir sinn Datemining an Datewrangling gefuerdert. Et hëlleft fehlend Wäerter a Musteren an Ufro-strukturéierten Donnéeën z'identifizéieren déi d'Mënschen net identifizéieren kënnen. Fir dës Mustere ze fannen an ze benotzen fir Resultater virauszesoen mat entdeckte Bezéiungen an den Daten, kënnt Maschinnléieren praktesch.

Fir all Algorithmus ze verstoen, musst Dir all d'Variabelen an den Daten kucken an erausfannen wat dës Variablen duerstellen. Dëst ass kritesch well d'Begrënnung hannert de Resultater baséiert op d'Verstoe vun den Donnéeën. Wann d'Donnéeën 5 oder souguer 50 Variabelen enthalen, kënnt Dir se all ënnersichen. Wat wann et 200 vun hinnen sinn? Da gëtt et einfach net genuch Zäit fir all eenzel Variabel ze studéieren. Ausserdeem funktionnéieren e puer Algorithmen net fir kategoresch Donnéeën, an da musst Dir all déi kategoresch Kolonnen op quantitativ Variablen konvertéieren (si kënne quantitativ ausgesinn, awer d'Metriken weisen datt se kategoresch sinn) fir se an de Modell ze addéieren. Also, d'Zuel vun de Verännerlechen erop, an et sinn ongeféier 500 vun hinnen Wat elo ze maachen? Et kéint ee mengen datt d'Äntwert wier d'Dimensionalitéit ze reduzéieren. Dimensiounsreduktiounsalgorithmen reduzéieren d'Zuel vun de Parameteren awer hunn en negativen Impakt op d'Interpretabilitéit. Wat wann et aner Techniken sinn, déi d'Features eliminéieren, während déi verbleiwen einfach ze verstoen an interpretéieren?

Ofhängeg ob d'Analyse op Regressioun oder Klassifikatioun baséiert, kënnen d'Feature Selektioun Algorithmen ënnerscheeden, awer d'Haaptidee vun hirer Ëmsetzung bleift d'selwecht.

Héich korreléiert Variablen

Variablen déi héich matenee korreléiert sinn, liwweren déiselwecht Informatioun zum Modell, sou datt et net néideg ass se all fir Analyse ze benotzen. Zum Beispill, wann en Dataset d'Fonctiounen "Online Time" an "Traffic Used" enthält, kënne mir dovun ausgoen datt se e bësse korreléiert sinn, a mir wäerten eng staark Korrelatioun gesinn, och wa mir eng onparteiesch Dateprobe auswielen. An dësem Fall ass nëmmen eng vun dëse Variabelen am Modell gebraucht. Wann Dir béid benotzt, gëtt de Modell iwwerdriwwen a biaséiert op eng bestëmmte Feature.

P-Wäerter

An Algorithmen wéi linear Regressioun ass en initial statistesche Modell ëmmer eng gutt Iddi. Et hëlleft d'Wichtegkeet vun de Funktiounen duerch hir p-Wäerter ze weisen, déi vun dësem Modell kritt goufen. Nodeems mir de Bedeitungsniveau gesat hunn, iwwerpréift mir déi resultéierend p-Wäerter, a wann e Wäert ënner dem spezifizéierte Bedeitungsniveau ass, gëtt dës Feature bedeitend deklaréiert, dat heescht, eng Ännerung vu sengem Wäert wäert méiglecherweis zu enger Ännerung vum Wäert féieren d'Zil.

Direkt Auswiel

Forward Selektioun ass eng Technik déi d'stepweis Regressioun applizéiert. Modellbau fänkt mat enger kompletter Null un, dat heescht, engem eidele Modell, an dann füügt all Iteratioun eng Variabel derbäi, déi eng Verbesserung vum Model mécht, deen gebaut gëtt. Wéi eng Variabel zum Modell bäigefüügt gëtt, gëtt vu senger Bedeitung bestëmmt. Dëst kann mat verschiddene Metriken berechent ginn. Deen allgemengste Wee ass d'p-Wäerter ze benotzen, déi am original statistesche Modell kritt goufen, mat all Variabelen. Heiansdo kann d'Forward Selektioun zu engem Modell iwwerpassen well et héich korreléiert Variablen am Modell kënne sinn, och wa se déi selwecht Informatioun un de Modell ubidden (mee de Modell weist nach ëmmer Verbesserung).

Ëmgedréit Auswiel

Ëmgekéiert Selektioun beinhalt och d'Schrëtt-fir-Schrëtt Eliminatioun vun Eegeschaften, awer an der Géigendeel Richtung am Verglach mat der Forward Selektioun. An dësem Fall enthält den initialen Modell all onofhängeg Variabelen. Variablen ginn dann eliminéiert (eng pro Iteratioun) wa se kee Wäert zum neie Regressiounsmodell an all Iteratioun bäidroen. Feature Ausgrenzung baséiert op de p-Wäerter vum initialen Modell. Dës Method huet och Onsécherheet wann Dir héich korreléiert Variablen ewechhuelt.

Rekursive Feature Eliminatioun

RFE ass eng wäit benotzt Technik / Algorithmus fir déi exakt Zuel vu bedeitende Featuren ze wielen. Heiansdo gëtt d'Method benotzt fir eng Rei "wichtegst" Features z'erklären, déi Resultater beaflossen; an heiansdo eng ganz grouss Zuel vu Variabelen ze reduzéieren (ongeféier 200-400), an nëmmen déi, déi op d'mannst e Bäitrag zum Modell maachen, behalen, an all aner sinn ausgeschloss. RFE benotzt e Ranking System. D'Fonctiounen am Datesaz ginn Rangen zougewisen. Dës Reihen ginn dann benotzt fir rekursiv Features ze eliminéieren baséiert op der Kollinearitéit tëscht hinnen an der Wichtegkeet vun dëse Funktiounen am Modell. Zousätzlech zu de Ranking Features kann RFE weisen ob dës Feature wichteg sinn oder net souguer fir eng bestëmmte Zuel vu Featuren (well et ganz wahrscheinlech ass datt déi gewielte Zuel vu Featuren net optimal ass, an déi optimal Unzuel vun Features kann entweder méi sinn oder manner wéi déi gewielte Zuel).

Feature Wichtegkeet Diagramm

Wann Dir iwwer d'Interpretabilitéit vu Maschinnléiere Algorithmen schwätzt, diskutéiere mir normalerweis linear Regressiounen (déi Iech erlaben d'Wichtegkeet vun de Funktiounen mat p-Wäerter ze analyséieren) an Entscheedungsbeem (wuertwiertlech d'Wichtegkeet vun de Funktiounen a Form vun engem Bam ze weisen, an am gläichzäiteg hir Hierarchie). Op der anerer Säit benotzen Algorithmen wéi Random Forest, LightGBM an XG Boost dacks e Feature Wichtegkeet Diagramm, dat heescht, en Diagramm vu Variablen an "hir Wichtegkeet Zuelen" ass geplot. Dëst ass besonnesch nëtzlech wann Dir eng strukturéiert Begrënnung fir d'Wichtegkeet vun Attributer a punkto hiren Impakt op d'Geschäft muss ubidden.

Reguléierung

Regulariséierung gëtt gemaach fir d'Gläichgewiicht tëscht Bias a Varianz ze kontrolléieren. Bias weist wéi vill de Modell op den Trainingsdatenset overfitted huet. D'Ofwäichung weist wéi ënnerschiddlech d'Prognosen tëscht den Trainings- an Testdatesets waren. Idealerweis solle béid Bias a Varianz kleng sinn. Hei kënnt d'Regularisatioun zur Rettung! Et ginn zwou Haapttechniken:

L1 Regulariséierung - Lasso: Lasso penaliséiert Modellgewichte fir hir Wichtegkeet fir de Modell z'änneren a kann se souguer nulléieren (dh dës Verännerlechen aus dem Finale Modell ewechhuelen). Typesch gëtt Lasso benotzt wann en Dataset eng grouss Zuel vu Variablen enthält an Dir wëllt e puer vun hinnen ausschléissen fir besser ze verstoen wéi wichteg Features de Modell beaflossen (dat ass déi Features déi vum Lasso ausgewielt goufen a Wichtegkeet zougewisen goufen).

L2 Regulariséierung - Ridge Method: Dem Ridge seng Aarbecht ass all Variabelen ze späicheren a gläichzäiteg Wichtegkeet un hinnen ze ginn baséiert op hirem Bäitrag zu der Leeschtung vum Modell. Ridge wäert eng gutt Wiel sinn wann d'Dateset eng kleng Unzuel vu Variablen enthält an all si noutwendeg fir d'Resultater an d'Resultater ze interpretéieren.

Zënter dem Ridge all d'Variabelen hält an de Lasso eng besser Aarbecht mécht fir hir Wichtegkeet z'etabléieren, gouf en Algorithmus entwéckelt deen déi bescht Feature vu béide Reguléierungen kombinéiert, bekannt als Elastic-Net.

Et gi vill méi Weeër fir Features fir Maschinnléieren ze wielen, awer d'Haaptidee ass ëmmer déiselwecht: d'Wichtegkeet vun de Variablen demonstréieren an dann e puer vun hinnen eliminéieren op Basis vun der resultéierender Wichtegkeet. Wichtegkeet ass e ganz subjektiv Begrëff, well et ass net nëmmen een, mee eng ganz Rei vu Metriken an Charts déi kënne benotzt ginn fir Schlësselattributer ze fannen.

Merci fir d'Liesen! Glécklech Léieren!

Source: will.com