Feature Auswiel am Maschinnléieren

Hey Habr!

Mir bei Reksoft hunn den Artikel op Russesch iwwersat Feature Auswiel am Machine Learning. Mir hoffen et wÀert nëtzlech sinn fir jiddereen deen un d'Thema interesséiert ass.

An der realer Welt sinn d'Donnéeën net ëmmer sou propper wéi GeschÀftsclienten heiansdo mengen. Dofir sinn Datemining an Datewrangling gefuerdert. Et hëlleft fehlend WÀerter a Musteren an Ufro-strukturéierten Donnéeën z'identifizéieren déi d'Mënschen net identifizéieren kënnen. Fir dës Mustere ze fannen an ze benotzen fir Resultater virauszesoen mat entdeckte Bezéiungen an den Daten, kënnt Maschinnléieren praktesch.

Fir all Algorithmus ze verstoen, musst Dir all d'Variabelen an den Daten kucken an erausfannen wat dĂ«s Variablen duerstellen. DĂ«st ass kritesch well d'BegrĂ«nnung hannert de Resultater basĂ©iert op d'Verstoe vun den DonnĂ©eĂ«n. Wann d'DonnĂ©eĂ«n 5 oder souguer 50 Variabelen enthalen, kĂ«nnt Dir se all Ă«nnersichen. Wat wann et 200 vun hinnen sinn? Da gĂ«tt et einfach net genuch ZĂ€it fir all eenzel Variabel ze studĂ©ieren. Ausserdeem funktionnĂ©ieren e puer Algorithmen net fir kategoresch DonnĂ©eĂ«n, an da musst Dir all dĂ©i kategoresch Kolonnen op quantitativ Variablen konvertĂ©ieren (si kĂ«nne quantitativ ausgesinn, awer d'Metriken weisen datt se kategoresch sinn) fir se an de Modell ze addĂ©ieren. Also, d'Zuel vun de VerĂ€nnerlechen erop, an et sinn ongefĂ©ier 500 vun hinnen Wat elo ze maachen? Et kĂ©int ee mengen datt d'Äntwert wier d'DimensionalitĂ©it ze reduzĂ©ieren. Dimensiounsreduktiounsalgorithmen reduzĂ©ieren d'Zuel vun de Parameteren awer hunn en negativen Impakt op d'InterpretabilitĂ©it. Wat wann et aner Techniken sinn, dĂ©i d'Features eliminĂ©ieren, wĂ€hrend dĂ©i verbleiwen einfach ze verstoen an interpretĂ©ieren?

OfhĂ€ngeg ob d'Analyse op Regressioun oder Klassifikatioun basĂ©iert, kĂ«nnen d'Feature Selektioun Algorithmen Ă«nnerscheeden, awer d'Haaptidee vun hirer Ëmsetzung bleift d'selwecht.

Héich korreléiert Variablen

Variablen déi héich matenee korreléiert sinn, liwweren déiselwecht Informatioun zum Modell, sou datt et net néideg ass se all fir Analyse ze benotzen. Zum Beispill, wann en Dataset d'Fonctiounen "Online Time" an "Traffic Used" enthÀlt, kënne mir dovun ausgoen datt se e bësse korreléiert sinn, a mir wÀerten eng staark Korrelatioun gesinn, och wa mir eng onparteiesch Dateprobe auswielen. An dësem Fall ass nëmmen eng vun dëse Variabelen am Modell gebraucht. Wann Dir béid benotzt, gëtt de Modell iwwerdriwwen a biaséiert op eng bestëmmte Feature.

P-WĂ€erter

An Algorithmen wĂ©i linear Regressioun ass en initial statistesche Modell Ă«mmer eng gutt Iddi. Et hĂ«lleft d'Wichtegkeet vun de Funktiounen duerch hir p-WĂ€erter ze weisen, dĂ©i vun dĂ«sem Modell kritt goufen. Nodeems mir de Bedeitungsniveau gesat hunn, iwwerprĂ©ift mir dĂ©i resultĂ©ierend p-WĂ€erter, a wann e WĂ€ert Ă«nner dem spezifizĂ©ierte Bedeitungsniveau ass, gĂ«tt dĂ«s Feature bedeitend deklarĂ©iert, dat heescht, eng Ännerung vu sengem WĂ€ert wĂ€ert mĂ©iglecherweis zu enger Ännerung vum WĂ€ert fĂ©ieren d'Zil.

Direkt Auswiel

Forward Selektioun ass eng Technik dĂ©i d'stepweis Regressioun applizĂ©iert. Modellbau fĂ€nkt mat enger kompletter Null un, dat heescht, engem eidele Modell, an dann fĂŒĂŒgt all Iteratioun eng Variabel derbĂ€i, dĂ©i eng Verbesserung vum Model mĂ©cht, deen gebaut gĂ«tt. WĂ©i eng Variabel zum Modell bĂ€igefĂŒĂŒgt gĂ«tt, gĂ«tt vu senger Bedeitung bestĂ«mmt. DĂ«st kann mat verschiddene Metriken berechent ginn. Deen allgemengste Wee ass d'p-WĂ€erter ze benotzen, dĂ©i am original statistesche Modell kritt goufen, mat all Variabelen. Heiansdo kann d'Forward Selektioun zu engem Modell iwwerpassen well et hĂ©ich korrelĂ©iert Variablen am Modell kĂ«nne sinn, och wa se dĂ©i selwecht Informatioun un de Modell ubidden (mee de Modell weist nach Ă«mmer Verbesserung).

ËmgedrĂ©it Auswiel

ËmgekĂ©iert Selektioun beinhalt och d'SchrĂ«tt-fir-SchrĂ«tt Eliminatioun vun Eegeschaften, awer an der GĂ©igendeel Richtung am Verglach mat der Forward Selektioun. An dĂ«sem Fall enthĂ€lt den initialen Modell all onofhĂ€ngeg Variabelen. Variablen ginn dann eliminĂ©iert (eng pro Iteratioun) wa se kee WĂ€ert zum neie Regressiounsmodell an all Iteratioun bĂ€idroen. Feature Ausgrenzung basĂ©iert op de p-WĂ€erter vum initialen Modell. DĂ«s Method huet och OnsĂ©cherheet wann Dir hĂ©ich korrelĂ©iert Variablen ewechhuelt.

Rekursive Feature Eliminatioun

RFE ass eng wÀit benotzt Technik / Algorithmus fir déi exakt Zuel vu bedeitende Featuren ze wielen. Heiansdo gëtt d'Method benotzt fir eng Rei "wichtegst" Features z'erklÀren, déi Resultater beaflossen; an heiansdo eng ganz grouss Zuel vu Variabelen ze reduzéieren (ongeféier 200-400), an nëmmen déi, déi op d'mannst e BÀitrag zum Modell maachen, behalen, an all aner sinn ausgeschloss. RFE benotzt e Ranking System. D'Fonctiounen am Datesaz ginn Rangen zougewisen. Dës Reihen ginn dann benotzt fir rekursiv Features ze eliminéieren baséiert op der Kollinearitéit tëscht hinnen an der Wichtegkeet vun dëse Funktiounen am Modell. ZousÀtzlech zu de Ranking Features kann RFE weisen ob dës Feature wichteg sinn oder net souguer fir eng bestëmmte Zuel vu Featuren (well et ganz wahrscheinlech ass datt déi gewielte Zuel vu Featuren net optimal ass, an déi optimal Unzuel vun Features kann entweder méi sinn oder manner wéi déi gewielte Zuel).

Feature Wichtegkeet Diagramm

Wann Dir iwwer d'Interpretabilitéit vu Maschinnléiere Algorithmen schwÀtzt, diskutéiere mir normalerweis linear Regressiounen (déi Iech erlaben d'Wichtegkeet vun de Funktiounen mat p-WÀerter ze analyséieren) an Entscheedungsbeem (wuertwiertlech d'Wichtegkeet vun de Funktiounen a Form vun engem Bam ze weisen, an am glÀichzÀiteg hir Hierarchie). Op der anerer SÀit benotzen Algorithmen wéi Random Forest, LightGBM an XG Boost dacks e Feature Wichtegkeet Diagramm, dat heescht, en Diagramm vu Variablen an "hir Wichtegkeet Zuelen" ass geplot. Dëst ass besonnesch nëtzlech wann Dir eng strukturéiert Begrënnung fir d'Wichtegkeet vun Attributer a punkto hiren Impakt op d'GeschÀft muss ubidden.

Reguléierung

Regulariséierung gëtt gemaach fir d'GlÀichgewiicht tëscht Bias a Varianz ze kontrolléieren. Bias weist wéi vill de Modell op den Trainingsdatenset overfitted huet. D'OfwÀichung weist wéi ënnerschiddlech d'Prognosen tëscht den Trainings- an Testdatesets waren. Idealerweis solle béid Bias a Varianz kleng sinn. Hei kënnt d'Regularisatioun zur Rettung! Et ginn zwou Haapttechniken:

L1 Regulariséierung - Lasso: Lasso penaliséiert Modellgewichte fir hir Wichtegkeet fir de Modell z'Ànneren a kann se souguer nulléieren (dh dës VerÀnnerlechen aus dem Finale Modell ewechhuelen). Typesch gëtt Lasso benotzt wann en Dataset eng grouss Zuel vu Variablen enthÀlt an Dir wëllt e puer vun hinnen ausschléissen fir besser ze verstoen wéi wichteg Features de Modell beaflossen (dat ass déi Features déi vum Lasso ausgewielt goufen a Wichtegkeet zougewisen goufen).

L2 Regulariséierung - Ridge Method: Dem Ridge seng Aarbecht ass all Variabelen ze spÀicheren a glÀichzÀiteg Wichtegkeet un hinnen ze ginn baséiert op hirem BÀitrag zu der Leeschtung vum Modell. Ridge wÀert eng gutt Wiel sinn wann d'Dateset eng kleng Unzuel vu Variablen enthÀlt an all si noutwendeg fir d'Resultater an d'Resultater ze interpretéieren.

Zënter dem Ridge all d'Variabelen hÀlt an de Lasso eng besser Aarbecht mécht fir hir Wichtegkeet z'etabléieren, gouf en Algorithmus entwéckelt deen déi bescht Feature vu béide Reguléierungen kombinéiert, bekannt als Elastic-Net.

Et gi vill méi Weeër fir Features fir Maschinnléieren ze wielen, awer d'Haaptidee ass ëmmer déiselwecht: d'Wichtegkeet vun de Variablen demonstréieren an dann e puer vun hinnen eliminéieren op Basis vun der resultéierender Wichtegkeet. Wichtegkeet ass e ganz subjektiv Begrëff, well et ass net nëmmen een, mee eng ganz Rei vu Metriken an Charts déi kënne benotzt ginn fir Schlësselattributer ze fannen.

Merci fir d'Liesen! Glécklech Léieren!

Source: will.com

Kaaft zouverlĂ€sseg Hosting fir Site mat DDoS Schutz, VPS VDS Server đŸ”„ Kaaft zouverlĂ©issegt WebsĂ€ithosting mat DDoS-Schutz, VPS VDS Server | ProHoster