Pagpili sa bahin sa pagkat-on sa makina

Hoy Habr!

Kami sa Reksoft naghubad sa artikulo sa Russian Pagpili sa Feature sa Machine Learning. Kami nanghinaut nga kini mapuslanon sa tanan nga interesado sa hilisgutan.

Sa tinuud nga kalibutan, ang datos dili kanunay nga limpyo sama sa gihunahuna usahay sa mga kostumer sa negosyo. Mao kini ang hinungdan nga ang data mining ug data wrangling gikinahanglan. Nakatabang kini sa pag-ila sa nawala nga mga kantidad ug mga sumbanan sa mga datos nga gi-struktura sa pangutana nga dili mailhan sa mga tawo. Aron makit-an ug magamit kini nga mga sumbanan aron matagna ang mga resulta gamit ang nadiskobrehan nga mga relasyon sa datos, ang pagkat-on sa makina magamit.

Aron masabtan ang bisan unsang algorithm, kinahanglan nimong tan-awon ang tanan nga mga variable sa datos ug mahibal-an kung unsa ang girepresentar sa mga variable. Kini kritikal tungod kay ang katarungan sa likod sa mga resulta gibase sa pagsabut sa datos. Kung ang datos adunay 5 o bisan 50 nga mga variable, mahimo nimong susihon ang tanan. Unsa kaha kung adunay 200 kanila? Unya walay igo nga panahon sa pagtuon sa matag usa ka variable. Dugang pa, ang pipila nga mga algorithm dili molihok alang sa mga kategorya nga datos, ug unya kinahanglan nimo nga i-convert ang tanan nga mga kategorya nga mga kolum sa mga quantitative variable (mahimo silang tan-awon nga quantitative, apan ang mga sukatan magpakita nga kini mga kategorya) aron idugang kini sa modelo. Busa, ang gidaghanon sa mga baryable nagdugang, ug adunay mga 500 niini. Unsa ang buhaton karon? Ang usa tingali maghunahuna nga ang tubag mao ang pagpakunhod sa dimensionality. Ang mga algorithm sa pagkunhod sa dimensyon nagpamenos sa gidaghanon sa mga parameter apan adunay negatibo nga epekto sa pagkahubad. Unsa kaha kung adunay ubang mga teknik nga magwagtang sa mga bahin samtang ang nahabilin nga dali masabtan ug mahubad?

Depende kung ang pag-analisar gibase sa regression o klasipikasyon, ang mga algorithm sa pagpili sa bahin mahimong magkalainlain, apan ang panguna nga ideya sa ilang pagpatuman nagpabilin nga parehas.

Taas nga May Kalambigitan nga mga Variable

Ang mga variable nga adunay kalabutan sa usag usa naghatag parehas nga kasayuran sa modelo, busa dili kinahanglan nga gamiton silang tanan alang sa pagtuki. Pananglitan, kung ang usa ka dataset naglangkob sa mga feature nga "Online Time" ug "Traffic Used", mahimo natong isipon nga kini medyo magka-correlated, ug makakita kita og lig-on nga correlation bisan pa kon kita mopili og walay bias nga data sample. Sa kini nga kaso, usa lamang niini nga mga variable ang gikinahanglan sa modelo. Kung gamiton nimo ang duha, ang modelo ma-overfit ug mapihigon sa usa ka partikular nga bahin.

P-bili

Sa mga algorithm sama sa linear regression, ang usa ka inisyal nga modelo sa istatistika kanunay usa ka maayong ideya. Nakatabang kini nga ipakita ang kahinungdanon sa mga bahin pinaagi sa ilang mga p-values ​​nga nakuha sa kini nga modelo. Sa pagtakda sa lebel sa kahulogan, atong susihon ang resulta nga p-values, ug kung adunay bisan unsa nga bili nga ubos sa gitakda nga lebel sa kahulogan, nan kini nga bahin gideklarar nga mahinungdanon, nga mao, ang pagbag-o sa bili niini lagmit mosangpot sa pagbag-o sa bili sa ang target.

Direkta nga pagpili

Ang pagpili sa unahan usa ka teknik nga naglakip sa paggamit sa stepwise regression. Ang pagtukod sa modelo nagsugod sa usa ka kompleto nga zero, nga mao, usa ka walay sulod nga modelo, ug dayon ang matag pag-uli nagdugang usa ka variable nga naghimo sa usa ka pag-uswag sa modelo nga gitukod. Unsa nga variable ang idugang sa modelo gitino pinaagi sa kamahinungdanon niini. Mahimo kining kuwentahon gamit ang lainlaing metrics. Ang labing kasagaran nga paagi mao ang paggamit sa mga p-values ​​​​nga nakuha sa orihinal nga modelo sa istatistika gamit ang tanan nga mga variable. Usahay ang pagpili sa unahan mahimong mosangpot sa pag-overfitting sa usa ka modelo tungod kay mahimo nga adunay daghang mga baryable sa modelo, bisan kung naghatag sila parehas nga kasayuran sa modelo (apan ang modelo nagpakita gihapon nga pag-uswag).

Balika ang pagpili

Ang reverse nga pagpili naglakip usab sa sunod-sunod nga pagwagtang sa mga kinaiya, apan sa atbang nga direksyon kon itandi sa forward selection. Sa kini nga kaso, ang inisyal nga modelo naglakip sa tanan nga independente nga mga variable. Ang mga variable unya giwagtang (usa matag pag-uli) kung dili kini makaamot og bili sa bag-ong modelo sa regression sa matag pag-uli. Ang pag-apil sa feature gibase sa mga p-values ​​sa inisyal nga modelo. Kini nga pamaagi adunay usab kawalay kasiguruhan kung gikuha ang labi ka may kalabutan nga mga variable.

Recursive Feature Elimination

Ang RFE kay kaylap nga gigamit nga teknik/algorithm para sa pagpili sa eksaktong gidaghanon sa mahinungdanong bahin. Usahay ang pamaagi gigamit sa pagpatin-aw sa daghang "labing importante" nga mga bahin nga nag-impluwensya sa mga resulta; ug usahay sa pagpakunhod sa usa ka dako kaayo nga gidaghanon sa mga baryable (mga 200-400), ug kadto lamang nga naghimo sa labing menos pipila ka kontribusyon sa modelo ang gipabilin, ug ang tanan nga uban wala iapil. Ang RFE naggamit ug sistema sa ranggo. Ang mga bahin sa set sa datos gi-assign nga mga ranggo. Kini nga mga ranggo gigamit dayon aron mawagtang ang mga bahin base sa pagkadugtong sa taliwala nila ug ang kamahinungdanon sa mga bahin sa modelo. Dugang sa ranggo nga mga bahin, ang RFE mahimong magpakita kung kini nga mga bahin hinungdanon o dili bisan alang sa usa ka gihatag nga gidaghanon sa mga bahin (tungod kay lagmit nga ang gipili nga gidaghanon sa mga bahin mahimo’g dili labing maayo, ug ang labing maayo nga gidaghanon sa mga bahin mahimo’g labi pa. o ubos pa sa pinili nga numero).

Feature Importance Diagram

Kung naghisgot bahin sa pagkahubad sa mga algorithm sa pagkat-on sa makina, kasagaran natong hisgutan ang mga linear regressions (nga nagtugot kanimo sa pag-analisar sa kamahinungdanon sa mga bahin gamit ang mga p-values) ug mga punoan sa desisyon (sa literal nga pagpakita sa kamahinungdanon sa mga bahin sa porma sa usa ka kahoy, ug sa sa samang higayon ang ilang hierarchy). Sa laing bahin, ang mga algorithm sama sa Random Forest, LightGBM ug XG Boost kanunay nga naggamit sa usa ka feature diagram sa importansya, nga mao, usa ka diagram sa mga variable ug ang "ilang mga numero sa importansya" giplano. Kini labi ka mapuslanon kung kinahanglan nimo nga maghatag usa ka istruktura nga katarungan alang sa kahinungdanon sa mga kinaiya sa mga termino sa epekto niini sa negosyo.

Regularisasyon

Ang regularisasyon gihimo aron makontrol ang balanse tali sa bias ug kalainan. Gipakita sa bias kung unsa ka daghan ang na-overfit sa modelo sa set sa datos sa pagbansay. Ang pagtipas nagpakita kung unsa ang kalainan sa mga panagna tali sa pagbansay ug mga datos sa pagsulay. Sa tinuud, ang bias ug kalainan kinahanglan nga gamay. Dinhi diin ang regularisasyon moabut sa pagluwas! Adunay duha ka nag-unang mga teknik:

L1 Regularization - Lasso: Gisilotan ni Lasso ang mga gibug-aton sa modelo aron mabag-o ang ilang importansya sa modelo ug mahimo pa gani nga null sila (ie, tangtangon ang mga variable gikan sa katapusang modelo). Kasagaran, ang Lasso gigamit kung ang usa ka dataset adunay daghang mga variable ug gusto nimo nga dili iapil ang pipila niini aron mas masabtan kung unsa ka hinungdanon nga mga bahin ang makaapekto sa modelo (nga mao, kadtong mga bahin nga gipili ni Lasso ug gihatagan ug importansya).

L2 Regularization - Pamaagi sa Ridge: Ang trabaho sa Ridge mao ang pagtipig sa tanan nga mga variable ug sa samang higayon paghatag og importansya niini base sa ilang kontribusyon sa performance sa modelo. Ang Ridge mahimong usa ka maayong pagpili kung ang dataset adunay gamay nga gidaghanon sa mga variable ug ang tanan niini gikinahanglan aron mahubad ang mga nahibal-an ug mga resulta nga nakuha.

Tungod kay gitipigan sa Ridge ang tanan nga mga variable ug ang Lasso naghimo sa usa ka mas maayo nga trabaho sa pag-establisar sa ilang importansya, usa ka algorithm ang gihimo nga naghiusa sa labing kaayo nga mga bahin sa duha nga regularisasyon, nga nailhan nga Elastic-Net.

Adunay daghan pa nga mga paagi sa pagpili sa mga bahin alang sa pagkat-on sa makina, apan ang panguna nga ideya kanunay nga parehas: ipakita ang kahinungdanon sa mga variable ug dayon wagtangon ang pipila niini base sa sangputanan nga importansya. Ang importansya usa ka suhetibo kaayo nga termino, tungod kay dili lang kini usa, apan usa ka tibuuk nga hugpong sa mga sukatan ug mga tsart nga magamit aron makit-an ang hinungdanon nga mga hiyas.

Salamat sa pagbasa! Malipayon nga pagkat-on!

Source: www.habr.com

Idugang sa usa ka comment