Selezzione di funziunalità in machine learning

Ehi Habr!

Avemu à Reksoft traduttu l'articulu in Russu Selezzione di funziunalità in Machine Learning. Speremu chì serà utile à tutti quelli chì sò interessati à u tema.

In u mondu reale, i dati ùn sò micca sempre puliti quant'è i clienti di l'affari pensanu à volte. Hè per quessa chì a data mining è data wrangling sò in dumanda. Aiuta à identificà i valori mancanti è i mudelli in dati strutturati in quistione chì l'omu ùn ponu identificà. Per truvà è aduprà sti mudelli per predichendu risultati utilizendu relazioni scuperte in i dati, l'apprendimentu di macchina hè utile.

Per capiscenu qualsiasi algoritmu, avete bisognu di vede tutte e variàbili in i dati è capisce ciò chì questi variàbili rapprisentanu. Questu hè criticu perchè u ragiunamentu daretu à i risultati hè basatu nantu à capiscenu i dati. Se i dati cuntenenu 5 o ancu 50 variàbili, pudete esaminà tutti. E se ci sò 200 di elli? Allora ùn ci sarà micca abbastanza tempu per studià ogni variabile. Inoltre, certi algoritmi ùn funzionanu micca per i dati categurichi, è dopu avete da cunvertisce tutte e culonni categurichi à variàbili quantitativi (puderanu parenu quantitativi, ma i metrichi mostranu chì sò categurichi) per aghjunghje à u mudellu. Cusì, u numeru di variàbili aumenta, è ci sò circa 500 di elli. Si pò pensà chì a risposta seria di riduce a dimensione. L'algoritmi di riduzzione di dimensionalità riducenu u numeru di parametri, ma anu un impattu negativu nantu à l'interpretabilità. E s'ellu ci sò altre tecniche chì eliminanu e funzioni mentre facenu i restanti faciuli à capisce è interpretà?

Sicondu s'ellu l'analisi hè basatu annantu à a regressione o a classificazione, l'algoritmi di selezzione di funzioni pò esse diffirenti, ma l'idea principale di a so implementazione resta a stessa.

Variabili altamente correlati

Variabili chì sò assai correlati cù l'altri furnisce a listessa infurmazione à u mudellu, per quessa, ùn ci hè bisognu di utilizà tutti per l'analisi. Per esempiu, se un inseme di dati cuntene e caratteristiche "Tempu Online" è "Traffic Used", pudemu suppone chì seranu un pocu correlati, è vedemu una forte correlazione ancu s'è selezziunate un campione di dati imparziali. In questu casu, solu una di sti variàbili hè necessariu in u mudellu. Se aduprate i dui, u mudellu serà overfitted è biased versu una funzione particulare.

P-value

In l'algoritmi cum'è a regressione lineale, un mudellu statisticu iniziale hè sempre una bona idea. Aiuta à dimustrà l'impurtanza di e funziunalità attraversu i so valori p chì sò stati ottenuti da stu mudellu. Dopu avè stabilitu u livellu di significazione, cuntrollemu i valori p risultanti, è se qualchì valore hè sottu à u livellu di significatu specificatu, allora sta funzione hè dichjarata significativa, vale à dì, un cambiamentu di u so valore prubabilmente porta à un cambiamentu di u valore di u mira.

Selezzione diretta

A selezzione in avanti hè una tecnica chì implica l'applicazione di regressione stepwise. L'edificazione di u mudellu principia cù un cero cumpletu, vale à dì, un mudellu viotu, è dopu ogni iterazione aghjunghje una variabile chì face una migliione à u mudellu chì hè custruitu. Quale variabile hè aghjuntu à u mudellu hè determinata da u so significatu. Questu pò esse calculatu cù diverse metriche. U modu più cumuni hè di utilizà i valori p ottenuti in u mudellu statisticu originale utilizendu tutte e variàbili. A volte, a selezzione avanti pò purtà à l'overfitting di un mudellu perchè pò esse variàbili assai correlati in u mudellu, ancu s'elli furniscenu a listessa infurmazione à u mudellu (ma u mudellu mostra sempre a migliione).

Selezzione inversa

A selezzione inversa implica ancu l'eliminazione passu à passu di tratti, ma in a direzzione opposta paragunata à a selezzione avanti. In questu casu, u mudellu iniziale include tutte e variàbili indipendenti. I variàbili sò allora eliminati (una per iterazione) si ùn cuntribuiscenu micca valore à u novu mudellu di regressione in ogni iterazione. L'esclusione di funziunalità hè basatu annantu à i valori p di u mudellu iniziale. Stu metudu hà ancu incertezza quandu sguassate variàbili assai correlati.

Eliminazione di e funzioni recursive

RFE hè una tecnica / algoritmu largamente utilizata per selezziunà u numeru esattu di funziunalità significativu. Calchì volta lu mètudu veni usatu pi spiegà un numeru di funziunalità "più impurtante" chì influenza risultati; è qualchì volta per riduce un numeru assai grande di variàbili (circa 200-400), è solu quelli chì facenu almenu qualchì cuntribuzione à u mudellu sò ritenuti, è tutti l'altri sò esclusi. RFE usa un sistema di classificazione. E caratteristiche in u settore di dati sò attribuiti ranchi. Questi ranghi sò allora utilizati per eliminà recursivamente e caratteristiche basate nantu à a collinearità trà elli è l'impurtanza di queste caratteristiche in u mudellu. In più di e funzioni di classificazione, RFE pò dimustrà se queste caratteristiche sò impurtanti o micca ancu per un certu nùmeru di funzioni (perchè hè assai prubabile chì u numeru selezziunatu di funziunalità ùn sia micca ottimali, è u nùmeru ottimale di funzioni pò esse o più. o menu di u numeru sceltu).

Diagramma di l'impurtanza di e caratteristiche

Quandu si parla di l'interpretabilità di l'algoritmi d'apprendimentu di machine, di solitu discutemu di regressioni lineari (chì permettenu di analizà l'impurtanza di e funzioni cù p-value) è di l'arburi di decisione (letteralmenti chì mostranu l'impurtanza di e caratteristiche in forma di un arbre, è à u u stessu tempu a so gerarchia). Per d 'altra banda, algoritmi cum'è Random Forest, LightGBM è XG Boost spessu usanu un diagramma d'impurtanza di funziunalità, vale à dì, un diagramma di variàbili è "i so numeri d'impurtanza" sò tracciati. Questu hè sopratuttu utile quandu avete bisognu di furnisce una logica strutturata per l'impurtanza di l'attributi in quantu à u so impattu nantu à l'affari.

Regularization

A regularizazione hè fatta per cuntrullà l'equilibriu trà preghjudiziu è varianza. Bias mostra quantu u mudellu hà overfitted in u settore di dati di furmazione. A deviazione mostra quantu e diverse previsioni eranu trà i datasets di furmazione è di prova. Idealmentu, sia u preghjudiziu è a varianza deve esse chjuca. Hè quì chì a regularizazione vene in salvezza ! Ci sò dui tecniche principali:

L1 Regularization - Lasso: Lasso penalizeghja i pesi di mudelli per cambià a so impurtanza à u mudellu è pò ancu annullà (vale à dì sguassate quelli variàbili da u mudellu finali). Di genere, Lasso hè utilizatu quandu un dataset cuntene un gran numaru di variàbili è vulete escludiri alcune d'elli per capisce megliu quantu e funzioni impurtanti afectanu u mudellu (vale à dì, quelli funziunalità chì sò stati selezziunati da Lasso è sò stati attribuiti impurtanza).

L2 Regularization - Metudu Ridge: U travagliu di Ridge hè di almacenà tutte e variàbili è à u stessu tempu attribuisce impurtanza à elli secondu a so cuntribuzione à u rendiment di u mudellu. Ridge serà una bona scelta se u dataset cuntene un picculu numeru di variàbili è tutti sò necessarii per interpretà i risultati è i risultati ottenuti.

Siccomu Ridge mantene tutte e variàbili è Lasso faci un megliu travagliu di stabilisce a so impurtanza, hè statu sviluppatu un algoritmu chì combina e migliori caratteristiche di e duie regularizazioni, cunnisciutu com'è Elastic-Net.

Ci hè parechje più manere di selezziunà e funzioni per l'apprendimentu di a macchina, ma l'idea principale hè sempre a stessa: dimustrà l'impurtanza di e variàbili è poi eliminà alcune di elli basatu annantu à l'impurtanza resultanti. L'impurtanza hè un termu assai subjectivu, perchè ùn hè micca solu unu, ma un inseme sanu di metriche è charts chì ponu esse usatu per truvà attributi chjave.

Grazie per leghje! Felice apprendimentu!

Source: www.habr.com

Add a comment