Selección de características na aprendizaxe automática

Ola Habr!

Nós en Reksoft traducimos o artigo ao ruso Selección de funcións en Machine Learning. Agardamos que sexa útil para todos os que estean interesados ​​no tema.

No mundo real, os datos non sempre son tan limpos como ás veces pensan os clientes comerciais. É por iso que a minería de datos e a disputa de datos son demandadas. Axuda a identificar os valores e patróns que faltan nos datos estruturados por consulta que os humanos non poden identificar. Para atopar e utilizar estes patróns para predecir resultados utilizando relacións descubertas nos datos, a aprendizaxe automática é útil.

Para comprender calquera algoritmo, cómpre mirar todas as variables dos datos e descubrir o que representan esas variables. Isto é fundamental porque a razón detrás dos resultados baséase na comprensión dos datos. Se os datos conteñen 5 ou incluso 50 variables, pode examinalas todas. E se son 200? Entón simplemente non haberá tempo suficiente para estudar cada variable. Ademais, algúns algoritmos non funcionan para datos categóricos, e entón terás que converter todas as columnas categóricas en variables cuantitativas (poden parecer cuantitativas, pero as métricas mostrarán que son categóricas) para engadilas ao modelo. Así, o número de variables aumenta, e hai unhas 500. Que facer agora? Poderíase pensar que a resposta sería reducir a dimensionalidade. Os algoritmos de redución de dimensionalidade reducen o número de parámetros pero teñen un impacto negativo na interpretabilidade. E se hai outras técnicas que eliminan características mentres facilitan a comprensión e interpretación das restantes?

Dependendo de se a análise se basea na regresión ou na clasificación, os algoritmos de selección de características poden diferir, pero a idea principal da súa implementación segue sendo a mesma.

Variables altamente correlacionadas

As variables que están moi correlacionadas entre si proporcionan a mesma información ao modelo, polo que non é necesario usalas todas para a análise. Por exemplo, se un conxunto de datos contén as características "Tempo en liña" e "Tráfico utilizado", podemos supoñer que estarán algo correlacionadas e veremos unha correlación forte aínda que seleccionemos unha mostra de datos imparcial. Neste caso, só é necesaria unha destas variables no modelo. Se usas ambos, o modelo estará demasiado equipado e inclinarase cara a unha característica en particular.

Valores p

En algoritmos como a regresión lineal, un modelo estatístico inicial sempre é unha boa idea. Axuda a mostrar a importancia das características a través dos seus valores p que foron obtidos por este modelo. Unha vez establecido o nivel de significación, comprobamos os valores p resultantes, e se algún valor está por debaixo do nivel de significación especificado, entón esta característica declárase significativa, é dicir, un cambio no seu valor probablemente levará a un cambio no valor de o obxectivo.

Selección directa

A selección cara adiante é unha técnica que implica a aplicación de regresión por pasos. A construción do modelo comeza cun cero completo, é dicir, un modelo baleiro, e despois cada iteración engade unha variable que mellora o modelo que se está construíndo. Que variable se engade ao modelo está determinada pola súa importancia. Isto pódese calcular usando varias métricas. A forma máis común é utilizar os valores p obtidos no modelo estatístico orixinal utilizando todas as variables. Ás veces, a selección anticipada pode levar a un sobreajuste dun modelo porque pode haber variables moi correlacionadas no modelo, aínda que proporcionen a mesma información ao modelo (pero o modelo aínda mostra melloras).

Selección inversa

A selección inversa tamén implica a eliminación paso a paso de trazos, pero na dirección oposta en comparación coa selección directa. Neste caso, o modelo inicial inclúe todas as variables independentes. Elimínanse entón as variables (unha por iteración) se non aportan valor ao novo modelo de regresión en cada iteración. A exclusión de características baséase nos valores p do modelo inicial. Este método tamén ten incerteza ao eliminar variables moi correlacionadas.

Eliminación de características recursivas

RFE é unha técnica/algoritmo moi utilizado para seleccionar o número exacto de características significativas. Ás veces, o método úsase para explicar unha serie de características "máis importantes" que inflúen nos resultados; e ás veces para reducir un número moi grande de variables (unhas 200-400), e só se conservan aquelas que fan polo menos algunha contribución ao modelo, exclúense todas as demais. RFE utiliza un sistema de clasificación. As características do conxunto de datos atribúenselles rangos. Estes rangos empréganse entón para eliminar recursivamente características en función da colinealidade entre elas e da importancia destas características no modelo. Ademais das funcións de clasificación, RFE pode mostrar se estas funcións son importantes ou non incluso para un determinado número de funcións (porque é moi probable que o número seleccionado de funcións non sexa o óptimo, e o número óptimo de funcións pode ser máis ou inferior ao número seleccionado).

Diagrama de importancia das características

Cando falamos da interpretabilidade dos algoritmos de aprendizaxe automática, adoitamos comentar regresións lineais (que permiten analizar a importancia das características mediante valores p) e árbores de decisión (que amosan literalmente a importancia das características en forma de árbore, e no ao mesmo tempo a súa xerarquía). Por outra banda, algoritmos como Random Forest, LightGBM e XG Boost adoitan empregar un diagrama de importancia de características, é dicir, un diagrama de variables e "os seus números de importancia". Isto é especialmente útil cando precisa proporcionar unha razón estruturada para a importancia dos atributos en canto ao seu impacto na empresa.

Regularización

A regularización faise para controlar o equilibrio entre sesgo e varianza. O sesgo mostra canto se encaixou o modelo no conxunto de datos de adestramento. A desviación mostra a diferenza entre as predicións entre os conxuntos de datos de adestramento e de proba. Idealmente, tanto o sesgo como a varianza deberían ser pequenos. Aquí é onde a regularización vén ao rescate! Hai dúas técnicas principais:

Regularización L1 - Lazo: Lazo penaliza os pesos do modelo para cambiar a súa importancia para o modelo e mesmo pode restablecerlos a cero (é dicir, eliminar esas variables do modelo final). Normalmente, Lasso úsase cando un conxunto de datos contén un gran número de variables e quere excluír algunhas delas para comprender mellor a importancia que afectan ao modelo (é dicir, aquelas características que foron seleccionadas por Lasso e ás que se lles asignou importancia).

L2 Regularización - Método Ridge: o traballo de Ridge é almacenar todas as variables e ao mesmo tempo asignarlles importancia en función da súa contribución ao rendemento do modelo. Ridge será unha boa opción se o conxunto de datos contén un pequeno número de variables e todas elas son necesarias para interpretar os achados e os resultados obtidos.

Dado que Ridge mantén todas as variables e Lasso fai un mellor traballo para establecer a súa importancia, desenvolveuse un algoritmo que combina as mellores características de ambas as regularizacións, coñecido como Elastic-Net.

Hai moitas máis formas de seleccionar funcións para a aprendizaxe automática, pero a idea principal é sempre a mesma: demostrar a importancia das variables e despois eliminar algunhas delas en función da importancia resultante. A importancia é un termo moi subxectivo, xa que non é só un, senón todo un conxunto de métricas e gráficos que se poden utilizar para atopar atributos clave.

Grazas por ler! Feliz aprendizaxe!

Fonte: www.habr.com

Engadir un comentario