Hola Habr!
A Reksoft hem traduït l'article al rus . Esperem que sigui útil a tothom que estigui interessat en el tema.
Al món real, les dades no sempre són tan netes com pensen de vegades els clients empresarials. És per això que la mineria de dades i la discussió de dades es requereixen. Ajuda a identificar els valors i patrons que falten a les dades estructurades per consultes que els humans no poden identificar. Per trobar i utilitzar aquests patrons per predir resultats mitjançant les relacions descobertes a les dades, l'aprenentatge automàtic és útil.
Per entendre qualsevol algorisme, heu de mirar totes les variables de les dades i esbrinar què representen aquestes variables. Això és fonamental perquè la raó dels resultats es basa en la comprensió de les dades. Si les dades contenen 5 o fins i tot 50 variables, podeu examinar-les totes. I si n'hi ha 200? Aleshores, simplement no hi haurà prou temps per estudiar totes les variables. A més, alguns algorismes no funcionen per a dades categòriques, i llavors haureu de convertir totes les columnes categòriques en variables quantitatives (pot semblar quantitatives, però les mètriques mostraran que són categòriques) per afegir-les al model. Així, el nombre de variables augmenta, i n'hi ha unes 500. Què fer ara? Es podria pensar que la resposta seria reduir la dimensionalitat. Els algorismes de reducció de la dimensionalitat redueixen el nombre de paràmetres però tenen un impacte negatiu en la interpretabilitat. Què passa si hi ha altres tècniques que eliminen característiques alhora que fan que les restants siguin fàcils d'entendre i interpretar?
Depenent de si l'anàlisi es basa en regressió o classificació, els algorismes de selecció de característiques poden diferir, però la idea principal de la seva implementació segueix sent la mateixa.
Variables altament correlacionades
Les variables que estan altament correlacionades entre elles proporcionen la mateixa informació al model, de manera que no cal utilitzar-les totes per a l'anàlisi. Per exemple, si un conjunt de dades conté les característiques "Temps en línia" i "Trànsit utilitzat", podem suposar que estaran una mica correlacionades, i veurem una correlació forta encara que seleccionem una mostra de dades imparcial. En aquest cas, només cal una d'aquestes variables en el model. Si feu servir tots dos, el model estarà sobreadaptat i esbiaixat cap a una característica en particular.
Valors P
En algorismes com la regressió lineal, un model estadístic inicial sempre és una bona idea. Ajuda a mostrar la importància de les característiques a través dels seus valors p que es van obtenir amb aquest model. Un cop establert el nivell de significació, comprovem els valors p resultants i, si algun valor està per sota del nivell de significació especificat, aquesta característica es declara significativa, és a dir, un canvi en el seu valor probablement comportarà un canvi en el valor de l'objectiu.
Selecció directa
La selecció cap endavant és una tècnica que implica l'aplicació de regressió gradual. La construcció del model comença amb un zero complet, és a dir, un model buit, i després cada iteració afegeix una variable que millora el model que s'està construint. Quina variable s'afegeix al model està determinada per la seva importància. Això es pot calcular mitjançant diverses mètriques. La forma més habitual és utilitzar els valors p obtinguts en el model estadístic original utilitzant totes les variables. De vegades, la selecció anticipada pot provocar un sobreajustament d'un model perquè pot haver-hi variables altament correlacionades en el model, fins i tot si proporcionen la mateixa informació al model (però el model encara mostra una millora).
Selecció inversa
La selecció inversa també implica l'eliminació pas a pas de trets, però en sentit contrari en comparació amb la selecció directa. En aquest cas, el model inicial inclou totes les variables independents. Aleshores s'eliminen les variables (una per iteració) si no aporten valor al nou model de regressió en cada iteració. L'exclusió de característiques es basa en els valors p del model inicial. Aquest mètode també té incertesa a l'hora d'eliminar variables altament correlacionades.
Eliminació de característiques recursives
RFE és una tècnica/algorisme àmpliament utilitzat per seleccionar el nombre exacte de característiques significatives. De vegades, el mètode s'utilitza per explicar una sèrie de característiques "més importants" que influeixen en els resultats; i, de vegades, reduir un nombre molt gran de variables (unes 200-400), i només es conserven aquelles que aporten almenys alguna contribució al model, i s'exclouen totes les altres. RFE utilitza un sistema de classificació. Les característiques del conjunt de dades tenen rangs assignats. Aquests rangs s'utilitzen llavors per eliminar recursivament característiques basades en la colinealitat entre elles i la importància d'aquestes característiques en el model. A més de classificar les característiques, RFE pot mostrar si aquestes característiques són importants o no per a un nombre determinat de característiques (perquè és molt probable que el nombre de característiques seleccionades no sigui òptim, i el nombre òptim de característiques pot ser més o menys que el nombre seleccionat).
Diagrama d'importància de les característiques
Quan parlem de la interpretabilitat dels algorismes d'aprenentatge automàtic, normalment parlem de regressions lineals (que permeten analitzar la importància de les característiques mitjançant valors p) i arbres de decisió (que mostren literalment la importància de les característiques en forma d'arbre, i a la alhora la seva jerarquia). D'altra banda, algorismes com Random Forest, LightGBM i XG Boost utilitzen sovint un diagrama d'importància de les característiques, és a dir, un diagrama de variables i es dibuixa "els seus números d'importància". Això és especialment útil quan necessiteu proporcionar una justificació estructurada de la importància dels atributs pel que fa al seu impacte en el negoci.
Regularització
La regularització es fa per controlar l'equilibri entre el biaix i la variància. El biaix mostra fins a quin punt el model s'ha sobreadaptat al conjunt de dades d'entrenament. La desviació mostra com de diferents eren les prediccions entre els conjunts de dades d'entrenament i de prova. Idealment, tant el biaix com la variància haurien de ser petits. Aquí és on la regularització ve al rescat! Hi ha dues tècniques principals:
Regularització L1 - Lasso: Lasso penalitza els pesos del model per canviar la seva importància per al model i fins i tot pot restablir-los a zero (és a dir, eliminar aquestes variables del model final). Normalment, Lasso s'utilitza quan un conjunt de dades conté un gran nombre de variables i voleu excloure-ne algunes per entendre millor com afecten les característiques importants al model (és a dir, aquelles característiques que han estat seleccionades per Lasso i se'ls ha assignat importància).
L2 Regularització - Mètode Ridge: la feina de Ridge és emmagatzemar totes les variables i alhora donar-hi importància en funció de la seva contribució al rendiment del model. Ridge serà una bona opció si el conjunt de dades conté un nombre reduït de variables i totes són necessàries per interpretar les troballes i resultats obtinguts.
Com que Ridge manté totes les variables i Lasso fa un millor treball per establir-ne la importància, es va desenvolupar un algorisme que combina les millors característiques d'ambdues regularitzacions, conegut com Elastic-Net.
Hi ha moltes més maneres de seleccionar funcions per a l'aprenentatge automàtic, però la idea principal és sempre la mateixa: demostrar la importància de les variables i després eliminar-ne algunes en funció de la importància resultant. La importància és un terme molt subjectiu, ja que no és només un, sinó tot un conjunt de mètriques i gràfics que es poden utilitzar per trobar atributs clau.
Gràcies per llegir! Feliç aprenentatge!
Font: www.habr.com
