Funktionsauswahl beim maschinellen Lernen

Hey Habr!

Wir von Reksoft haben den Artikel ins Russische übersetzt Funktionsauswahl beim maschinellen Lernen. Wir hoffen, dass es für alle nützlich ist, die sich für das Thema interessieren.

In der realen Welt sind Daten nicht immer so sauber, wie Geschäftskunden manchmal denken. Deshalb sind Data Mining und Data Wrangling gefragt. Es hilft dabei, fehlende Werte und Muster in abfragestrukturierten Daten zu identifizieren, die Menschen nicht identifizieren können. Um diese Muster zu finden und zur Vorhersage von Ergebnissen mithilfe entdeckter Beziehungen in den Daten zu verwenden, ist maschinelles Lernen hilfreich.

Um einen Algorithmus zu verstehen, müssen Sie sich alle Variablen in den Daten ansehen und herausfinden, was diese Variablen darstellen. Dies ist von entscheidender Bedeutung, da die Grundlage der Ergebnisse auf dem Verständnis der Daten basiert. Wenn die Daten 5 oder sogar 50 Variablen enthalten, können Sie sie alle untersuchen. Was wäre, wenn es 200 wären? Dann bleibt einfach nicht genug Zeit, um jede einzelne Variable zu studieren. Darüber hinaus funktionieren einige Algorithmen nicht für kategoriale Daten, und dann müssen Sie alle kategorialen Spalten in quantitative Variablen konvertieren (sie sehen möglicherweise quantitativ aus, aber die Metriken zeigen, dass sie kategorisch sind), um sie dem Modell hinzuzufügen. Dadurch erhöht sich die Anzahl der Variablen, und es sind etwa 500. Was nun tun? Man könnte meinen, die Antwort bestünde darin, die Dimensionalität zu reduzieren. Algorithmen zur Dimensionsreduktion reduzieren die Anzahl der Parameter, wirken sich jedoch negativ auf die Interpretierbarkeit aus. Was wäre, wenn es andere Techniken gäbe, die Merkmale eliminieren und die übrigen leicht verständlich und interpretierbar machen?

Je nachdem, ob die Analyse auf Regression oder Klassifizierung basiert, können sich die Algorithmen zur Merkmalsauswahl unterscheiden, die Grundidee ihrer Implementierung bleibt jedoch dieselbe.

Hochkorrelierte Variablen

Variablen, die stark miteinander korrelieren, liefern dem Modell die gleichen Informationen, sodass nicht alle für die Analyse verwendet werden müssen. Wenn ein Datensatz beispielsweise die Merkmale „Online-Zeit“ und „Verwendeter Verkehr“ enthält, können wir davon ausgehen, dass sie einigermaßen korrelieren, und wir werden eine starke Korrelation feststellen, selbst wenn wir eine unvoreingenommene Datenstichprobe auswählen. In diesem Fall wird nur eine dieser Variablen im Modell benötigt. Wenn Sie beides verwenden, wird das Modell übermäßig angepasst und auf eine bestimmte Funktion ausgerichtet.

P-Werte

Bei Algorithmen wie der linearen Regression ist ein anfängliches statistisches Modell immer eine gute Idee. Es hilft, die Bedeutung der Merkmale anhand ihrer p-Werte darzustellen, die mit diesem Modell ermittelt wurden. Nachdem wir das Signifikanzniveau festgelegt haben, überprüfen wir die resultierenden p-Werte. Wenn ein Wert unter dem angegebenen Signifikanzniveau liegt, wird dieses Merkmal als signifikant erklärt, d. h. eine Änderung seines Werts führt wahrscheinlich zu einer Änderung des Werts von das Ziel.

Direktauswahl

Bei der Vorwärtsauswahl handelt es sich um eine Technik, bei der eine schrittweise Regression angewendet wird. Die Modellerstellung beginnt mit einer vollständigen Null, also einem leeren Modell, und dann fügt jede Iteration eine Variable hinzu, die eine Verbesserung des zu erstellenden Modells bewirkt. Welche Variable dem Modell hinzugefügt wird, wird durch ihre Signifikanz bestimmt. Dies kann anhand verschiedener Metriken berechnet werden. Die gebräuchlichste Methode besteht darin, die im ursprünglichen statistischen Modell unter Verwendung aller Variablen erhaltenen p-Werte zu verwenden. Manchmal kann die Vorwärtsauswahl zu einer Überanpassung eines Modells führen, da das Modell möglicherweise stark korrelierte Variablen enthält, auch wenn diese dem Modell dieselben Informationen liefern (das Modell zeigt jedoch immer noch eine Verbesserung).

Auswahl umkehren

Bei der umgekehrten Selektion geht es ebenfalls um die schrittweise Eliminierung von Merkmalen, allerdings in umgekehrter Richtung wie bei der Vorwärtsselektion. In diesem Fall umfasst das Ausgangsmodell alle unabhängigen Variablen. Variablen werden dann eliminiert (eine pro Iteration), wenn sie nicht in jeder Iteration einen Wert zum neuen Regressionsmodell beitragen. Der Merkmalsausschluss basiert auf den p-Werten des ursprünglichen Modells. Diese Methode weist auch Unsicherheiten auf, wenn stark korrelierte Variablen entfernt werden.

Eliminierung rekursiver Merkmale

RFE ist eine weit verbreitete Technik/ein weit verbreiteter Algorithmus zur Auswahl der genauen Anzahl signifikanter Merkmale. Manchmal wird die Methode verwendet, um eine Reihe „wichtigster“ Merkmale zu erklären, die die Ergebnisse beeinflussen; und manchmal, um eine sehr große Anzahl von Variablen (etwa 200–400) zu reduzieren, wobei nur diejenigen beibehalten werden, die zumindest einen gewissen Beitrag zum Modell leisten, und alle anderen ausgeschlossen werden. RFE verwendet ein Ranking-System. Den Merkmalen im Datensatz werden Ränge zugewiesen. Diese Ränge werden dann verwendet, um Features basierend auf der Kollinearität zwischen ihnen und der Bedeutung dieser Features im Modell rekursiv zu eliminieren. Zusätzlich zum Ranking von Merkmalen kann RFE auch für eine bestimmte Anzahl von Merkmalen zeigen, ob diese Merkmale wichtig sind oder nicht (da es sehr wahrscheinlich ist, dass die ausgewählte Anzahl von Merkmalen möglicherweise nicht optimal ist und die optimale Anzahl von Merkmalen möglicherweise größer ist). oder kleiner als die ausgewählte Zahl).

Funktionsbedeutung-Diagramm

Wenn wir über die Interpretierbarkeit von Algorithmen für maschinelles Lernen sprechen, diskutieren wir normalerweise lineare Regressionen (mit denen Sie die Bedeutung von Merkmalen mithilfe von p-Werten analysieren können) und Entscheidungsbäume (die die Bedeutung von Merkmalen buchstäblich in Form eines Baums anzeigen). gleichzeitig ihre Hierarchie). Andererseits verwenden Algorithmen wie Random Forest, LightGBM und XG Boost häufig ein Merkmalswichtigkeitsdiagramm, d. Dies ist besonders nützlich, wenn Sie eine strukturierte Begründung für die Bedeutung von Attributen im Hinblick auf ihre Auswirkung auf das Unternehmen liefern müssen.

Regulierung

Die Regularisierung wird durchgeführt, um das Gleichgewicht zwischen Bias und Varianz zu kontrollieren. Der Bias zeigt an, wie stark das Modell den Trainingsdatensatz überangepasst hat. Die Abweichung zeigt, wie unterschiedlich die Vorhersagen zwischen den Trainings- und Testdatensätzen waren. Im Idealfall sollten sowohl Bias als auch Varianz gering sein. Hier kommt die Regularisierung zur Rettung! Es gibt zwei Haupttechniken:

L1-Regularisierung – Lasso: Lasso bestraft Modellgewichte, um ihre Bedeutung für das Modell zu ändern, und kann sie sogar auf Null setzen (d. h. diese Variablen aus dem endgültigen Modell entfernen). Typischerweise wird Lasso verwendet, wenn ein Datensatz eine große Anzahl von Variablen enthält und Sie einige davon ausschließen möchten, um besser zu verstehen, wie sich wichtige Features auf das Modell auswirken (d. h. die Features, die von Lasso ausgewählt und denen Bedeutung zugewiesen wurde).

L2-Regularisierung – Ridge-Methode: Ridges Aufgabe besteht darin, alle Variablen zu speichern und ihnen gleichzeitig basierend auf ihrem Beitrag zur Modellleistung Bedeutung zuzuweisen. Ridge ist eine gute Wahl, wenn der Datensatz eine kleine Anzahl von Variablen enthält und alle für die Interpretation der gewonnenen Erkenntnisse und Ergebnisse erforderlich sind.

Da Ridge alle Variablen behält und Lasso ihre Bedeutung besser ermitteln kann, wurde ein Algorithmus entwickelt, der die besten Eigenschaften beider Regularisierungen kombiniert, bekannt als Elastic-Net.

Es gibt viele weitere Möglichkeiten, Funktionen für maschinelles Lernen auszuwählen, aber die Grundidee ist immer dieselbe: die Wichtigkeit von Variablen demonstrieren und dann einige davon basierend auf der resultierenden Wichtigkeit eliminieren. Wichtigkeit ist ein sehr subjektiver Begriff, da es sich nicht nur um eine einzelne, sondern um eine ganze Reihe von Metriken und Diagrammen handelt, die zur Ermittlung von Schlüsselattributen verwendet werden können.

Vielen Dank fürs Lesen! Viel Spaß beim Lernen!

Source: habr.com

Kommentar hinzufügen