Επιλογή χαρακτηριστικών στη μηχανική εκμάθηση

Γεια σου Χαμπρ!

Εμείς στη Reksoft μεταφράσαμε το άρθρο στα ρωσικά Επιλογή χαρακτηριστικών στη Μηχανική Εκμάθηση. Ελπίζουμε ότι θα είναι χρήσιμο σε όλους όσους ενδιαφέρονται για το θέμα.

Στον πραγματικό κόσμο, τα δεδομένα δεν είναι πάντα τόσο καθαρά όσο νομίζουν μερικές φορές οι επιχειρηματικοί πελάτες. Αυτός είναι ο λόγος για τον οποίο η εξόρυξη δεδομένων και η διαμάχη δεδομένων έχουν ζήτηση. Βοηθά στον εντοπισμό τιμών και μοτίβων που λείπουν σε δεδομένα δομημένων ερωτημάτων που οι άνθρωποι δεν μπορούν να αναγνωρίσουν. Για να βρείτε και να χρησιμοποιήσετε αυτά τα μοτίβα για την πρόβλεψη αποτελεσμάτων χρησιμοποιώντας ανακαλυφθείσες σχέσεις στα δεδομένα, η μηχανική μάθηση είναι χρήσιμη.

Για να κατανοήσετε οποιονδήποτε αλγόριθμο, πρέπει να εξετάσετε όλες τις μεταβλητές στα δεδομένα και να καταλάβετε τι αντιπροσωπεύουν αυτές οι μεταβλητές. Αυτό είναι κρίσιμο γιατί η λογική πίσω από τα αποτελέσματα βασίζεται στην κατανόηση των δεδομένων. Εάν τα δεδομένα περιέχουν 5 ή και 50 μεταβλητές, μπορείτε να τις εξετάσετε όλες. Τι γίνεται αν είναι 200 ​​από αυτά; Τότε απλά δεν θα υπάρχει αρκετός χρόνος για τη μελέτη κάθε μεμονωμένης μεταβλητής. Επιπλέον, ορισμένοι αλγόριθμοι δεν λειτουργούν για κατηγορικά δεδομένα και, στη συνέχεια, θα πρέπει να μετατρέψετε όλες τις κατηγορικές στήλες σε ποσοτικές μεταβλητές (μπορεί να φαίνονται ποσοτικές, αλλά οι μετρήσεις θα δείξουν ότι είναι κατηγορικές) για να τις προσθέσετε στο μοντέλο. Έτσι, ο αριθμός των μεταβλητών αυξάνεται και υπάρχουν περίπου 500. Τι να κάνετε τώρα; Θα μπορούσε κανείς να σκεφτεί ότι η απάντηση θα ήταν να μειωθεί η διάσταση. Οι αλγόριθμοι μείωσης διαστάσεων μειώνουν τον αριθμό των παραμέτρων αλλά έχουν αρνητικό αντίκτυπο στην ερμηνευτικότητα. Τι θα συμβεί αν υπάρχουν άλλες τεχνικές που εξαλείφουν τα χαρακτηριστικά ενώ κάνουν τα υπόλοιπα εύκολα κατανοητά και ερμηνευμένα;

Ανάλογα με το αν η ανάλυση βασίζεται σε παλινδρόμηση ή ταξινόμηση, οι αλγόριθμοι επιλογής χαρακτηριστικών μπορεί να διαφέρουν, αλλά η κύρια ιδέα της εφαρμογής τους παραμένει η ίδια.

Υψηλής συσχέτισης μεταβλητές

Οι μεταβλητές που συσχετίζονται σε μεγάλο βαθμό μεταξύ τους παρέχουν τις ίδιες πληροφορίες στο μοντέλο, επομένως δεν χρειάζεται να χρησιμοποιηθούν όλες για ανάλυση. Για παράδειγμα, εάν ένα σύνολο δεδομένων περιέχει τα χαρακτηριστικά "Online Time" και "Traffic Used", μπορούμε να υποθέσουμε ότι θα συσχετιστούν κάπως και θα δούμε μια ισχυρή συσχέτιση ακόμα και αν επιλέξουμε ένα αμερόληπτο δείγμα δεδομένων. Σε αυτήν την περίπτωση, μόνο μία από αυτές τις μεταβλητές χρειάζεται στο μοντέλο. Εάν χρησιμοποιείτε και τα δύο, το μοντέλο θα είναι υπερβολικά προσαρμοσμένο και προκατειλημμένο προς ένα συγκεκριμένο χαρακτηριστικό.

P-τιμές

Σε αλγόριθμους όπως η γραμμική παλινδρόμηση, ένα αρχικό στατιστικό μοντέλο είναι πάντα μια καλή ιδέα. Βοηθά να δείξουμε τη σημασία των χαρακτηριστικών μέσω των τιμών p που ελήφθησαν από αυτό το μοντέλο. Έχοντας ορίσει το επίπεδο σημαντικότητας, ελέγχουμε τις τιμές p που προκύπτουν και εάν κάποια τιμή είναι κάτω από το καθορισμένο επίπεδο σημασίας, τότε αυτό το χαρακτηριστικό χαρακτηρίζεται σημαντικό, δηλαδή, μια αλλαγή στην τιμή του πιθανότατα θα οδηγήσει σε αλλαγή στην τιμή του ο ΣΤΟΧΟΣ.

Άμεση επιλογή

Η μπροστινή επιλογή είναι μια τεχνική που περιλαμβάνει την εφαρμογή σταδιακής παλινδρόμησης. Η δημιουργία μοντέλου ξεκινά με ένα πλήρες μηδέν, δηλαδή ένα κενό μοντέλο, και στη συνέχεια κάθε επανάληψη προσθέτει μια μεταβλητή που βελτιώνει το υπό κατασκευή μοντέλο. Ποια μεταβλητή προστίθεται στο μοντέλο καθορίζεται από τη σημασία της. Αυτό μπορεί να υπολογιστεί χρησιμοποιώντας διάφορες μετρήσεις. Ο πιο συνηθισμένος τρόπος είναι να χρησιμοποιήσετε τις τιμές p που λαμβάνονται στο αρχικό στατιστικό μοντέλο χρησιμοποιώντας όλες τις μεταβλητές. Μερικές φορές η μπροστινή επιλογή μπορεί να οδηγήσει σε υπερβολική προσαρμογή ενός μοντέλου, επειδή μπορεί να υπάρχουν πολύ συσχετισμένες μεταβλητές στο μοντέλο, ακόμα κι αν παρέχουν τις ίδιες πληροφορίες στο μοντέλο (αλλά το μοντέλο εξακολουθεί να παρουσιάζει βελτίωση).

Αντίστροφη επιλογή

Η αντίστροφη επιλογή περιλαμβάνει επίσης τη σταδιακή εξάλειψη των χαρακτηριστικών, αλλά προς την αντίθετη κατεύθυνση σε σύγκριση με την προς τα εμπρός επιλογή. Σε αυτή την περίπτωση, το αρχικό μοντέλο περιλαμβάνει όλες τις ανεξάρτητες μεταβλητές. Στη συνέχεια, οι μεταβλητές εξαλείφονται (μία ανά επανάληψη) εάν δεν συνεισφέρουν αξία στο νέο μοντέλο παλινδρόμησης σε κάθε επανάληψη. Η εξαίρεση χαρακτηριστικών βασίζεται στις τιμές p του αρχικού μοντέλου. Αυτή η μέθοδος έχει επίσης αβεβαιότητα κατά την αφαίρεση μεταβλητών υψηλής συσχέτισης.

Αναδρομική Εξάλειψη Χαρακτηριστικών

Το RFE είναι μια ευρέως χρησιμοποιούμενη τεχνική/αλγόριθμος για την επιλογή του ακριβούς αριθμού σημαντικών χαρακτηριστικών. Μερικές φορές η μέθοδος χρησιμοποιείται για να εξηγήσει μια σειρά από «πιο σημαντικά» χαρακτηριστικά που επηρεάζουν τα αποτελέσματα. και μερικές φορές για να μειωθεί ένας πολύ μεγάλος αριθμός μεταβλητών (περίπου 200-400), και μόνο εκείνες που συμβάλλουν τουλάχιστον σε κάποιο βαθμό στο μοντέλο διατηρούνται και όλες οι άλλες εξαιρούνται. Το RFE χρησιμοποιεί ένα σύστημα κατάταξης. Τα χαρακτηριστικά στο σύνολο δεδομένων έχουν εκχωρηθεί τάξεις. Αυτές οι τάξεις χρησιμοποιούνται στη συνέχεια για την αναδρομική εξάλειψη χαρακτηριστικών με βάση τη συγγραμμικότητα μεταξύ τους και τη σημασία αυτών των χαρακτηριστικών στο μοντέλο. Εκτός από τα χαρακτηριστικά κατάταξης, το RFE μπορεί να δείξει εάν αυτά τα χαρακτηριστικά είναι σημαντικά ή όχι ακόμη και για έναν δεδομένο αριθμό χαρακτηριστικών (επειδή είναι πολύ πιθανό ο επιλεγμένος αριθμός χαρακτηριστικών να μην είναι βέλτιστος και ο βέλτιστος αριθμός χαρακτηριστικών μπορεί να είναι είτε μεγαλύτερος ή λιγότερο από τον επιλεγμένο αριθμό).

Διάγραμμα σημασίας χαρακτηριστικών

Όταν μιλάμε για την ερμηνευσιμότητα των αλγορίθμων μηχανικής μάθησης, συνήθως συζητάμε γραμμικές παλινδρομήσεις (που σας επιτρέπουν να αναλύσετε τη σημασία των χαρακτηριστικών χρησιμοποιώντας τιμές p) και δέντρα αποφάσεων (που δείχνουν κυριολεκτικά τη σημασία των χαρακτηριστικών με τη μορφή δέντρου και ταυτόχρονα η ιεραρχία τους). Από την άλλη πλευρά, αλγόριθμοι όπως το Random Forest, το LightGBM και το XG Boost χρησιμοποιούν συχνά ένα διάγραμμα σημασίας χαρακτηριστικών, δηλαδή ένα διάγραμμα μεταβλητών και οι «αριθμοί σημασίας τους». Αυτό είναι ιδιαίτερα χρήσιμο όταν χρειάζεται να παράσχετε μια δομημένη λογική για τη σημασία των χαρακτηριστικών όσον αφορά τον αντίκτυπό τους στην επιχείρηση.

Τακτοποίηση

Η τακτοποίηση γίνεται για να ελεγχθεί η ισορροπία μεταξύ μεροληψίας και διακύμανσης. Το Bias δείχνει πόσο έχει υπερπροσαρμοστεί το μοντέλο στο σύνολο δεδομένων εκπαίδευσης. Η απόκλιση δείχνει πόσο διαφορετικές ήταν οι προβλέψεις μεταξύ των συνόλων δεδομένων εκπαίδευσης και δοκιμής. Στην ιδανική περίπτωση, τόσο η μεροληψία όσο και η διακύμανση θα πρέπει να είναι μικρές. Εδώ είναι που η τακτοποίηση έρχεται να σώσει! Υπάρχουν δύο κύριες τεχνικές:

Τακτοποίηση L1 - Lasso: Το Lasso τιμωρεί τα βάρη του μοντέλου για να αλλάξει τη σημασία τους για το μοντέλο και μπορεί ακόμη και να τα μηδενίσει (δηλαδή να αφαιρέσει αυτές τις μεταβλητές από το τελικό μοντέλο). Συνήθως, το Lasso χρησιμοποιείται όταν ένα σύνολο δεδομένων περιέχει μεγάλο αριθμό μεταβλητών και θέλετε να εξαιρέσετε ορισμένες από αυτές για να κατανοήσετε καλύτερα πόσο σημαντικά χαρακτηριστικά επηρεάζουν το μοντέλο (δηλαδή εκείνα τα χαρακτηριστικά που έχουν επιλεγεί από το Lasso και τους έχει αποδοθεί σημασία).

L2 Regularization - Μέθοδος Ridge: Η δουλειά του Ridge είναι να αποθηκεύει όλες τις μεταβλητές και ταυτόχρονα να τους αποδίδει σημασία με βάση τη συμβολή τους στην απόδοση του μοντέλου. Το Ridge θα είναι μια καλή επιλογή εάν το σύνολο δεδομένων περιέχει μικρό αριθμό μεταβλητών και όλες είναι απαραίτητες για την ερμηνεία των ευρημάτων και των αποτελεσμάτων που λαμβάνονται.

Δεδομένου ότι το Ridge διατηρεί όλες τις μεταβλητές και το Lasso κάνει καλύτερη δουλειά για να καθορίσει τη σημασία τους, αναπτύχθηκε ένας αλγόριθμος που συνδυάζει τα καλύτερα χαρακτηριστικά και των δύο ρυθμίσεων, γνωστός ως Elastic-Net.

Υπάρχουν πολλοί περισσότεροι τρόποι επιλογής δυνατοτήτων για μηχανική εκμάθηση, αλλά η κύρια ιδέα είναι πάντα η ίδια: δείξτε τη σημασία των μεταβλητών και, στη συνέχεια, εξαλείψτε ορισμένες από αυτές με βάση τη σημασία που προκύπτει. Η σημασία είναι ένας πολύ υποκειμενικός όρος, καθώς δεν είναι μόνο ένας, αλλά ένα ολόκληρο σύνολο μετρήσεων και γραφημάτων που μπορούν να χρησιμοποιηθούν για την εύρεση βασικών χαρακτηριστικών.

Ευχαριστούμε που το διαβάσατε! Καλή μάθηση!

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο