Γεια σου Χαμπρ!
Εμείς στην Reksoft έχουμε μεταφράσει το άρθρο στα ρωσικά Ελπίζουμε ότι θα είναι χρήσιμο σε όλους όσους δεν είναι αδιάφοροι για το θέμα.
Στον πραγματικό κόσμο, τα δεδομένα δεν είναι πάντα τόσο καθαρά όσο νομίζουν μερικές φορές οι επιχειρηματικοί πελάτες. Αυτός είναι ο λόγος για τον οποίο η εξόρυξη δεδομένων και η επεξεργασία δεδομένων είναι σε ζήτηση. Βοηθούν στον εντοπισμό ελλειπουσών τιμών και μοτίβων σε δεδομένα δομημένα με ερωτήματα που ένα άτομο δεν μπορεί να αναγνωρίσει. Η Μηχανική Μάθηση είναι χρήσιμη για την εύρεση και τη χρήση αυτών των μοτίβων για την πρόβλεψη αποτελεσμάτων χρησιμοποιώντας τις ανακαλυφθείσες συνδέσεις στα δεδομένα.
Η κατανόηση οποιουδήποτε αλγορίθμου απαιτεί την εξέταση όλων των μεταβλητών στα δεδομένα και την κατανόηση του τι αντιπροσωπεύουν αυτές οι μεταβλητές. Αυτό είναι κρίσιμο επειδή η βάση για την κατανόηση των αποτελεσμάτων βασίζεται στην κατανόηση των δεδομένων. Εάν τα δεδομένα περιέχουν 5 ή ακόμα και 50 μεταβλητές, μπορείτε να τις εξετάσετε όλες. Αλλά τι γίνεται αν υπάρχουν 200; Απλώς δεν υπάρχει αρκετός χρόνος για να εξετάσετε κάθε μεμονωμένη μεταβλητή. Επιπλέον, ορισμένοι αλγόριθμοι δεν λειτουργούν για κατηγορηματικά δεδομένα, επομένως πρέπει να μετατρέψετε όλες τις κατηγορηματικές στήλες σε ποσοτικές μεταβλητές (μπορεί να φαίνονται ποσοτικές, αλλά οι μετρήσεις θα δείξουν ότι είναι κατηγορηματικές) για να τις προσθέσετε στο μοντέλο. Έτσι, ο αριθμός των μεταβλητών αυξάνεται σε περίπου 500. Τι να κάνετε τώρα; Μπορεί να πιστεύετε ότι η μείωση της διαστατικότητας θα ήταν η απάντηση. Οι αλγόριθμοι μείωσης της διαστατικότητας μειώνουν τον αριθμό των χαρακτηριστικών, αλλά έχουν αρνητικό αντίκτυπο στην ερμηνευσιμότητα. Τι γίνεται αν υπάρχουν άλλες τεχνικές που εξαλείφουν τα χαρακτηριστικά, ενώ παράλληλα καθιστούν τα υπόλοιπα εύκολα στην κατανόηση και την ερμηνεία;
Ανάλογα με το αν η ανάλυση βασίζεται σε παλινδρόμηση ή ταξινόμηση, οι αλγόριθμοι επιλογής χαρακτηριστικών μπορεί να διαφέρουν, αλλά η κύρια ιδέα της εφαρμογής τους παραμένει η ίδια.
Υψηλά συσχετισμένες μεταβλητές
Οι μεταβλητές που παρουσιάζουν υψηλή συσχέτιση μεταξύ τους παρέχουν τις ίδιες πληροφορίες στο μοντέλο, επομένως δεν χρειάζεται να τις χρησιμοποιήσετε όλες για ανάλυση. Για παράδειγμα, εάν ένα σύνολο δεδομένων περιέχει χαρακτηριστικά όπως «Χρόνος Συνδεδεμένος» και «Χρησιμοποιούμενο Εύρος Ζώνης», μπορείτε να περιμένετε ότι θα συσχετίζονται κάπως και θα δείτε ισχυρή συσχέτιση ακόμη και αν επιλέξετε ένα αμερόληπτο δείγμα των δεδομένων. Σε αυτήν την περίπτωση, χρειάζεστε μόνο μία από αυτές τις μεταβλητές στο μοντέλο. Εάν χρησιμοποιήσετε και τις δύο, το μοντέλο θα είναι υπερπροσαρμοσμένο και μεροληπτικό προς ένα συγκεκριμένο χαρακτηριστικό.
Τιμές P
Σε αλγόριθμους όπως η γραμμική παλινδρόμηση, είναι πάντα καλή ιδέα να υπάρχει ένα αρχικό στατιστικό μοντέλο. Βοηθά στην εμφάνιση της σημασίας των χαρακτηριστικών χρησιμοποιώντας τις τιμές p τους, οι οποίες ελήφθησαν από αυτό το μοντέλο. Αφού ορίσουμε το επίπεδο σημαντικότητας, ελέγχουμε τις τιμές p που ελήφθησαν και, εάν κάποια τιμή είναι κάτω από το καθορισμένο επίπεδο σημαντικότητας, τότε αυτό το χαρακτηριστικό δηλώνεται σημαντικό, δηλαδή, η αλλαγή της τιμής του πιθανότατα θα οδηγήσει σε αλλαγή στην τιμή-στόχο.
Άμεση επιλογή
Η εμπρόσθια επιλογή είναι μια τεχνική που περιλαμβάνει τη χρήση σταδιακής παλινδρόμησης. Το μοντέλο κατασκευάζεται ξεκινώντας από την αρχή, δηλαδή ένα κενό μοντέλο, και στη συνέχεια κάθε επανάληψη προσθέτει μια μεταβλητή που βελτιώνει το μοντέλο που κατασκευάζεται. Το ποια μεταβλητή προστίθεται στο μοντέλο καθορίζεται από τη σημαντικότητά της. Αυτό μπορεί να υπολογιστεί χρησιμοποιώντας διάφορες μετρήσεις. Ο πιο συνηθισμένος τρόπος είναι να χρησιμοποιηθούν οι τιμές p που λαμβάνονται από το αρχικό στατιστικό μοντέλο χρησιμοποιώντας όλες τις μεταβλητές. Μερικές φορές, η εμπρόσθια επιλογή μπορεί να οδηγήσει σε υπερπροσαρμογή του μοντέλου, επειδή το μοντέλο μπορεί να περιέχει μεταβλητές με υψηλή συσχέτιση, ακόμη και αν παρέχουν τις ίδιες πληροφορίες στο μοντέλο (αλλά το μοντέλο εξακολουθεί να παρουσιάζει βελτίωση).
Αντίστροφη επιλογή
Η επιλογή προς τα πίσω περιλαμβάνει επίσης σταδιακή εξάλειψη χαρακτηριστικών, αλλά προς την αντίθετη κατεύθυνση από την επιλογή προς τα εμπρός. Σε αυτήν την περίπτωση, το αρχικό μοντέλο περιλαμβάνει όλες τις ανεξάρτητες μεταβλητές. Οι μεταβλητές στη συνέχεια εξαλείφονται (μία κάθε φορά) εάν δεν συνεισφέρουν στο νέο μοντέλο παλινδρόμησης σε κάθε επανάληψη. Η εξάλειψη χαρακτηριστικών βασίζεται στις τιμές p του αρχικού μοντέλου. Αυτή η μέθοδος εισάγει επίσης αβεβαιότητα κατά την αφαίρεση μεταβλητών με υψηλή συσχέτιση.
Αναδρομική εξάλειψη χαρακτηριστικών
Το RFE είναι μια ευρέως χρησιμοποιούμενη τεχνική/αλγόριθμος για την επιλογή ενός ακριβούς αριθμού σημαντικών χαρακτηριστικών. Μερικές φορές η μέθοδος χρησιμοποιείται για να εξηγήσει έναν ορισμένο αριθμό "πιο σημαντικών" χαρακτηριστικών που επηρεάζουν τα αποτελέσματα. Μερικές φορές χρησιμοποιείται για να μειώσει έναν πολύ μεγάλο αριθμό μεταβλητών (περίπου 200-400) και να διατηρήσει μόνο εκείνα που συμβάλλουν στο μοντέλο και να αποκλείσει τα υπόλοιπα. Το RFE χρησιμοποιεί ένα σύστημα κατάταξης. Στα χαρακτηριστικά στο σύνολο δεδομένων αντιστοιχίζονται βαθμίδες. Αυτές οι βαθμίδες χρησιμοποιούνται στη συνέχεια για να αποκλείσουν αναδρομικά χαρακτηριστικά ανάλογα με τη συγγραμμικότητα μεταξύ τους και τη σημασία αυτών των χαρακτηριστικών στο μοντέλο. Εκτός από την κατάταξη χαρακτηριστικών, το RFE μπορεί να δείξει εάν αυτά τα χαρακτηριστικά είναι σημαντικά ή όχι ακόμη και για έναν δεδομένο αριθμό χαρακτηριστικών (επειδή είναι πολύ πιθανό ο επιλεγμένος αριθμός χαρακτηριστικών να μην είναι βέλτιστος και ο βέλτιστος αριθμός χαρακτηριστικών να είναι τόσο μεγαλύτερος όσο και μικρότερος από τον επιλεγμένο).
Διάγραμμα Σημασίας Χαρακτηριστικών
Όταν μιλάμε για την ερμηνευσιμότητα των αλγορίθμων μηχανικής μάθησης, συνήθως μιλάμε για γραμμικές παλινδρομήσεις (οι οποίες μας επιτρέπουν να αναλύσουμε τη σημασία των χαρακτηριστικών χρησιμοποιώντας τιμές p) και δέντρα αποφάσεων (τα οποία κυριολεκτικά δείχνουν τη σημασία των χαρακτηριστικών με τη μορφή ενός δέντρου, μαζί με την ιεραρχία τους). Από την άλλη πλευρά, αλγόριθμοι όπως το Random Forest, το LightGBM και το XG Boost χρησιμοποιούν συχνά ένα διάγραμμα σημασίας χαρακτηριστικών, δηλαδή ένα διάγραμμα μεταβλητών και την «βαθμολογία σημασίας» τους. Αυτό είναι ιδιαίτερα χρήσιμο όταν χρειάζεται να παρέχετε μια δομημένη αιτιολόγηση για τη σημασία των χαρακτηριστικών όσον αφορά τον αντίκτυπό τους στην επιχείρηση.
Τακτοποίηση
Η κανονικοποίηση γίνεται για τον έλεγχο της ισορροπίας μεταξύ μεροληψίας και διακύμανσης. Η μεροληψία δείχνει πόσο υπερβολική προσαρμογή του μοντέλου στο σύνολο δεδομένων εκπαίδευσης. Η διακύμανση δείχνει πόσο διαφορετικές ήταν οι προβλέψεις μεταξύ των συνόλων δεδομένων εκπαίδευσης και δοκιμής. Ιδανικά, τόσο η μεροληψία όσο και η διακύμανση θα πρέπει να είναι μικρές. Εδώ ακριβώς έρχεται η κανονικοποίηση! Υπάρχουν δύο κύριες τεχνικές:
Κανονικοποίηση L1 - Lasso: Το Lasso τιμωρεί τα βάρη του μοντέλου για να αλλάξει τη σημασία τους στο μοντέλο και μπορεί ακόμη και να τα μηδενίσει (δηλαδή, να αφαιρέσει αυτές τις μεταβλητές από το τελικό μοντέλο). Το Lasso χρησιμοποιείται συνήθως όταν ένα σύνολο δεδομένων περιέχει μεγάλο αριθμό μεταβλητών και θέλετε να εξαιρέσετε ορισμένες από αυτές για να κατανοήσετε καλύτερα πώς τα σημαντικά χαρακτηριστικά συμβάλλουν στο μοντέλο (δηλαδή, τα χαρακτηριστικά που επιλέχθηκαν από το Lasso και τους αποδόθηκε σημασία).
Κανονικοποίηση L2 - Μέθοδος Ridge: Η μέθοδος Ridge στοχεύει στη διατήρηση όλων των μεταβλητών, αποδίδοντάς τους παράλληλα σημασία με βάση τη συμβολή τους στην απόδοση του μοντέλου. Η μέθοδος Ridge είναι μια καλή επιλογή εάν το σύνολο δεδομένων περιέχει μικρό αριθμό μεταβλητών και όλες αυτές είναι απαραίτητες για την ερμηνεία των ευρημάτων και των αποτελεσμάτων που λαμβάνονται.
Δεδομένου ότι ο Ridge διατηρεί όλες τις μεταβλητές και ο Lasso είναι καλύτερος στο να τους αποδίδει σημασία, αναπτύχθηκε ένας αλγόριθμος που συνδυάζει τα καλύτερα χαρακτηριστικά και των δύο κανονικοποιήσεων και είναι γνωστός ως Elastic-Net.
Υπάρχουν πολλοί περισσότεροι τρόποι για να επιλέξετε χαρακτηριστικά για μηχανική μάθηση, αλλά η κύρια ιδέα είναι πάντα η ίδια: να καταδείξετε τη σημασία των μεταβλητών και στη συνέχεια να αποκλείσετε ορισμένες από αυτές με βάση τη σημασία που προκύπτει. Η σημασία είναι ένας πολύ υποκειμενικός όρος, καθώς δεν είναι μία αλλά ένα ολόκληρο σύνολο μετρήσεων και γραφημάτων που μπορούν να χρησιμοποιηθούν για την εύρεση βασικών χαρακτηριστικών.
Ευχαριστώ για την ανάγνωση! Καλή μάθηση!
Πηγή: www.habr.com
