Ο σκοπός του άρθρου είναι να παρέχει υποστήριξη σε αρχάριους επιστήμονες δεδομένων. ΣΕ
Γιατί είναι λογικό να δίνουμε ιδιαίτερη προσοχή στη φόρμουλα ?
Είναι με την εξίσωση του πίνακα που στις περισσότερες περιπτώσεις αρχίζει κανείς να εξοικειώνεται με τη γραμμική παλινδρόμηση. Ταυτόχρονα, οι λεπτομερείς υπολογισμοί για το πώς προέκυψε ο τύπος είναι σπάνιοι.
Για παράδειγμα, στα μαθήματα μηχανικής μάθησης από το Yandex, όταν οι μαθητές εισάγονται στην κανονικοποίηση, τους προσφέρεται να χρησιμοποιούν λειτουργίες από τη βιβλιοθήκη sklearn, ενώ δεν αναφέρεται λέξη για την αναπαράσταση μήτρας του αλγορίθμου. Είναι αυτή τη στιγμή που ορισμένοι ακροατές μπορεί να θέλουν να κατανοήσουν αυτό το ζήτημα με περισσότερες λεπτομέρειες - να γράψουν κώδικα χωρίς τη χρήση έτοιμων συναρτήσεων. Και για να γίνει αυτό, πρέπει πρώτα να παρουσιάσετε την εξίσωση με έναν κανονικοποιητή σε μορφή μήτρας. Αυτό το άρθρο θα επιτρέψει σε όσους επιθυμούν να κατακτήσουν τέτοιες δεξιότητες. Ας αρχίσουμε.
Αρχικές συνθήκες
Δείκτες στόχου
Έχουμε μια σειρά από τιμές-στόχους. Για παράδειγμα, ο δείκτης στόχος θα μπορούσε να είναι η τιμή οποιουδήποτε περιουσιακού στοιχείου: πετρέλαιο, χρυσός, σιτάρι, δολάριο κ.λπ. Ταυτόχρονα, με έναν αριθμό τιμών δείκτη στόχου εννοούμε τον αριθμό των παρατηρήσεων. Τέτοιες παρατηρήσεις θα μπορούσαν να είναι, για παράδειγμα, οι μηνιαίες τιμές του πετρελαίου για το έτος, δηλαδή θα έχουμε 12 τιμές-στόχους. Ας αρχίσουμε να εισάγουμε τη σημειογραφία. Ας υποδηλώσουμε κάθε τιμή του δείκτη στόχου ως . Συνολικά έχουμε παρατηρήσεις, που σημαίνει ότι μπορούμε να αναπαραστήσουμε τις παρατηρήσεις μας ως .
οπισθοδρομικοί
Θα υποθέσουμε ότι υπάρχουν παράγοντες που εξηγούν σε κάποιο βαθμό τις τιμές του δείκτη στόχου. Για παράδειγμα, η συναλλαγματική ισοτιμία δολαρίου/ρουβλίου επηρεάζεται έντονα από την τιμή του πετρελαίου, την ισοτιμία της Federal Reserve, κ.λπ. Αυτοί οι παράγοντες ονομάζονται οπισθοδρομικοί. Ταυτόχρονα, κάθε τιμή δείκτη στόχου πρέπει να αντιστοιχεί σε μια τιμή παλινδρόμησης, δηλαδή εάν έχουμε 12 δείκτες-στόχους για κάθε μήνα το 2018, τότε θα πρέπει να έχουμε και 12 τιμές παλινδρόμησης για την ίδια περίοδο. Ας υποδηλώσουμε τις τιμές κάθε παλινδρομητή με . Ας υπάρχει στην περίπτωσή μας παλίνδρομοι (δηλ. παράγοντες που επηρεάζουν τις τιμές των δεικτών-στόχων). Αυτό σημαίνει ότι οι μετρητές μας παλινδρόμησης μπορούν να παρουσιαστούν ως εξής: για τον 1ο παλινδρομητή (για παράδειγμα, την τιμή του πετρελαίου): , για το 2ο παλίνδρομο (για παράδειγμα, το επιτόκιο της Fed): , Για "-th" regressor:
Εξάρτηση των δεικτών-στόχων από παλινδρομικούς παράγοντες
Ας υποθέσουμε ότι η εξάρτηση του δείκτη στόχου από οπισθοδρομικούς»Η παρατήρηση μπορεί να εκφραστεί μέσω μιας εξίσωσης γραμμικής παλινδρόμησης της μορφής:
Όπου - "-th" τιμή αναδρομέα από 1 έως ,
— αριθμός παλινδρόμων από 1 έως
— γωνιακοί συντελεστές, οι οποίοι αντιπροσωπεύουν το ποσό κατά το οποίο ο υπολογιζόμενος δείκτης στόχος θα αλλάξει κατά μέσο όρο όταν αλλάζει ο παλινδρομικός δείκτης.
Με άλλα λόγια, είμαστε για όλους (εκτός ) του παλινδρομητή προσδιορίζουμε τον συντελεστή «μας». , στη συνέχεια πολλαπλασιάστε τους συντελεστές με τις τιμές των παλινδρόμων "th" παρατήρηση, ως αποτέλεσμα λαμβάνουμε μια ορισμένη προσέγγιση "-ο» δείκτης στόχου.
Επομένως, πρέπει να επιλέξουμε τέτοιους συντελεστές , στις οποίες συναρτώνται οι τιμές της προσέγγισής μας θα βρίσκεται όσο το δυνατόν πιο κοντά στις τιμές του δείκτη στόχου.
Αξιολόγηση της ποιότητας της συνάρτησης προσέγγισης
Θα προσδιορίσουμε την ποιοτική αξιολόγηση της προσεγγιστικής συνάρτησης χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων. Η λειτουργία αξιολόγησης ποιότητας σε αυτήν την περίπτωση θα έχει την ακόλουθη μορφή:
Πρέπει να επιλέξουμε τέτοιες τιμές των συντελεστών $w$ για τους οποίους η τιμή θα είναι το μικρότερο.
Μετατροπή της εξίσωσης σε μορφή πίνακα
Διανυσματική αναπαράσταση
Αρχικά, για να κάνετε τη ζωή σας πιο εύκολη, θα πρέπει να δώσετε προσοχή στην εξίσωση γραμμικής παλινδρόμησης και να παρατηρήσετε ότι ο πρώτος συντελεστής δεν πολλαπλασιάζεται με κανένα παλινδρομικό. Ταυτόχρονα, όταν μετατρέπουμε τα δεδομένα σε μορφή μήτρας, η προαναφερθείσα περίσταση θα περιπλέξει σοβαρά τους υπολογισμούς. Από αυτή την άποψη, προτείνεται να εισαχθεί ένας άλλος παλινδρομικός παράγοντας για τον πρώτο συντελεστή και να το εξισώσει με ένα. Ή μάλλον, κάθε "εξισώστε την τιμή αυτού του παλινδρομητή με ένα - τελικά, όταν πολλαπλασιαστεί με ένα, τίποτα δεν θα αλλάξει από την άποψη του αποτελέσματος των υπολογισμών, αλλά από την άποψη των κανόνων για το γινόμενο των πινάκων, το μαρτύριο μας θα μειωθεί σημαντικά.
Τώρα, προς το παρόν, για να απλοποιήσουμε το υλικό, ας υποθέσουμε ότι έχουμε μόνο ένα "-η» παρατήρηση. Τότε, φανταστείτε τις αξίες των οπισθοδρομικών "-ο» παρατηρήσεις ως διάνυσμα . Διάνυσμα έχει διάσταση Δηλαδή, σειρές και 1 στήλη:
Ας παραστήσουμε τους απαιτούμενους συντελεστές ως διάνυσμα , έχοντας διάσταση :
Εξίσωση γραμμικής παλινδρόμησης για "-η» παρατήρηση θα έχει τη μορφή:
Η συνάρτηση για την αξιολόγηση της ποιότητας ενός γραμμικού μοντέλου θα έχει τη μορφή:
Σημειώστε ότι σύμφωνα με τους κανόνες του πολλαπλασιασμού του πίνακα, έπρεπε να μεταφέρουμε το διάνυσμα .
Αναπαράσταση μήτρας
Ως αποτέλεσμα του πολλαπλασιασμού των διανυσμάτων, παίρνουμε τον αριθμό: , το οποίο είναι αναμενόμενο. Αυτός ο αριθμός είναι η κατά προσέγγιση "-ο» δείκτης στόχου. Χρειαζόμαστε όμως μια προσέγγιση όχι μόνο μιας τιμής στόχου, αλλά όλων. Για να γίνει αυτό, ας γράψουμε τα πάντα "-ου" παλινδρομητές σε μορφή μήτρας . Ο προκύπτων πίνακας έχει τη διάσταση :
Τώρα η εξίσωση γραμμικής παλινδρόμησης θα έχει τη μορφή:
Ας υποδηλώσουμε τις τιμές των δεικτών-στόχων (όλα ) ανά διάνυσμα διάσταση :
Τώρα μπορούμε να γράψουμε την εξίσωση για την αξιολόγηση της ποιότητας ενός γραμμικού μοντέλου σε μορφή πίνακα:
Στην πραγματικότητα, από αυτόν τον τύπο παίρνουμε περαιτέρω τον γνωστό σε εμάς τύπο
Πώς γίνεται; Οι αγκύλες ανοίγουν, πραγματοποιείται διαφοροποίηση, μετασχηματίζονται οι εκφράσεις που προκύπτουν κ.λπ., και αυτό ακριβώς θα κάνουμε τώρα.
Μετασχηματισμοί μήτρας
Ας ανοίξουμε τις αγκύλες
Ας ετοιμάσουμε μια εξίσωση για διαφοροποίηση
Για να γίνει αυτό, θα πραγματοποιήσουμε μερικούς μετασχηματισμούς. Στους επόμενους υπολογισμούς θα είναι πιο βολικό για εμάς εάν το διάνυσμα θα παριστάνεται στην αρχή κάθε προϊόντος στην εξίσωση.
Μετατροπή 1
Πώς συνέβη? Για να απαντήσετε σε αυτήν την ερώτηση, απλώς κοιτάξτε τα μεγέθη των πινάκων που πολλαπλασιάζονται και δείτε ότι στην έξοδο παίρνουμε έναν αριθμό ή αλλιώς .
Ας γράψουμε τα μεγέθη των παραστάσεων μήτρας.
Μετατροπή 2
Ας το γράψουμε με παρόμοιο τρόπο με τον μετασχηματισμό 1
Στην έξοδο παίρνουμε μια εξίσωση που πρέπει να διαφοροποιήσουμε:
Διαφοροποιούμε τη συνάρτηση αξιολόγησης ποιότητας του μοντέλου
Ας διαφοροποιήσουμε ως προς το διάνυσμα :
Ερωτήσεις γιατί δεν πρέπει να υπάρχει, αλλά θα εξετάσουμε λεπτομερέστερα τις πράξεις για τον προσδιορισμό των παραγώγων στις άλλες δύο εκφράσεις.
Διαφοροποίηση 1
Ας επεκταθούμε στη διαφοροποίηση:
Για να προσδιορίσετε την παράγωγο μιας μήτρας ή ενός διανύσματος, πρέπει να δείτε τι υπάρχει μέσα τους. Ας κοιτάξουμε:
Ας υποδηλώσουμε το γινόμενο των πινάκων μέσω της μήτρας . Μήτρα τετράγωνο και επιπλέον είναι συμμετρικό. Αυτές οι ιδιότητες θα μας φανούν χρήσιμες αργότερα, ας τις θυμηθούμε. Μήτρα έχει διάσταση :
Τώρα το καθήκον μας είναι να πολλαπλασιάσουμε σωστά τα διανύσματα με τον πίνακα και να μην πάρουμε "δύο φορές δύο είναι πέντε", οπότε ας συγκεντρωθούμε και ας είμαστε εξαιρετικά προσεκτικοί.
Ωστόσο, έχουμε πετύχει μια περίπλοκη έκφραση! Στην πραγματικότητα, πήραμε έναν αριθμό - ένα κλιμακωτό. Και τώρα, στην πραγματικότητα, προχωράμε στη διαφοροποίηση. Είναι απαραίτητο να βρεθεί η παράγωγος της προκύπτουσας έκφρασης για κάθε συντελεστή και πάρτε το διάνυσμα διάστασης ως έξοδο . Για κάθε περίπτωση, θα καταγράψω τις διαδικασίες ανά ενέργεια:
1) διαφοροποίηση κατά , παίρνουμε:
2) διαφοροποίηση κατά , παίρνουμε:
3) διαφοροποίηση κατά , παίρνουμε:
Η έξοδος είναι το υποσχόμενο διάνυσμα μεγέθους :
Εάν κοιτάξετε πιο προσεκτικά το διάνυσμα, θα παρατηρήσετε ότι το αριστερό και το αντίστοιχο δεξιό στοιχείο του διανύσματος μπορούν να ομαδοποιηθούν με τέτοιο τρόπο ώστε, ως αποτέλεσμα, ένα διάνυσμα να μπορεί να απομονωθεί από το παρουσιαζόμενο διάνυσμα μέγεθος . Για παράδειγμα (αριστερό στοιχείο της επάνω γραμμής του διανύσματος) (το δεξί στοιχείο της επάνω γραμμής του διανύσματος) μπορεί να αναπαρασταθεί ως Και - όπως και και τα λοιπά. σε κάθε γραμμή. Ας ομαδοποιήσουμε:
Ας βγάλουμε το διάνυσμα και στην έξοδο παίρνουμε:
Τώρα, ας ρίξουμε μια πιο προσεκτική ματιά στον προκύπτοντα πίνακα. Ο πίνακας είναι το άθροισμα δύο πινάκων :
Ας θυμηθούμε ότι λίγο νωρίτερα σημειώσαμε μια σημαντική ιδιότητα του πίνακα - είναι συμμετρικό. Με βάση αυτή την ιδιότητα, μπορούμε με βεβαιότητα να πούμε ότι η έκφραση ισούται με . Αυτό μπορεί εύκολα να επαληθευτεί επεκτείνοντας το γινόμενο των πινάκων στοιχείο προς στοιχείο . Δεν θα το κάνουμε εδώ· οι ενδιαφερόμενοι μπορούν να το ελέγξουν οι ίδιοι.
Ας επιστρέψουμε στην έκφρασή μας. Μετά τις μεταμορφώσεις μας, έγινε όπως θέλαμε να το δούμε:
Έτσι, ολοκληρώσαμε την πρώτη διαφοροποίηση. Ας περάσουμε στη δεύτερη έκφραση.
Διαφοροποίηση 2
Ας ακολουθήσουμε την πεπατημένη. Θα είναι πολύ πιο κοντό από το προηγούμενο, οπότε μην απομακρυνθείτε πολύ από την οθόνη.
Ας επεκτείνουμε τα διανύσματα και τον πίνακα στοιχείο προς στοιχείο:
Ας τα αφαιρέσουμε για λίγο από τους υπολογισμούς - δεν παίζει μεγάλο ρόλο, μετά θα το ξαναβάλουμε στη θέση του. Ας πολλαπλασιάσουμε τα διανύσματα με τον πίνακα. Πρώτα απ 'όλα, ας πολλαπλασιάσουμε τον πίνακα σε διάνυσμα , δεν έχουμε περιορισμούς εδώ. Παίρνουμε το διάνυσμα μεγέθους :
Ας εκτελέσουμε την ακόλουθη ενέργεια - πολλαπλασιάζουμε το διάνυσμα στο διάνυσμα που προκύπτει. Στην έξοδο θα μας περιμένει ο αριθμός:
Τότε θα το διαφοροποιήσουμε. Στην έξοδο παίρνουμε ένα διάνυσμα διάστασης :
Μου θυμίζει κάτι; Σωστά! Αυτό είναι το γινόμενο του πίνακα σε διάνυσμα .
Έτσι, η δεύτερη διαφοροποίηση ολοκληρώνεται με επιτυχία.
Αντί για ένα συμπέρασμα
Τώρα ξέρουμε πώς προέκυψε η ισότητα .
Τέλος, θα περιγράψουμε έναν γρήγορο τρόπο μετατροπής βασικών τύπων.
Ας αξιολογήσουμε την ποιότητα του μοντέλου σύμφωνα με τη μέθοδο των ελαχίστων τετραγώνων:
Ας διαφοροποιήσουμε την έκφραση που προκύπτει:
Λογοτεχνία
Πηγές Διαδικτύου:
1)
2)
3)
4)
Σχολικά βιβλία, συλλογές προβλημάτων:
1) Σημειώσεις διάλεξης για ανώτερα μαθηματικά: πλήρες μάθημα / D.T. Γραπτό – 4η έκδ. – Μ.: Iris-press, 2006
2) Εφαρμοσμένη ανάλυση παλινδρόμησης / N. Draper, G. Smith - 2nd ed. – M.: Finance and Statistics, 1986 (μετάφραση από τα αγγλικά)
3) Προβλήματα επίλυσης εξισώσεων πινάκων:
Πηγή: www.habr.com