Le but de l’article est de fournir un soutien aux data scientists débutants. DANS
Pourquoi il est logique d'accorder une attention particulière à la formule ?
C'est avec l'équation matricielle que l'on commence dans la plupart des cas à se familiariser avec la régression linéaire. Dans le même temps, les calculs détaillés sur la façon dont la formule a été dérivée sont rares.
Par exemple, dans les cours d'apprentissage automatique de Yandex, lorsque les étudiants sont initiés à la régularisation, il leur est proposé d'utiliser les fonctions de la bibliothèque. apprendre, alors que pas un mot n'est mentionné sur la représentation matricielle de l'algorithme. C'est à ce moment que certains auditeurs voudront peut-être comprendre ce problème plus en détail : écrire du code sans utiliser de fonctions prêtes à l'emploi. Et pour ce faire, il faut d’abord présenter l’équation avec un régulariseur sous forme matricielle. Cet article permettra à ceux qui souhaitent maîtriser de telles compétences. Commençons.
Conditions initiales
Indicateurs cibles
Nous avons une gamme de valeurs cibles. Par exemple, l’indicateur cible pourrait être le prix de n’importe quel actif : pétrole, or, blé, dollar, etc. Dans le même temps, par un certain nombre de valeurs d'indicateurs cibles, nous entendons le nombre d'observations. De telles observations pourraient être, par exemple, les prix mensuels du pétrole pour l’année, c’est-à-dire que nous aurons 12 valeurs cibles. Commençons par introduire la notation. Notons chaque valeur de l'indicateur cible comme . Au total nous avons observations, ce qui signifie que nous pouvons représenter nos observations comme .
Régresseurs
Nous supposerons qu'il existe des facteurs qui expliquent dans une certaine mesure les valeurs de l'indicateur cible. Par exemple, le taux de change dollar/rouble est fortement influencé par le prix du pétrole, le taux de la Réserve fédérale, etc. De tels facteurs sont appelés régresseurs. Dans le même temps, chaque valeur d'indicateur cible doit correspondre à une valeur de régresseur, c'est-à-dire que si nous avons 12 indicateurs cibles pour chaque mois en 2018, alors nous devrions également avoir 12 valeurs de régresseur pour la même période. Notons les valeurs de chaque régresseur par . Supposons que dans notre cas il y ait régresseurs (c'est-à-dire facteurs qui influencent les valeurs des indicateurs cibles). Cela signifie que nos régresseurs peuvent être présentés comme suit : pour le 1er régresseur (par exemple, le prix du pétrole) : , pour le 2ème régresseur (par exemple, le taux de la Fed) : , pour "-ème" régresseur :
Dépendance des indicateurs cibles sur les régresseurs
Supposons que la dépendance de l'indicateur cible des régresseurs "Cette observation peut être exprimée par une équation de régression linéaire de la forme :
Où - “-th" valeur du régresseur de 1 à ,
— nombre de régresseurs de 1 à
— les coefficients angulaires, qui représentent l'ampleur de la variation moyenne de l'indicateur cible calculé lorsque le régresseur change.
Autrement dit, nous sommes pour tout le monde (sauf ) du régresseur on détermine « notre » coefficient , puis multipliez les coefficients par les valeurs des régresseurs"e" observation, on obtient ainsi une certaine approximation "-th" indicateur cible.
Par conséquent, nous devons sélectionner de tels coefficients , auquel les valeurs de notre fonction d'approximation sera situé le plus près possible des valeurs cibles de l’indicateur.
Évaluer la qualité de la fonction d'approximation
Nous déterminerons l'évaluation de la qualité de la fonction d'approximation en utilisant la méthode des moindres carrés. La fonction d’évaluation de la qualité prendra dans ce cas la forme suivante :
Nous devons sélectionner de telles valeurs des coefficients $w$ pour lesquelles la valeur sera le plus petit.
Conversion de l'équation sous forme matricielle
Représentation vectorielle
Pour commencer, pour vous faciliter la vie, vous devez faire attention à l'équation de régression linéaire et remarquer que le premier coefficient n’est multiplié par aucun régresseur. Dans le même temps, lorsque nous convertissons les données sous forme matricielle, la circonstance mentionnée ci-dessus compliquera sérieusement les calculs. À cet égard, il est proposé d'introduire un autre régresseur pour le premier coefficient et l'assimiler à un. Ou plutôt, chaque "assimilons la ième valeur de ce régresseur à un - après tout, multiplié par un, rien ne changera du point de vue du résultat des calculs, mais du point de vue des règles de produit des matrices, notre tourment sera considérablement réduit.
Maintenant, pour le moment, afin de simplifier le propos, supposons que nous n'en ayons qu'un "-ème" observation. Ensuite, imaginez les valeurs des régresseurs"-th" observations comme vecteur . Vecteur a une dimension C'est-à- lignes et 1 colonne :
Représentons les coefficients requis sous forme de vecteur , ayant une dimension :
Équation de régression linéaire pour "-ème" observation prendra la forme :
La fonction d'évaluation de la qualité d'un modèle linéaire prendra la forme :
Attention, conformément aux règles de multiplication matricielle, nous devions transposer le vecteur .
Représentation matricielle
En multipliant les vecteurs, nous obtenons le nombre : , ce à quoi il faut s'attendre. Ce nombre est l'approximation "-th" indicateur cible. Mais nous avons besoin d’une approximation non pas d’une seule valeur cible, mais de toutes. Pour ce faire, notons tout »"th" régresseurs au format matriciel . La matrice résultante a la dimension :
L’équation de régression linéaire prendra maintenant la forme :
Désignons les valeurs des indicateurs cibles (tous ) par vecteur dimension :
Nous pouvons maintenant écrire l'équation pour évaluer la qualité d'un modèle linéaire sous forme matricielle :
En fait, à partir de cette formule, nous obtenons en outre la formule que nous connaissons
Comment c'est fait? Les parenthèses sont ouvertes, la différenciation est effectuée, les expressions résultantes sont transformées, etc., et c'est exactement ce que nous allons faire maintenant.
Transformations matricielles
Ouvrons les parenthèses
Préparons une équation de différenciation
Pour ce faire, nous allons procéder à quelques transformations. Dans les calculs ultérieurs, il nous sera plus pratique si le vecteur sera représenté au début de chaque produit de l’équation.
Transformation 1
Comment est-ce arrivé? Pour répondre à cette question, il suffit de regarder les tailles des matrices multipliées et de voir qu'en sortie on obtient un nombre ou autre .
Écrivons les tailles des expressions matricielles.
Transformation 2
Écrivons-le de la même manière que la transformation 1
En sortie, nous obtenons une équation que nous devons différencier :
Nous différencions la fonction d'évaluation de la qualité du modèle
Différencions par rapport au vecteur :
Questions pourquoi cela ne devrait pas être le cas, mais nous examinerons plus en détail les opérations de détermination des dérivées dans les deux autres expressions.
Différenciation 1
Développons la différenciation :
Afin de déterminer la dérivée d’une matrice ou d’un vecteur, vous devez regarder ce qu’ils contiennent. Regardons:
Notons le produit des matrices à travers la matrice . La matrice carré et en plus, il est symétrique. Ces propriétés nous seront utiles plus tard, rappelons-les. Matrice a une dimension :
Maintenant, notre tâche est de multiplier correctement les vecteurs par la matrice et de ne pas obtenir « deux fois deux font cinq », alors concentrons-nous et soyons extrêmement prudents.
Cependant, nous avons obtenu une expression complexe ! En fait, nous avons un nombre – un scalaire. Et maintenant, pour de vrai, passons à la différenciation. Il faut trouver la dérivée de l'expression résultante pour chaque coefficient et obtenez le vecteur de dimension en sortie . Au cas où, j'écrirai les procédures par action :
1) différencier par , on a:
2) différencier par , on a:
3) différencier par , on a:
La sortie est le vecteur de taille promis :
Si vous regardez le vecteur de plus près, vous remarquerez que les éléments gauche et droit correspondant du vecteur peuvent être regroupés de telle manière que, par conséquent, un vecteur peut être isolé du vecteur présenté. taille . Par exemple, (élément gauche de la ligne supérieure du vecteur) (l'élément droit de la ligne supérieure du vecteur) peut être représenté comme Et - comme etc. sur chaque ligne. Regroupons :
Supprimons le vecteur et en sortie on obtient :
Examinons maintenant de plus près la matrice résultante. La matrice est la somme de deux matrices :
Rappelons qu'un peu plus tôt nous avions noté une propriété importante de la matrice - c'est symétrique. Sur la base de cette propriété, nous pouvons affirmer avec certitude que l'expression égal . Cela peut être facilement vérifié en développant le produit des matrices élément par élément . Nous ne le ferons pas ici, les personnes intéressées peuvent le vérifier elles-mêmes.
Revenons à notre expression. Après nos transformations, cela s’est passé comme nous voulions le voir :
Nous avons donc terminé la première différenciation. Passons à la deuxième expression.
Différenciation 2
Suivons les sentiers battus. Il sera beaucoup plus court que le précédent, alors ne vous éloignez pas trop de l'écran.
Développons les vecteurs et la matrice élément par élément :
Supprimons les deux des calculs pendant un moment - cela ne joue pas un grand rôle, puis nous le remettrons à sa place. Multiplions les vecteurs par la matrice. Tout d'abord, multiplions la matrice vecteur , nous n'avons aucune restriction ici. On obtient le vecteur taille :
Effectuons l'action suivante - multiplions le vecteur au vecteur résultant. A la sortie le numéro nous attendra :
Ensuite, nous le différencierons. En sortie on obtient un vecteur de dimension :
Cela me rappelle quelque chose ? C'est exact! C'est le produit de la matrice vecteur .
Ainsi, la deuxième différenciation est réalisée avec succès.
Au lieu d'une conclusion
Maintenant nous savons comment l'égalité est née .
Enfin, nous décrirons une manière rapide de transformer des formules de base.
Évaluons la qualité du modèle selon la méthode des moindres carrés :
Différencions l'expression résultante :
littérature
Sources Internet :
1)
2)
3)
4)
Manuels, recueils de problèmes :
1) Notes de cours sur les mathématiques supérieures : cours complet / D.T. Écrit – 4e éd. – M. : Iris-presse, 2006
2) Analyse de régression appliquée / N. Draper, G. Smith - 2e éd. – M. : Finances et Statistiques, 1986 (traduction de l’anglais)
3) Problèmes de résolution d'équations matricielles :
Source: habr.com