A cikk célja, hogy támogatást nyújtson a kezdő adattudósoknak. BAN BEN
Miért van értelme különös figyelmet fordítani a képletre ?
A legtöbb esetben a mátrixegyenlettel kezdjük megismerkedni a lineáris regresszióval. Ugyanakkor ritka a képlet származtatásának részletes számítása.
Például a Yandex gépi tanulási kurzusain, amikor a hallgatók megismerkednek a legalizálással, felajánlják számukra a könyvtár funkcióinak használatát. sklearn, míg az algoritmus mátrixos ábrázolásáról egy szó sem esik. Ebben a pillanatban egyes hallgatók részletesebben meg akarják érteni ezt a kérdést - írjon kódot kész funkciók használata nélkül. Ehhez pedig először be kell mutatni az egyenletet egy szabályosítóval mátrix formában. Ez a cikk lehetővé teszi azoknak, akik szeretnék elsajátítani ezeket a készségeket. Kezdjük el.
Kezdeti feltételek
Célmutatók
Számos célértékünk van. A célmutató lehet például bármely eszköz ára: olaj, arany, búza, dollár stb. Ugyanakkor számos célmutató érték alatt a megfigyelések számát értjük. Ilyen megfigyelések lehetnek például az év havi olajárai, vagyis 12 célértékünk lesz. Kezdjük a jelölés bevezetésével. Jelöljük a célmutató minden értékét mint . Összesen megvan megfigyelések, ami azt jelenti, hogy megfigyeléseinket mint .
Regresszorok
Feltételezzük, hogy vannak olyan tényezők, amelyek bizonyos mértékig megmagyarázzák a célmutató értékeit. Például a dollár/rubel árfolyamot erősen befolyásolja az olaj ára, a Federal Reserve árfolyama stb. Az ilyen tényezőket regresszoroknak nevezzük. Ugyanakkor minden célindikátor értéknek meg kell felelnie egy regresszor értéknek, vagyis ha 12-ban minden hónapra 2018 célmutatónk van, akkor ugyanerre az időszakra 12 regresszor érték is legyen. Jelöljük az egyes regresszorok értékeit . Legyen a mi esetünkben is regresszorok (pl. a célindikátor értékeket befolyásoló tényezők). Ez azt jelenti, hogy regresszorainkat a következőképpen lehet bemutatni: az 1. regresszorra (például az olaj ára): , a 2. regresszorhoz (például a Fed-kamatláb): , for "-th" regresszor:
A célmutatók függése a regresszoroktól
Tegyük fel, hogy a célmutató függése a regresszoroktól"A megfigyelés a következő alakú lineáris regressziós egyenlet segítségével fejezhető ki:
Ahol - "-th" regresszor értéke 1-től ,
— a regresszorok száma 1-től
— szögegyütthatók, amelyek azt az összeget jelentik, amellyel a számított célmutató átlagosan változik a regresszor változása esetén.
Más szóval, mindenkiért vagyunk (kivéve ) határozzuk meg a „mi” együtthatót , majd szorozd meg az együtthatókat a regresszorok értékével"th" megfigyelés, ennek eredményeként kapunk egy bizonyos közelítést"-edik" célmutató.
Ezért ilyen együtthatókat kell választanunk , amelynél a közelítő függvényünk értékei a lehető legközelebb kell elhelyezkedni a cél indikátorértékekhez.
A közelítő függvény minőségének felmérése
A közelítő függvény minőségértékelését a legkisebb négyzetek módszerével határozzuk meg. A minőségértékelési funkció ebben az esetben a következő formában történik:
Ki kell választanunk a $w$ együtthatók azon értékeit, amelyekre az érték vonatkozik lesz a legkisebb.
Az egyenlet mátrix formájúvá alakítása
Vektoros ábrázolás
Először is, hogy megkönnyítse az életét, figyeljen a lineáris regressziós egyenletre, és vegye észre, hogy az első együttható nincs szorozva semmilyen regresszorral. Ugyanakkor, amikor az adatokat mátrix formájúvá alakítjuk, a fent említett körülmény súlyosan megnehezíti a számításokat. Ebben a tekintetben egy másik regresszor bevezetését javasoljuk az első együtthatóhoz és egyenlővé tesz egy. Vagy inkább minden"egyenlővé tegyük ennek a regresszornak a th értékét eggyel - elvégre eggyel megszorozva a számítások eredménye szempontjából semmi sem fog változni, de a mátrixok szorzatára vonatkozó szabályok szempontjából a kínunk jelentősen csökkenni fog.
Jelenleg az anyag egyszerűsítése érdekében tegyük fel, hogy csak egy van."-th" megfigyelés. Aztán képzeld el a regresszorok értékeit"-th" megfigyelések vektorként . Vektor dimenziója van Ez azt jelenti, sorok és 1 oszlop:
A szükséges együtthatókat ábrázoljuk vektorként , amelynek mérete van :
Lineáris regressziós egyenlet ehhez: "-th" megfigyelés a következő formában lesz:
A lineáris modell minőségét értékelő függvény a következő formában jelenik meg:
Felhívjuk figyelmét, hogy a mátrixszorzás szabályai szerint a vektort transzponálni kellett .
Mátrix reprezentáció
A vektorok szorzása eredményeként a következő számot kapjuk: , ami várható is. Ez a szám közelítő "-edik" célmutató. De nem csak egy célértéket kell közelíteni, hanem mindegyiket. Ehhez írjunk fel mindent ""th" regresszorok mátrix formátumban . Az eredményül kapott mátrixnak van mérete :
Most a lineáris regressziós egyenlet a következőképpen alakul:
Jelöljük a célmutatók értékeit (mind ) vektoronként dimenzió :
Most felírhatjuk a lineáris modell minőségének értékelésére szolgáló egyenletet mátrix formátumban:
Tulajdonképpen ebből a képletből kapjuk tovább az általunk ismert képletet
Hogyan történik? A zárójeleket kinyitjuk, differenciálást hajtunk végre, a kapott kifejezéseket transzformáljuk stb., és most pontosan ezt fogjuk tenni.
Mátrix transzformációk
Nyissuk ki a zárójeleket
Készítsünk differenciálási egyenletet
Ennek érdekében néhány átalakítást végzünk. A későbbi számításokban kényelmesebb lesz számunkra, ha a vektor Az egyenletben minden termék elején megjelenik.
Konverzió 1
Hogy történt? A kérdés megválaszolásához nézzük meg a szorozandó mátrixok méretét, és nézzük meg, hogy a kimenetben egy számot kapunk, vagy más módon .
Írjuk fel a mátrixkifejezések méretét.
Konverzió 2
Írjuk fel az 1. transzformációhoz hasonló módon
A kimenetben egy egyenletet kapunk, amelyet meg kell különböztetni:
Megkülönböztetünk a modell minőségértékelési funkcióját
Tegyünk különbséget a vektorhoz képest :
Kérdések, hogy miért nem kellene, de megvizsgáljuk a másik két kifejezésben a deriváltak meghatározására szolgáló műveleteket részletesebben.
1. megkülönböztetés
Bővítsük ki a különbségtételt:
Egy mátrix vagy vektor deriváltjának meghatározásához meg kell nézni, mi van bennük. Nézzük:
Jelöljük a mátrixok szorzatát a mátrixon keresztül . Mátrix négyzet alakú, ráadásul szimmetrikus. Ezek a tulajdonságok később hasznosak lesznek számunkra, emlékezzünk rájuk. Mátrix dimenziója van :
Most az a feladatunk, hogy helyesen szorozzuk meg a vektorokat a mátrixszal, és ne kapjuk azt, hogy „kétszer kettő az öt”, ezért koncentráljunk és legyünk rendkívül óvatosak.
Azonban elértünk egy bonyolult kifejezést! Valójában kaptunk egy számot – egy skalárt. És most valóban áttérünk a megkülönböztetésre. Minden együtthatóhoz meg kell találni a kapott kifejezés deriváltját és megkapjuk a dimenzióvektort kimenetként . Minden esetre leírom az eljárásokat cselekvéssel:
1) megkülönböztetni , kapunk:
2) megkülönböztetni , kapunk:
3) megkülönböztetni , kapunk:
A kimenet a méret ígért vektora :
Ha közelebbről megnézi a vektort, észre fogja venni, hogy a vektor bal és a megfelelő jobb oldali elemei csoportosíthatók oly módon, hogy ennek eredményeként egy vektor izolálható a bemutatott vektortól. méret . Például (a vektor felső sorának bal oldali eleme) (a vektor felső sorának jobb oldali eleme) így ábrázolható És - mint stb. minden sorban. Csoportosítsunk:
Vegyük ki a vektort és a kimeneten ezt kapjuk:
Most pedig nézzük meg közelebbről a kapott mátrixot. A mátrix két mátrix összege :
Emlékezzünk vissza, hogy valamivel korábban megjegyeztük a mátrix egy fontos tulajdonságát - szimmetrikus. E tulajdonság alapján bátran kijelenthetjük, hogy a kifejezés egyenlő . Ez könnyen ellenőrizhető a mátrixok szorzatának elemenkénti bővítésével . Itt ezt nem tesszük, az érdeklődők maguk is ellenőrizhetik.
Térjünk vissza kifejezésünkre. Átalakulásaink után úgy alakult, ahogy szerettük volna:
Tehát befejeztük az első megkülönböztetést. Térjünk át a második kifejezésre.
2. megkülönböztetés
Kövessük a kitaposott utat. Sokkal rövidebb lesz, mint az előző, ezért ne menjen túl messze a képernyőtől.
Bontsuk ki a vektorokat és a mátrixot elemenként:
Egy időre vegyük ki a kettőt a számításokból - nem játszik nagy szerepet, majd visszatesszük a helyére. Szorozzuk meg a vektorokat a mátrixszal. Először is szorozzuk meg a mátrixot vektorhoz , itt nincs korlátozás. Megkapjuk a méretvektort :
Végezzük el a következő műveletet - szorozzuk meg a vektort a kapott vektorhoz. A kijáratnál a szám vár ránk:
Akkor meg fogjuk különböztetni. A kimeneten egy dimenzióvektort kapunk :
Emlékeztet valamire? Úgy van! Ez a mátrix szorzata vektorhoz .
Így a második differenciálás sikeresen befejeződött.
Ahelyett, hogy egy következtetés
Most már tudjuk, hogyan jött létre az egyenlőség .
Végül leírunk egy gyors módot az alapképletek átalakítására.
Értékeljük a modell minőségét a legkisebb négyzetek módszerével:
Megkülönböztetjük a kapott kifejezést:
Irodalom
Internetes források:
1)
2)
3)
4)
Tankönyvek, feladatgyűjtemények:
1) Előadásjegyzet a felsőbb matematikáról: teljes kurzus / D.T. Írásbeli – 4. kiadás. – M.: Iris-press, 2006
2) Alkalmazott regressziós elemzés / N. Draper, G. Smith - 2. kiadás. – M.: Pénzügy és Statisztika, 1986 (fordítás angolból)
3) Feladatok mátrixegyenletek megoldásához:
Forrás: will.com