Artikli eesmärk on pakkuda tuge alustavatele andmeteadlastele. IN
Miks on mõtet valemile ekstra tähelepanu pöörata ?
Just maatriksvõrrandiga hakatakse enamasti tutvuma lineaarse regressiooniga. Samal ajal on valemi tuletamise üksikasjalikud arvutused haruldased.
Näiteks Yandexi masinõppekursustel pakutakse õpilastele regulaarsusega tutvumisel võimalust kasutada raamatukogu funktsioone. sklearn, samas ei mainita sõnagi algoritmi maatriksesituse kohta. Just sel hetkel võivad mõned kuulajad soovida seda probleemi üksikasjalikumalt mõista - kirjutada koodi ilma valmisfunktsioone kasutamata. Ja selleks tuleb esmalt esitada võrrand koos regulaatoriga maatriksi kujul. See artikkel võimaldab neil, kes soovivad selliseid oskusi omandada. Alustame.
Esialgsed tingimused
Sihtnäitajad
Meil on sihtväärtuste vahemik. Näiteks võib sihtindikaatoriks olla mis tahes vara hind: nafta, kuld, nisu, dollar jne. Samal ajal peame mitme sihtindikaatori väärtuse all silmas vaatluste arvu. Sellised vaatlused võiksid olla näiteks igakuised naftahinnad aasta kohta ehk meil on 12 sihtväärtust. Alustame tähistuse tutvustamist. Tähistame sihtindikaatori iga väärtust kui . Kokku on meil vaatlused, mis tähendab, et saame oma vaatlusi esitada kui .
Regressorid
Eeldame, et on tegureid, mis teatud määral selgitavad sihtindikaatori väärtusi. Näiteks dollari/rubla vahetuskurssi mõjutavad tugevalt nafta hind, Föderaalreservi kurss jne. Selliseid tegureid nimetatakse regressoriteks. Samas peab iga sihtnäitaja väärtus vastama regressori väärtusele, st kui meil on 12. aastal iga kuu kohta 2018 sihtnäitajat, siis sama perioodi kohta peaks meil olema ka 12 regressori väärtust. Tähistame iga regressori väärtused tähega . Olgu meie puhul nii regressorid (st. tegurid, mis mõjutavad sihtindikaatori väärtusi). See tähendab, et meie regressorid saab esitada järgmiselt: 1. regressori jaoks (näiteks nafta hind): , 2. regresori jaoks (näiteks Fed-määr): , jaoks "-th" regressor:
Sihtnäitajate sõltuvus regressoritest
Oletame, et sihtnäitaja sõltuvus regressoritelt"th" vaatlust saab väljendada järgmisel kujul oleva lineaarse regressioonivõrrandi kaudu:
Kus - "-th" regressori väärtus vahemikus 1 kuni ,
— regressorite arv 1 kuni
— nurkkoefitsiendid, mis näitavad summat, mille võrra arvutatud sihtnäitaja regressori muutumisel keskmiselt muutub.
Teisisõnu, me oleme kõigi jaoks (v.a ) määrame regressori koefitsiendi “meie”. , siis korrutage koefitsiendid regressorite väärtustega "th" vaatlus, mille tulemusena saame teatud ligikaudse"-th" sihtnäitaja.
Seetõttu peame valima sellised koefitsiendid , mille juures meie ligikaudse funktsiooni väärtused asub sihtindikaatori väärtustele võimalikult lähedal.
Lähendamisfunktsiooni kvaliteedi hindamine
Lähendava funktsiooni kvaliteedihinnangu määrame vähimruutude meetodil. Kvaliteedi hindamise funktsioon on sel juhul järgmine:
Peame valima sellised koefitsientide väärtused $w$, mille väärtus on saab olema väikseim.
Võrrandi teisendamine maatriksvormiks
Vektori kujutamine
Alustuseks peaksite oma elu lihtsamaks muutmiseks pöörama tähelepanu lineaarse regressiooni võrrandile ja märkama, et esimene koefitsient ei korruta ühegi regressoriga. Samal ajal muudab eelnimetatud asjaolu arvutuste tegemisel andmete maatriksvormingusse teisendamisel oluliselt keerulisemaks. Sellega seoses tehakse ettepanek võtta kasutusele teine regressor esimese koefitsiendi jaoks ja võrdsusta see ühega. Või õigemini, iga"võrdsusta selle regressori th väärtus ühega - ühega korrutades ei muutu ju arvutuste tulemuse seisukohalt midagi, aga maatriksite korrutise reeglite seisukohalt on meie piin väheneb oluliselt.
Nüüd oletame materjali lihtsustamiseks praegu, et meil on ainult üks "-th" tähelepanek. Seejärel kujutage ette regressorite väärtusi "-th" vaatlused vektorina . Vektor omab mõõdet See tähendab, et read ja 1 veerg:
Esitame vajalikud koefitsiendid vektorina , millel on mõõde :
Lineaarse regressiooni võrrand jaoks "-th" vaatlus toimub järgmisel kujul:
Lineaarse mudeli kvaliteedi hindamise funktsioon on järgmisel kujul:
Pange tähele, et maatriksi korrutamise reeglite kohaselt pidime vektori transponeerima .
Maatriksesitus
Vektorite korrutamise tulemusena saame arvu: , mida on oodata. See arv on ligikaudne "-th" sihtnäitaja. Kuid me ei vaja mitte ainult ühe sihtväärtuse, vaid kõigi nende väärtust. Selleks kirjutame kõik üles "-th" regressorid maatriksvormingus . Saadud maatriksil on mõõde :
Nüüd on lineaarse regressiooni võrrand järgmine:
Tähistame sihtnäitajate väärtused (kõik ) vektori kohta dimensioon :
Nüüd saame kirjutada võrrandi lineaarse mudeli kvaliteedi hindamiseks maatriksvormingus:
Tegelikult saame sellest valemist edasi meile teadaoleva valemi
Kuidas seda tehakse? Sulgud avatakse, diferentseerimine, saadud avaldised teisendatakse jne ning just seda me nüüd teemegi.
Maatriksiteisendused
Avame sulgud
Valmistame diferentseerimiseks ette võrrandi
Selleks viime läbi mõned muudatused. Järgnevates arvutustes on meile mugavam, kui vektor esitatakse võrrandis iga toote alguses.
Teisendus 1
Kuidas see juhtus? Sellele küsimusele vastamiseks vaadake lihtsalt korrutatavate maatriksite suurusi ja vaadake, et väljundis saame arvu või muu .
Paneme kirja maatriksavaldiste suurused.
Teisendus 2
Kirjutame selle sarnaselt teisendusega 1
Väljundis saame võrrandi, mida peame eristama:
Me eristame mudeli kvaliteedi hindamise funktsiooni
Diferentseerime vektori suhtes :
Küsimused miks ei tohiks olla, kuid uurime lähemalt kahes ülejäänud avaldises olevaid tuletiste määramise tehteid.
Eristamine 1
Laiendame diferentseerumist:
Maatriksi või vektori tuletise määramiseks peate vaatama, mis nende sees on. Vaatame:
Tähistame maatriksite korrutist maatriksi kaudu . Maatriks ruudukujuline ja pealegi sümmeetriline. Need omadused on meile hiljem kasulikud, jätame need meelde. Maatriks omab mõõdet :
Nüüd on meie ülesandeks vektorid õigesti korrutada maatriksiga ja mitte saada "kaks korda kaks on viis", seega keskendugem ja olgem äärmiselt ettevaatlikud.
Siiski oleme saavutanud keeruka väljenduse! Tegelikult saime numbri – skalaari. Ja nüüd siirdume edasi eristamise juurde. Iga koefitsiendi jaoks on vaja leida saadud avaldise tuletis ja saada väljundiks mõõtmevektor . Panen igaks juhuks protseduurid tegevuse kaupa kirja:
1) eristama , saame:
2) eristama , saame:
3) eristama , saame:
Väljund on lubatud suuruse vektor :
Kui vaatate vektorit lähemalt, märkate, et vektori vasakpoolsed ja vastavad parempoolsed elemendid saab rühmitada nii, et selle tulemusena saab vektori esitatud vektorist eraldada suurus . Näiteks (vektori ülemise rea vasak element) (vektori ülemise rea parempoolset elementi) saab esitada kui Ja - nagu jne. igal real. Rühmitame:
Võtame vektori välja ja väljundis saame:
Vaatame nüüd saadud maatriksit lähemalt. Maatriks on kahe maatriksi summa :
Tuletame meelde, et veidi varem märkisime maatriksi ühte olulist omadust - see on sümmeetriline. Selle omaduse põhjal võime kindlalt öelda, et väljend võrdub . Seda saab hõlpsasti kontrollida, laiendades maatriksite korrutist elemendi kaupa . Siin me seda ei tee, huvilised saavad seda ise kontrollida.
Tuleme tagasi oma väljenduse juurde. Pärast meie ümberkujundamisi selgus, nagu me seda näha tahtsime:
Niisiis, oleme lõpetanud esimese eristamise. Liigume edasi teise väljendi juurde.
Eristamine 2
Lähme läbimöödud teed. See on palju lühem kui eelmine, nii et ärge minge ekraanist liiga kaugele.
Laiendame vektoreid ja maatriksi elementide kaupa:
Võtame need kaks korraks arvutustest välja – see ei mängi suurt rolli, siis paneme oma kohale tagasi. Korrutame vektorid maatriksiga. Kõigepealt korrutame maatriksi vektorile , meil siin piiranguid pole. Saame suurusvektori :
Teeme järgmise toimingu – korrutame vektorit saadud vektorile. Väljapääsu juures ootab meid number:
Siis me eristame seda. Väljundis saame dimensioonivektori :
Meenutab mulle midagi? See on õige! See on maatriksi korrutis vektorile .
Seega on teine diferentseerimine edukalt lõpule viidud.
Selle asemel, et järeldus
Nüüd teame, kuidas võrdsus tekkis .
Lõpuks kirjeldame kiiret viisi põhivalemite teisendamiseks.
Hindame mudeli kvaliteeti vähimruutude meetodil:
Eristagem saadud avaldist:
Kirjandus
Interneti-allikad:
1)
2)
3)
4)
Õpikud, ülesannete kogud:
1) Kõrgema matemaatika loengukonspekt: kogu kursus / D.T. Kirjalik – 4. väljaanne. – M.: Iris-press, 2006
2) Rakenduslik regressioonanalüüs / N. Draper, G. Smith – 2. väljaanne. – M.: Rahandus ja statistika, 1986 (tõlge inglise keelest)
3) Ülesanded maatriksvõrrandite lahendamiseks:
Allikas: www.habr.com