It doel fan it artikel is om stipe te jaan oan begjinnende gegevenswittenskippers. YN
Wêrom hat it sin om ekstra omtinken te jaan oan de formule ?
It is mei de matrixfergeliking dat men yn 'e measte gefallen yn 'e kunde komt mei lineêre regression. Tagelyk binne detaillearre berekkeningen fan hoe't de formule ôflaat is seldsum.
Bygelyks, yn kursussen foar masine learen fan Yandex, as studinten wurde yntrodusearre foar regularisaasje, wurde se oanbean om funksjes fan 'e bibleteek te brûken skele, wylst gjin wurd neamd wurdt oer de matrixfoarstelling fan it algoritme. It is op dit stuit dat guon harkers dit probleem yn mear detail wolle begripe - skriuw koade sûnder gebrûk fan klearebare funksjes. En om dit te dwaan, moatte jo earst de fergeliking presintearje mei in regularizer yn matrixfoarm. Dit artikel sil tastean dyjingen dy't wolle behearskje sokke feardichheden. Litte wy begjinne.
Inisjele betingsten
Target yndikatoaren
Wy hawwe in berik fan doelwearden. Bygelyks, de doelindikator kin de priis wêze fan elke asset: oalje, goud, weet, dollar, ensfh. Tagelyk bedoele wy mei in oantal doelindikatorwearden it oantal observaasjes. Sokke observaasjes kinne bygelyks moanlikse oaljeprizen foar it jier wêze, dat is, wy sille 12 doelwearden hawwe. Litte wy begjinne mei de yntroduksje fan de notaasje. Lit ús oantsjutte elke wearde fan de doelwyt indicator as . Yn totaal hawwe wy observaasjes, wat betsjut dat wy kinne fertsjintwurdigje ús waarnimmings as .
Regressors
Wy sille oannimme dat d'r faktoaren binne dy't de wearden fan 'e doelyndikator yn in bepaalde mate ferklearje. Bygelyks, de dollar / roebel wikselkoers is sterk beynfloede troch de priis fan oalje, de Federal Reserve taryf, ensfh Sokke faktoaren wurde neamd regressors. Tagelyk moat elke doelyndikatorwearde oerienkomme mei in regressorwearde, dat is, as wy 12 doelyndikatoaren hawwe foar elke moanne yn 2018, dan moatte wy ek 12 regressorwearden hawwe foar deselde perioade. Lit ús de wearden fan elke regressor oantsjutte troch . Lit yn ús gefal der wêze regressors (d.w.s. faktoaren dy't de wearden fan 'e doelyndikator beynfloedzje). Dit betsjut dat ús regressors as folgjend kinne wurde presintearre: foar de 1e regressor (bygelyks de priis fan oalje): , foar de 2e regressor (bygelyks de Fed-taryf): , foar"-th" regressor:
Ofhinklikens fan doelyndikatoaren op regressors
Lit ús oannimme dat de ôfhinklikheid fan it doel indicator fan regressors"th" observaasje kin útdrukt wurde troch in lineêre regression-fergeliking fan 'e foarm:
wêr - "-th" regressorwearde fan 1 oant ,
- oantal regressors fan 1 oant
- hoekkoëffisjinten, dy't it bedrach fertsjintwurdigje wêrmei't de berekkene doelyndikator gemiddeld sil feroarje as de regressor feroaret.
Mei oare wurden, wy binne foar elkenien (útsein ) fan 'e regressor bepale wy "ús" koeffizient , fermannichfâldigje dan de koeffizienten mei de wearden fan 'e regressors "th" observaasje, as gefolch krije wy in bepaalde approximaasje "-th" doel yndikator.
Dêrom moatte wy sokke koeffizienten selektearje , wêrby't de wearden fan ús approximating funksje sil sa ticht mooglik by de wearden fan 'e doelyndikator lizze.
Beoardielje de kwaliteit fan 'e approximating funksje
Wy sille bepale de kwaliteit beoardieling fan de approximating funksje mei help fan de minste kwadraten metoade. De funksje foar kwaliteitsbeoardieling sil yn dit gefal de folgjende foarm hawwe:
Wy moatte sokke wearden selektearje fan 'e koeffizienten $w$ wêrfoar de wearde sil de lytste wêze.
It konvertearjen fan de fergeliking yn matrixfoarm
Vector fertsjintwurdiging
Om te begjinnen, om jo libben makliker te meitsjen, moatte jo omtinken jaan oan 'e lineêre regressionfergeliking en opmerke dat de earste koeffizient wurdt net fermannichfâldige mei in regressor. Tagelyk, as wy de gegevens yn matrixfoarm omsette, sil de boppeneamde omstannichheid de berekkeningen serieus komplisearje. Yn dit ferbân wurdt foarsteld om in oare regressor yn te fieren foar de earste koeffizient en lykje it oan ien. Of leaver, elke "de th wearde fan dizze regressor lykje oan ien - ommers, as fermannichfâldige mei ien, sil neat feroarje út it eachpunt fan it resultaat fan 'e berekkeningen, mar út it eachpunt fan' e regels foar it produkt fan matrices, ús pine sil gâns fermindere wurde.
No, foar it momint, om it materiaal te ferienfâldigjen, lit ús oannimme dat wy mar ien hawwe "-th" observaasje. Stel dan de wearden fan 'e regressors foar "-th" observaasjes as in vector . Vector hat diminsje , dat is rigen en 1 kolom:
Litte wy de fereaske koeffizienten as fektor fertsjintwurdigje , hawwende diminsje :
Lineêre regressionfergeliking foar "-th" observaasje sil de foarm oannimme:
De funksje foar it beoardieljen fan de kwaliteit fan in lineêr model sil de foarm hawwe:
Tink derom dat yn oerienstimming mei de regels fan matrixfermannichfâldiging, wy de fektor moatte transponearje .
Matrix foarstelling
As gefolch fan fermannichfâldigjen fan vectoren krije wy it getal: , wat te ferwachtsjen is. Dit nûmer is de approximaasje "-th" doel yndikator. Mar wy moatte in approximation fan net allinne ien doel wearde, mar allegearre. Om dit te dwaan, litte wy alles opskriuwe ""th" regressors yn matrixformaat . De resultearjende matrix hat de dimensje :
No sil de lineêre regressionfergeliking de foarm oannimme:
Lit ús de wearden fan doelyndikatoaren oantsjutte (alle ) per vector diminsje :
No kinne wy de fergeliking skriuwe foar it beoardieljen fan de kwaliteit fan in lineêr model yn matrixformaat:
Eins krije wy fan dizze formule fierder de oan ús bekende formule
Hoe is it dien? De heakjes wurde iepene, differinsjaasje wurdt útfierd, de resultearjende útdrukkingen wurde omfoarme, ensfh., En dit is krekt wat wy no sille dwaan.
Matrix transformaasjes
Litte wy de heakjes iepenje
Litte wy in fergeliking tariede foar differinsjaasje
Om dit te dwaan, sille wy wat transformaasjes útfiere. Yn folgjende berekkeningen sil it handiger foar ús wêze as de vector sil wurde fertsjintwurdige oan it begjin fan elk produkt yn 'e fergeliking.
Konverzje 1
Hoe is it bard? Om dizze fraach te beantwurdzjen, sjoch gewoan nei de grutte fan 'e matriks dy't wurde fermannichfâldige en sjoch dat wy by de útfier in nûmer krije of oars .
Litte wy de grutte fan matrix-útdrukkingen opskriuwe.
Konverzje 2
Litte wy it op in fergelykbere manier skriuwe as transformaasje 1
By de útfier krije wy in fergeliking dy't wy moatte ûnderskiede:
Wy ûnderskiede de modelkwaliteitsbeoardielingsfunksje
Lit ús ûnderskiede mei respekt foar de fektor :
Fragen wêrom der moat net wêze, mar wy sille ûndersykje de operaasjes foar it bepalen fan derivaten yn de oare twa útdrukkingen yn mear detail.
Differinsjaasje 1
Litte wy útwreidzje oer de differinsjaasje:
Om de derivative fan in matrix of fektor te bepalen, moatte jo sjen nei wat der yn sit. Litte wy sjen:
Lit ús it produkt fan matriks oantsjutte troch de matrix . Matrix fjouwerkant en boppedat is it symmetrysk. Dizze eigenskippen sille letter nuttich wêze foar ús, litte wy se ûnthâlde. Matrix hat diminsje :
No is ús taak om de fektors korrekt te fermannichfâldigjen mei de matrix en net "twa kear twa is fiif", dus litte wy konsintrearje en ekstreem foarsichtich wêze.
Wy hawwe lykwols in yngewikkelde útdrukking berikt! Eins krigen wy in nûmer - in skalaar. En no geane wy wirklik troch nei differinsjaasje. It is needsaaklik om de derivative fan 'e resultearjende útdrukking foar elke koeffizient te finen en krije de diminsje vector as útfier . Foar it gefal sil ik de prosedueres troch aksje opskriuwe:
1) ûnderskiede troch , Wy krije:
2) ûnderskiede troch , Wy krije:
3) ûnderskiede troch , Wy krije:
De útfier is de taseine vector fan grutte :
As jo de fektor tichterby besjogge, sille jo fernimme dat de lofter- en korrespondearjende rjochter-eleminten fan 'e fektor kinne wurde groepearre op sa'n manier dat, as gefolch, in fektor kin wurde isolearre fan 'e presintearre fektor de grutte . Bygelyks (linker elemint fan 'e boppeste line fan' e fektor) (it rjochte elemint fan 'e boppeste line fan' e vector) kin wurde fertsjintwurdige as en - as ensfh. op elke line. Lit ús groepearje:
Lit ús nimme út de vector en by de útfier krije wy:
Litte wy no in tichterby sjen nei de resultearjende matrix. De matrix is de som fan twa matriksen :
Lit ús ûnthâlde dat in bytsje earder wy opmurken ien wichtige eigenskip fan de matrix - it is symmetrysk. Op grûn fan dit pân kinne wy mei fertrouwen sizze dat de útdrukking lykweardich . Dit kin maklik ferifiearre wurde troch it útwreidzjen fan it produkt fan matriks elemint foar elemint . Dat dogge wy hjir net, belangstellenden kinne it sels kontrolearje.
Lit ús weromgean nei ús útdrukking. Nei ús transformaasjes waard it sa't wy it sjen woene:
Dat, wy hawwe de earste differinsjaasje foltôge. Litte wy nei de twadde útdrukking gean.
Differinsjaasje 2
Litte wy it slein paad folgje. It sil folle koarter wêze as de foarige, dus gean net te fier fan it skerm ôf.
Litte wy de fektors en matrix elemint útwreidzje foar elemint:
Lit dy twa noch efkes út de berekkeningen helje - it spilet gjin grutte rol, dan sette wy it wer op syn plak. Litte wy de fektors fermannichfâldigje mei de matrix. Lit ús earst de matrix fermannichfâldigje oan vector , wy hawwe hjir gjin beheiningen. Wy krije de grutte vector :
Litte wy de folgjende aksje útfiere - fermannichfâldigje de vector nei de resultearjende vector. By de útgong sil it nûmer op ús wachtsje:
Dan sille wy it ûnderskiede. By de útfier krije wy in fektor fan dimensje :
Tinkt my oan wat? Dat kloppet! Dit is it produkt fan 'e matrix oan vector .
Sa is de twadde differinsjaasje mei súkses foltôge.
Yn stee fan in konklúzje
No witte wy hoe't de gelikensens ûntstien is .
As lêste sille wy in rappe manier beskriuwe om basisformules te transformearjen.
Litte wy de kwaliteit fan it model evaluearje yn oerienstimming mei de metoade fan de minste kwadraten:
Lit ús de resultearjende útdrukking ûnderskiede:
Literatuer
Ynternet boarnen:
1)
2)
3)
4)
Learboeken, kolleksjes fan problemen:
1) Lêzingsnotysjes oer hegere wiskunde: folsleine kursus / D.T. Skreaun - 4e ed. – M.: Iris-press, 2006
2) Applied regression analyze / N. Draper, G. Smith - 2e edysje. – M.: Finânsjes en Statistyk, 1986 (oersetting út it Ingelsk)
3) Problemen foar it oplossen fan matrixfergelikingen:
Boarne: www.habr.com