Die doel van die artikel is om ondersteuning aan beginnende datawetenskaplikes te bied. IN
Waarom dit sin maak om ekstra aandag aan die formule te gee ?
Dit is met die matriksvergelyking dat 'n mens in die meeste gevalle met lineêre regressie begin kennis maak. Terselfdertyd is gedetailleerde berekeninge van hoe die formule afgelei is skaars.
Byvoorbeeld, in masjienleerkursusse van Yandex, wanneer studente aan regularisering bekendgestel word, word hulle aangebied om funksies van die biblioteek te gebruik leer, terwyl daar nie 'n woord oor die matriksvoorstelling van die algoritme genoem word nie. Dit is op hierdie oomblik dat sommige luisteraars dalk hierdie kwessie in meer besonderhede wil verstaan - skryf kode sonder om gereedgemaakte funksies te gebruik. En om dit te doen, moet jy eers die vergelyking met 'n reguleerder in matriksvorm aanbied. Hierdie artikel sal diegene toelaat wat sulke vaardighede wil bemeester. Laat ons begin.
Aanvanklike toestande
Teiken aanwysers
Ons het 'n reeks teikenwaardes. Die teikenaanwyser kan byvoorbeeld die prys van enige bate wees: olie, goud, koring, dollar, ens. Terselfdertyd, met 'n aantal teikenaanwyserwaardes bedoel ons die aantal waarnemings. Sulke waarnemings kan byvoorbeeld maandelikse oliepryse vir die jaar wees, dit wil sê, ons sal 12 teikenwaardes hê. Kom ons begin die notasie bekendstel. Kom ons dui elke waarde van die teiken aanwyser as . In totaal het ons waarnemings, wat beteken dat ons ons waarnemings as kan voorstel .
Regressors
Ons sal aanneem dat daar faktore is wat tot 'n sekere mate die waardes van die teikenaanwyser verduidelik. Byvoorbeeld, die dollar/roebel-wisselkoers word sterk beïnvloed deur die prys van olie, die Federale Reserwe-koers, ens. Sulke faktore word regressors genoem. Terselfdertyd moet elke teikenaanwyserwaarde ooreenstem met 'n regressorwaarde, dit wil sê, as ons 12 teikenaanwysers vir elke maand in 2018 het, moet ons ook 12 regressorwaardes vir dieselfde tydperk hê. Laat ons die waardes van elke regressor aandui deur . Laat in ons geval daar wees regressors (bv. faktore wat die teikenaanwyserwaardes beïnvloed). Dit beteken ons regressors kan soos volg aangebied word: vir die 1ste regressor (byvoorbeeld die prys van olie): , vir die 2de regressor (byvoorbeeld die Fed-koers): , Vir "-de" regressor:
Afhanklikheid van teikenaanwysers op regressors
Kom ons neem aan dat die afhanklikheid van die teiken aanwyser van regressors"Die waarneming kan uitgedruk word deur 'n lineêre regressievergelyking van die vorm:
Waar - "-ste" regressorwaarde van 1 tot ,
— aantal regressors van 1 tot
— hoekkoëffisiënte, wat die hoeveelheid verteenwoordig waarmee die berekende teikenaanwyser gemiddeld sal verander wanneer die regressor verander.
Met ander woorde, ons is vir almal (behalwe ) van die regressor bepaal ons "ons" koëffisiënt , vermenigvuldig dan die koëffisiënte met die waardes van die regressors "die" waarneming, as gevolg daarvan kry ons 'n sekere benadering "-de" teiken aanwyser.
Daarom moet ons sulke koëffisiënte kies , waarteen die waardes van ons benaderende funksie sal so na as moontlik aan die teikenaanwyserwaardes geleë wees.
Evaluering van die kwaliteit van die benaderende funksie
Ons sal die kwaliteitbeoordeling van die benaderingsfunksie bepaal deur die kleinste kwadrate-metode te gebruik. Die kwaliteit assesseringsfunksie sal in hierdie geval die volgende vorm aanneem:
Ons moet sulke waardes van die koëffisiënte $w$ kies waarvoor die waarde sal die kleinste wees.
Omskakeling van die vergelyking in matriksvorm
Vektorvoorstelling
Om mee te begin, om jou lewe makliker te maak, moet jy aandag gee aan die lineêre regressievergelyking en let op dat die eerste koëffisiënt word nie met enige regressor vermenigvuldig nie. Terselfdertyd, wanneer ons die data in matriksvorm omskakel, sal die bogenoemde omstandigheid die berekeninge ernstig bemoeilik. In hierdie verband word voorgestel om nog 'n regressor vir die eerste koëffisiënt in te stel en stel dit gelyk aan een. Of liewer, elke "stel die de waarde van hierdie regressor gelyk aan een - as dit met een vermenigvuldig word, sal niks verander vanuit die oogpunt van die resultaat van die berekeninge nie, maar vanuit die oogpunt van die reëls vir die produk van matrikse, ons kwelling aansienlik verminder sal word.
Nou, vir die oomblik, om die materiaal te vereenvoudig, kom ons neem aan dat ons net een het "-de" waarneming. Stel jou dan die waardes van die regressors voor "-th" waarnemings as 'n vektor . Vektor dimensie het Dit is, rye en 1 kolom:
Kom ons stel die vereiste koëffisiënte as 'n vektor voor , met dimensie :
Lineêre regressievergelyking vir "-th" waarneming sal die vorm aanneem:
Die funksie om die kwaliteit van 'n lineêre model te assesseer sal die vorm aanneem:
Neem asseblief kennis dat in ooreenstemming met die reëls van matriksvermenigvuldiging, ons die vektor moes transponeer .
Matriksvoorstelling
As gevolg van die vermenigvuldiging van vektore kry ons die getal: , wat te wagte is. Hierdie getal is die benadering "-de" teiken aanwyser. Maar ons het 'n benadering nodig van nie net een teikenwaarde nie, maar almal van hulle. Om dit te doen, kom ons skryf alles neer "-th" regressors in matriksformaat . Die resulterende matriks het die dimensie :
Nou sal die lineêre regressievergelyking die vorm aanneem:
Kom ons dui die waardes van teikenaanwysers aan (almal ) per vektor dimensie :
Nou kan ons die vergelyking vir die assessering van die kwaliteit van 'n lineêre model in matriksformaat skryf:
Eintlik, uit hierdie formule verkry ons verder die formule wat aan ons bekend is
Hoe word dit gedoen? Die hakies word oopgemaak, differensiasie word uitgevoer, die resulterende uitdrukkings word getransformeer, ens., en dit is presies wat ons nou sal doen.
Matriks transformasies
Kom ons maak die hakies oop
Kom ons berei 'n vergelyking vir differensiasie voor
Om dit te doen, sal ons 'n paar transformasies uitvoer. In daaropvolgende berekeninge sal dit vir ons geriefliker wees as die vektor sal aan die begin van elke produk in die vergelyking voorgestel word.
Omskakeling 1
Hoe het dit gebeur? Om hierdie vraag te beantwoord, kyk net na die groottes van die matrikse wat vermenigvuldig word en sien dat ons by die uitset 'n getal kry of andersins .
Kom ons skryf die groottes van matriksuitdrukkings neer.
Omskakeling 2
Kom ons skryf dit op dieselfde manier as transformasie 1
By die uitset kry ons 'n vergelyking wat ons moet onderskei:
Ons onderskei die model kwaliteit assesseringsfunksie
Kom ons onderskei met betrekking tot die vektor :
Vrae hoekom daar behoort nie te wees nie, maar ons sal die bewerkings vir die bepaling van afgeleides in die ander twee uitdrukkings in meer besonderhede ondersoek.
Differensiasie 1
Kom ons brei uit oor die differensiasie:
Om die afgeleide van 'n matriks of vektor te bepaal, moet jy kyk wat binne hulle is. Kom ons kyk:
Kom ons dui die produk van matrikse aan deur die matriks . Matriks vierkantig en bowendien is dit simmetries. Hierdie eienskappe sal later vir ons nuttig wees, laat ons dit onthou. Matriks dimensie het :
Nou is ons taak om die vektore korrek met die matriks te vermenigvuldig en nie "twee keer twee is vyf" te kry nie, so kom ons konsentreer en wees uiters versigtig.
Ons het egter 'n ingewikkelde uitdrukking bereik! Trouens, ons het 'n nommer gekry - 'n skalaar. En nou, in werklikheid, gaan ons oor na differensiasie. Dit is nodig om die afgeleide van die resulterende uitdrukking vir elke koëffisiënt te vind en kry die dimensievektor as uitset . Net vir ingeval, sal ek die prosedures deur aksie neerskryf:
1) onderskei deur , ons kry:
2) onderskei deur , ons kry:
3) onderskei deur , ons kry:
Die uitset is die beloofde vektor van grootte :
As jy die vektor van nader bekyk, sal jy opmerk dat die linker- en ooreenstemmende regter-elemente van die vektor so gegroepeer kan word dat, as gevolg daarvan, 'n vektor van die voorgestelde vektor geïsoleer kan word grootte . Byvoorbeeld, (linker element van die boonste lyn van die vektor) (die regte element van die boonste lyn van die vektor) voorgestel kan word as En - as ens. op elke lyn. Kom ons groepeer:
Kom ons haal die vektor uit en by die uitset kry ons:
Kom ons kyk nou van naderby na die resulterende matriks. Die matriks is die som van twee matrikse :
Laat ons onthou dat ons 'n bietjie vroeër een belangrike eienskap van die matriks opgemerk het - dit is simmetries. Gebaseer op hierdie eiendom, kan ons met vertroue sê dat die uitdrukking gelyk . Dit kan maklik geverifieer word deur die produk van matrikse element vir element uit te brei . Ons sal dit nie hier doen nie; belangstellendes kan dit self nagaan.
Kom ons keer terug na ons uitdrukking. Na ons transformasies het dit geblyk soos ons dit wou sien:
So, ons het die eerste differensiasie voltooi. Kom ons gaan na die tweede uitdrukking.
Differensiasie 2
Kom ons volg die gebaande paadjie. Dit sal baie korter as die vorige een wees, so moenie te ver van die skerm af gaan nie.
Kom ons brei die vektore en matriks element vir element uit:
Kom ons haal die twee vir 'n rukkie uit die berekeninge - dit speel nie 'n groot rol nie, dan sit ons dit terug op sy plek. Kom ons vermenigvuldig die vektore met die matriks. Eerstens, kom ons vermenigvuldig die matriks na vektor , ons het geen beperkings hier nie. Ons kry die groottevektor :
Kom ons voer die volgende aksie uit – vermenigvuldig die vektor na die resulterende vektor. By die uitgang sal die nommer vir ons wag:
Dan sal ons dit onderskei. By die uitset kry ons 'n vektor van dimensie :
Herinner my aan iets? Dit is reg! Dit is die produk van die matriks na vektor .
Die tweede differensiasie is dus suksesvol voltooi.
In plaas daarvan om 'n gevolgtrekking
Nou weet ons hoe die gelykheid ontstaan het .
Ten slotte sal ons 'n vinnige manier beskryf om basiese formules te transformeer.
Kom ons evalueer die kwaliteit van die model in ooreenstemming met die kleinste vierkante metode:
Kom ons onderskei die gevolglike uitdrukking:
Letterkunde
Internet bronne:
1)
2)
3)
4)
Handboeke, versamelings van probleme:
1) Lesingnotas oor hoër wiskunde: volle kursus / D.T. Geskryf – 4de uitg. – M.: Iris-press, 2006
2) Toegepaste regressie-analise / N. Draper, G. Smith - 2de uitg. – M.: Finansies en Statistiek, 1986 (vertaling uit Engels)
3) Probleme om matriksvergelykings op te los:
Bron: will.com