Linear regression thiab txoj hauv kev rau nws rov qab los

Linear regression thiab txoj hauv kev rau nws rov qab los
Tau qhov twg los: xkcd ua

Linear regression yog ib qho ntawm cov txheej txheem yooj yim rau ntau qhov chaw cuam tshuam nrog kev txheeb xyuas cov ntaub ntawv. Yog vim li cas rau qhov no yog pom tseeb. Qhov no yog ib qho yooj yim heev thiab nkag siab algorithm, uas tau ua rau nws siv dav rau ntau kaum, yog tias tsis yog ntau pua, xyoo. Lub tswv yim yog tias peb xav tias ib qho kev vam meej ntawm ib qho kev sib txawv ntawm cov txheej txheem ntawm lwm qhov sib txawv, thiab tom qab ntawd sim ua kom rov muaj qhov kev vam khom no.

Tab sis tsab xov xwm no tsis yog hais txog kev siv linear regression los daws cov teeb meem tswv yim. Ntawm no peb yuav xav txog cov yam ntxwv nthuav dav ntawm kev siv cov algorithms faib rau nws txoj kev rov qab los, uas peb tau ntsib thaum sau lub tshuab kev kawm module hauv Apache Ignite. Ib qho yooj yim lej me me, kev kawm tshuab, thiab kev faib xam yuav pab koj txheeb xyuas seb yuav ua li cas thiaj li rov ua tau txoj kab rov tav txawm tias koj cov ntaub ntawv raug faib thoob plaws ntau txhiab tus nodes.

Peb tham txog dab tsi?

Peb tab tom ntsib nrog txoj haujlwm ntawm kev rov ua kom rov qab muaj kev vam meej. Raws li cov ntaub ntawv tawm tswv yim, ib txheej ntawm vectors ntawm supposedly ywj pheej variables yog muab, txhua tus uas yog txuam nrog ib tug tej yam nqi ntawm lub dependent variable. Cov ntaub ntawv no tuaj yeem sawv cev rau hauv daim ntawv ntawm ob lub matrices:

Linear regression thiab txoj hauv kev rau nws rov qab los

Tam sim no, txij li qhov kev vam meej yog xav, thiab, ntxiv rau, linear, peb yuav sau peb qhov kev xav hauv daim ntawv ntawm cov khoom ntawm matrices (kom yooj yim cov ntaub ntawv, ntawm no thiab hauv qab no nws yog assumed tias lub sij hawm dawb ntawm qhov sib npaug yog muab zais tom qab. Linear regression thiab txoj hauv kev rau nws rov qab los, thiab kab kawg ntawm lub matrix Linear regression thiab txoj hauv kev rau nws rov qab los muaj units):

Linear regression thiab txoj hauv kev rau nws rov qab los

Suab zoo li ib qho kev sib npaug ntawm cov kab sib npaug, puas yog? Nws zoo li, tab sis feem ntau yuav tsis muaj kev daws teeb meem rau cov kab ke sib npaug. Yog vim li cas rau qhov no yog suab nrov, uas yog tam sim no nyob rau hauv yuav luag txhua yam ntaub ntawv tiag tiag. Lwm qhov laj thawj tej zaum yuav yog qhov tsis muaj kev vam khom raws li qhov no, uas tuaj yeem cuam tshuam los ntawm kev nthuav qhia ntxiv cov hloov pauv uas tsis yog nyob ntawm qhov qub. Xav txog qhov piv txwv hauv qab no:
Linear regression thiab txoj hauv kev rau nws rov qab los
Tau qhov twg los: Wikipedia

Qhov no yog ib qho piv txwv yooj yim ntawm linear regression uas qhia txog kev sib raug zoo ntawm ib qho kev sib txawv (raws li axis Linear regression thiab txoj hauv kev rau nws rov qab los) los ntawm lwm qhov sib txawv (raws li axis Linear regression thiab txoj hauv kev rau nws rov qab los). Txhawm rau kom cov kab sib npaug ntawm cov kab sib npaug sib npaug rau qhov piv txwv no kom muaj kev daws teeb meem, tag nrho cov ntsiab lus yuav tsum dag raws nraim tib txoj kab ncaj nraim. Tab sis qhov ntawd tsis muaj tseeb. Tab sis lawv tsis dag ntawm tib txoj kab ncaj nraim vim lub suab nrov (los yog vim qhov kev xav ntawm txoj kev sib raug zoo yog erroneous). Yog li, txhawm rau txhawm rau txhim kho kev sib raug zoo ntawm cov ntaub ntawv tiag tiag, feem ntau nws yog qhov tsim nyog los qhia ib qho kev xav ntxiv: cov ntaub ntawv tawm tswv yim muaj suab nrov thiab cov suab nrov no muaj. ib txwm faib. Koj tuaj yeem ua qhov kev xav txog lwm hom kev faib tawm suab nrov, tab sis feem ntau ntawm cov xwm txheej nws yog qhov kev faib tawm ib txwm raug txiav txim siab, uas yuav tau tham ntxiv.

Txoj kev zoo tshaj plaws

Yog li, peb xav tias muaj qhov sib txawv ntawm cov suab nrov nrov. Yuav ua li cas rau qhov xwm txheej zoo li no? Rau cov ntaub ntawv no nyob rau hauv lej muaj thiab yog dav siv txoj kev zoo tshaj plaws. Nyob rau hauv luv luv, nws essence nyob rau hauv kev xaiv nyiam ua haujlwm thiab nws tom ntej maximization.

Peb rov qab mus rau kev rov ua kom muaj kev sib raug zoo ntawm cov ntaub ntawv nrog lub suab nrov. Nco ntsoov tias qhov kev sib raug zoo linear yog qhov kev cia siab ua lej Linear regression thiab txoj hauv kev rau nws rov qab los uas twb muaj lawm ib txwm faib. Nyob rau tib lub sijhawm, qhov tshwm sim uas Linear regression thiab txoj hauv kev rau nws rov qab los yuav siv sij hawm rau ib tug nqi los yog lwm yam, raug rau lub xub ntiag ntawm observables Linear regression thiab txoj hauv kev rau nws rov qab los, raws li nram no:

Linear regression thiab txoj hauv kev rau nws rov qab los

Cia peb tam sim no hloov pauv Linear regression thiab txoj hauv kev rau nws rov qab los ΠΈ Linear regression thiab txoj hauv kev rau nws rov qab los Cov variables peb xav tau yog:

Linear regression thiab txoj hauv kev rau nws rov qab los

Txhua yam uas tseem tshuav yog nrhiav cov vector Linear regression thiab txoj hauv kev rau nws rov qab los, ntawm qhov no yuav yog qhov siab tshaj plaws. Txhawm rau ua kom muaj txiaj ntsig zoo li no, nws yooj yim rau thawj zaug siv lub logarithm ntawm nws (lub logarithm ntawm txoj haujlwm yuav ncav cuag qhov siab tshaj plaws ntawm tib lub ntsiab lus raws li kev ua haujlwm nws tus kheej):

Linear regression thiab txoj hauv kev rau nws rov qab los

Uas, nyob rau hauv lem, los mus txo cov nram qab no muaj nuj nqi:

Linear regression thiab txoj hauv kev rau nws rov qab los

Los ntawm txoj kev, qhov no yog hu ua ib txoj kev tsawg squares. Feem ntau tag nrho cov kev xav saum toj no raug tshem tawm thiab txoj kev no tsuas yog siv.

QR decomposition

Qhov tsawg kawg nkaus ntawm cov haujlwm saum toj no tuaj yeem pom los ntawm kev nrhiav qhov point uas qhov gradient ntawm qhov kev ua haujlwm no yog xoom. Thiab gradient yuav sau raws li nram no:

Linear regression thiab txoj hauv kev rau nws rov qab los

QR decomposition yog ib txoj kev matrix los daws qhov teeb meem minimization siv nyob rau hauv txoj kev tsawg tshaj plaws squares. Hauv qhov no, peb rov sau qhov sib npaug hauv daim ntawv matrix:

Linear regression thiab txoj hauv kev rau nws rov qab los

Yog li peb decompose lub matrix Linear regression thiab txoj hauv kev rau nws rov qab los rau matrices Linear regression thiab txoj hauv kev rau nws rov qab los ΠΈ Linear regression thiab txoj hauv kev rau nws rov qab los thiab ua ntau yam kev hloov pauv (QR decomposition algorithm nws tus kheej yuav tsis raug txiav txim siab ntawm no, tsuas yog siv nws cuam tshuam nrog kev ua haujlwm ntawm tes):

Linear regression thiab txoj hauv kev rau nws rov qab los

Matrix Linear regression thiab txoj hauv kev rau nws rov qab los yog orthogonal. Qhov no tso cai rau peb tshem tawm txoj haujlwm Linear regression thiab txoj hauv kev rau nws rov qab los:

Linear regression thiab txoj hauv kev rau nws rov qab los

Thiab yog tias koj hloov Linear regression thiab txoj hauv kev rau nws rov qab los rau Linear regression thiab txoj hauv kev rau nws rov qab los, ces nws yuav ua hauj lwm tawm Linear regression thiab txoj hauv kev rau nws rov qab los. Xav txog qhov ntawd Linear regression thiab txoj hauv kev rau nws rov qab los yog lub sab sauv triangular matrix, nws zoo li no:

Linear regression thiab txoj hauv kev rau nws rov qab los

Qhov no tuaj yeem daws tau los ntawm kev hloov pauv. Element Linear regression thiab txoj hauv kev rau nws rov qab los yog nyob li Linear regression thiab txoj hauv kev rau nws rov qab los, yav dhau los element Linear regression thiab txoj hauv kev rau nws rov qab los yog nyob li Linear regression thiab txoj hauv kev rau nws rov qab los thiab thiaj li nyob.

Nws yog ib qho tsim nyog sau cia ntawm no tias qhov nyuaj ntawm qhov tshwm sim algorithm vim kev siv QR decomposition yog sib npaug. Linear regression thiab txoj hauv kev rau nws rov qab los. Ntxiv mus, txawm lub fact tias lub matrix multiplication lag luam yog zoo parallelized, nws tsis muaj peev xwm sau ib tug zoo faib version ntawm no algorithm.

Gradient qhovntsej thiaj tsis mob

Thaum tham txog kev txo qis ib qho kev ua haujlwm, nws yog ib qho tsim nyog yuav tsum nco ntsoov txog txoj kev (stochastic) gradient qhovntsej thiaj tsis mob. Qhov no yog ib qho yooj yim thiab ua tau zoo minimization txoj kev raws li rov qab xam cov gradient ntawm ib tug muaj nuj nqi ntawm ib tug taw tes thiab ces hloov nws nyob rau hauv cov kev taw qhia opposite rau gradient. Txhua kauj ruam no coj cov kev daws teeb meem los ze zog rau qhov tsawg kawg nkaus. Cov gradient tseem zoo li qub:

Linear regression thiab txoj hauv kev rau nws rov qab los

Cov qauv no kuj zoo sib xws thiab faib tawm vim cov khoom siv ntawm cov neeg ua haujlwm gradient. Nco ntsoov tias nyob rau hauv cov qauv saum toj no, nyob rau hauv lub sum kos npe muaj cov lus ywj siab. Hauv lwm lo lus, peb tuaj yeem suav cov gradient ntawm nws tus kheej rau txhua qhov ntsuas Linear regression thiab txoj hauv kev rau nws rov qab los txij thawj zaug mus Linear regression thiab txoj hauv kev rau nws rov qab los, nyob rau hauv parallel nrog qhov no, xam cov gradient rau indices nrog Linear regression thiab txoj hauv kev rau nws rov qab los rau Linear regression thiab txoj hauv kev rau nws rov qab los. Tom qab ntawd ntxiv cov txiaj ntsig gradients. Qhov tshwm sim ntawm qhov sib ntxiv yuav zoo ib yam li yog tias peb tam sim ntawd suav cov gradient rau indices los ntawm thawj mus rau Linear regression thiab txoj hauv kev rau nws rov qab los. Yog li, yog tias cov ntaub ntawv tau muab faib ua ntau daim ntawm cov ntaub ntawv, cov gradient tuaj yeem suav nws tus kheej ntawm txhua daim, thiab tom qab ntawd cov txiaj ntsig ntawm cov kev suav no tuaj yeem suav tau kom tau txais qhov txiaj ntsig kawg:

Linear regression thiab txoj hauv kev rau nws rov qab los

Los ntawm qhov kev xav ntawm kev siv, qhov no fits lub paradigm MapQhia. Nyob rau hauv txhua kauj ruam ntawm gradient qhovntsej thiaj tsis mob, ib txoj hauj lwm raug xa mus rau txhua cov ntaub ntawv node los xam cov gradient, tom qab ntawd cov gradients xam tau raug sau ua ke, thiab cov txiaj ntsig ntawm lawv cov lej yog siv los txhim kho cov txiaj ntsig.

Txawm hais tias qhov yooj yim ntawm kev siv thiab muaj peev xwm ua tiav hauv MapReduce paradigm, gradient qhovntsej thiaj tsis mob. Tshwj xeeb, tus naj npawb ntawm cov kauj ruam yuav tsum tau ua kom tiav kev sib koom ua ke yog qhov siab dua piv rau lwm txoj kev tshwj xeeb.

LSQR

LSQR yog lwm txoj hauv kev los daws qhov teeb meem, uas tsim nyog rau ob qho tib si rau kev kho cov kab rov tav kab rov tav thiab kev daws cov kab ke ntawm kab sib npaug. Nws lub ntsiab feature yog tias nws combines qhov zoo ntawm matrix txoj kev thiab ib tug rov mus kom ze. Kev siv cov qauv no tuaj yeem pom hauv ob lub tsev qiv ntawv Lub Neej SciPy, thiab nyob rau hauv MATLAB. Cov lus piav qhia ntawm txoj kev no yuav tsis muab rau ntawm no (nws tuaj yeem pom hauv kab lus LSQR: Ib qho algorithm rau sparse linear equations thiab sparse tsawg squares). Hloov chaw, ib txoj hauv kev yuav ua kom pom los hloov LSQR rau kev ua tiav hauv ib cheeb tsam sib faib.

Txoj kev LSQR yog raws li txheej txheem bidiagonalization. Qhov no yog ib qho txheej txheem rov ua dua, txhua qhov iteration suav nrog cov kauj ruam hauv qab no:
Linear regression thiab txoj hauv kev rau nws rov qab los

Tab sis yog tias peb xav tias lub matrix Linear regression thiab txoj hauv kev rau nws rov qab los yog kab rov tav partitioned, ces txhua iteration tuaj yeem sawv cev ua ob kauj ruam MapReduce. Nyob rau hauv txoj kev no, nws muaj peev xwm txo tau cov ntaub ntawv hloov tsheb thaum lub sij hawm txhua iteration (tsuas yog vectors nrog ib tug ntev sib npaug zos rau tus naj npawb ntawm tsis paub):

Linear regression thiab txoj hauv kev rau nws rov qab los

Nws yog txoj hauv kev no uas yog siv thaum siv linear regression hauv Apache Ignite ML.

xaus

Muaj ntau ntau txoj kab rov tav rov qab algorithms, tab sis tsis yog txhua tus ntawm lawv tuaj yeem siv tau hauv txhua qhov xwm txheej. Yog li QR decomposition zoo heev rau kev daws teeb meem ntawm cov ntaub ntawv me me. Gradient qhovntsej thiaj tsis mob yog qhov yooj yim rau kev siv thiab tso cai rau koj los nrhiav kev daws teeb meem sai. Thiab LSQR muab cov khoom zoo tshaj plaws ntawm ob lub algorithms dhau los, vim tias nws tuaj yeem faib tau, sib sau ua ke sai dua piv rau qhov gradient qhovntsej thiaj tsis mob, thiab tseem tso cai rau kev tso tseg ntxov ntawm cov algorithm, tsis zoo li QR decomposition, nrhiav kev daws teeb meem.

Tau qhov twg los: www.hab.com

Ntxiv ib saib