Rigressjoni lineari u metodi għall-irkupru tagħha

Rigressjoni lineari u metodi għall-irkupru tagħha
Sors: xkcd

Ir-rigressjoni lineari hija waħda mill-algoritmi bażiċi għal ħafna oqsma relatati mal-analiżi tad-dejta. Ir-raġuni għal dan hija ovvja. Dan huwa algoritmu sempliċi ħafna u li jinftiehem, li kkontribwixxa għall-użu mifrux tiegħu għal ħafna għexieren, jekk mhux mijiet, ta 'snin. L-idea hija li nassumu dipendenza lineari ta 'varjabbli waħda fuq sett ta' varjabbli oħra, u mbagħad nippruvaw nirrestawraw din id-dipendenza.

Iżda dan l-artikolu mhuwiex dwar l-użu ta 'rigressjoni lineari biex issolvi problemi prattiċi. Hawnhekk se nikkunsidraw karatteristiċi interessanti tal-implimentazzjoni ta 'algoritmi distribwiti għall-irkupru tagħha, li ltqajna magħhom meta niktbu modulu ta' tagħlim tal-magni fi Apache Ignite. Ftit matematika bażika, tagħlim bil-magni u kompjuters distribwiti jistgħu jgħinuk tifhem kif twettaq rigressjoni lineari anke meta d-dejta tiegħek titqassam fuq eluf ta’ nodi.

Fuq xiex qed nitkellmu?

Aħna qed iħabbtu wiċċna mal-kompitu li nirrestawraw id-dipendenza lineari. Bħala dejta tal-input, jingħata sett ta 'vettori ta' varjabbli allegatament indipendenti, li kull wieħed minnhom huwa assoċjat ma 'ċertu valur tal-varjabbli dipendenti. Din id-dejta tista’ tiġi rappreżentata fil-forma ta’ żewġ matriċi:

Rigressjoni lineari u metodi għall-irkupru tagħha

Issa, peress li d-dipendenza hija preżunta, u, barra minn hekk, lineari, aħna se niktbu l-assunzjoni tagħna fil-forma ta 'prodott ta' matriċi (biex tissimplifika r-reġistrazzjoni, hawn u taħt huwa preżunt li t-terminu ħieles tal-ekwazzjoni huwa moħbi wara Rigressjoni lineari u metodi għall-irkupru tagħha, u l-aħħar kolonna tal-matriċi Rigressjoni lineari u metodi għall-irkupru tagħha fih unitajiet):

Rigressjoni lineari u metodi għall-irkupru tagħha

Ħsejjes ħafna bħal sistema ta 'ekwazzjonijiet lineari, hux? Jidher, iżda x'aktarx mhux se jkun hemm soluzzjonijiet għal tali sistema ta 'ekwazzjonijiet. Ir-raġuni għal dan hija l-istorbju, li huwa preżenti fi kważi kull data reali. Raġuni oħra tista 'tkun in-nuqqas ta' dipendenza lineari bħala tali, li tista 'tiġi miġġielda billi jiġu introdotti varjabbli addizzjonali li jiddependu b'mod mhux lineari fuq dawk oriġinali. Ikkunsidra l-eżempju li ġej:
Rigressjoni lineari u metodi għall-irkupru tagħha
Sors: Wikipedija

Dan huwa eżempju sempliċi ta 'rigressjoni lineari li juri r-relazzjoni ta' varjabbli waħda (tul l-assi Rigressjoni lineari u metodi għall-irkupru tagħha) minn varjabbli ieħor (tul l-assi Rigressjoni lineari u metodi għall-irkupru tagħha). Sabiex is-sistema ta' ekwazzjonijiet lineari li tikkorrispondi għal dan l-eżempju jkollha soluzzjoni, il-punti kollha jridu jkunu eżattament fuq l-istess linja dritta. Imma dan mhux minnu. Iżda ma jimteddux fuq l-istess linja dritta preċiżament minħabba l-istorbju (jew minħabba li s-suppożizzjoni ta 'relazzjoni lineari kienet żbaljata). Għalhekk, sabiex tiġi restawrata relazzjoni lineari minn dejta reali, ġeneralment ikun meħtieġ li tiġi introdotta suppożizzjoni oħra: id-dejta tal-input fiha ħsejjes u dan il-ħoss għandu distribuzzjoni normali. Tista 'tagħmel suppożizzjonijiet dwar tipi oħra ta' distribuzzjoni tal-istorbju, iżda fil-maġġoranza l-kbira tal-każijiet hija d-distribuzzjoni normali li titqies, li se tiġi diskussa aktar.

Metodu ta' probabbiltà massima

Allura, asssumina l-preżenza ta 'ħoss imqassam b'mod każwali. X'għandek tagħmel f'sitwazzjoni bħal din? Għal dan il-każ fil-matematika hemm u tintuża ħafna metodu ta' probabbiltà massima. Fil-qosor, l-essenza tagħha tinsab fl-għażla funzjonijiet ta' probabbiltà u l-massimizzazzjoni sussegwenti tagħha.

Nirritornaw biex nirrestawraw relazzjoni lineari minn dejta b'istorbju normali. Innota li r-relazzjoni lineari preżunta hija l-aspettattiva matematika Rigressjoni lineari u metodi għall-irkupru tagħha distribuzzjoni normali eżistenti. Fl-istess ħin, il-probabbiltà li Rigressjoni lineari u metodi għall-irkupru tagħha jieħu valur jew ieħor, soġġett għall-preżenza ta’ osservabbli Rigressjoni lineari u metodi għall-irkupru tagħha, kif ġej:

Rigressjoni lineari u metodi għall-irkupru tagħha

Ejjew issa jissostitwixxu minflok Rigressjoni lineari u metodi għall-irkupru tagħha и Rigressjoni lineari u metodi għall-irkupru tagħha Il-varjabbli li għandna bżonn huma:

Rigressjoni lineari u metodi għall-irkupru tagħha

Li jibqa 'huwa li ssib il-vettur Rigressjoni lineari u metodi għall-irkupru tagħha, li fiha din il-probabbiltà hija massima. Biex timmassimizza funzjoni bħal din, huwa konvenjenti li l-ewwel tieħu logaritmu tagħha (il-logaritmu tal-funzjoni jilħaq massimu fl-istess punt bħall-funzjoni nnifisha):

Rigressjoni lineari u metodi għall-irkupru tagħha

Li, min-naħa tiegħu, nieżla biex timminimizza l-funzjoni li ġejja:

Rigressjoni lineari u metodi għall-irkupru tagħha

Mill-mod, dan jissejjaħ metodu l-inqas kwadri. Ħafna drabi l-kunsiderazzjonijiet kollha ta 'hawn fuq jitħallew barra u dan il-metodu jintuża sempliċement.

QR dekompożizzjoni

Il-minimu tal-funzjoni ta 'hawn fuq jista' jinstab billi jinstab il-punt li fih il-gradjent ta 'din il-funzjoni huwa żero. U l-gradjent se jinkiteb kif ġej:

Rigressjoni lineari u metodi għall-irkupru tagħha

QR dekompożizzjoni huwa metodu matriċi għas-soluzzjoni tal-problema ta 'minimizzazzjoni użata fil-metodu tal-inqas kwadri. F'dan ir-rigward, nerġgħu niktbu l-ekwazzjoni f'forma matriċi:

Rigressjoni lineari u metodi għall-irkupru tagħha

Allura aħna jiddekomponu l-matriċi Rigressjoni lineari u metodi għall-irkupru tagħha għal matriċi Rigressjoni lineari u metodi għall-irkupru tagħha и Rigressjoni lineari u metodi għall-irkupru tagħha u wettaq serje ta 'trasformazzjonijiet (l-algoritmu tad-dekompożizzjoni QR innifsu mhux se jiġi kkunsidrat hawnhekk, l-użu tiegħu biss fir-rigward tal-kompitu li jkun hemm):

Rigressjoni lineari u metodi għall-irkupru tagħha

matriċi Rigressjoni lineari u metodi għall-irkupru tagħha hija ortogonali. Dan jippermettilna neħilsu mix-xogħol Rigressjoni lineari u metodi għall-irkupru tagħha:

Rigressjoni lineari u metodi għall-irkupru tagħha

U jekk tissostitwixxi Rigressjoni lineari u metodi għall-irkupru tagħha fuq Rigressjoni lineari u metodi għall-irkupru tagħha, allura se taħdem Rigressjoni lineari u metodi għall-irkupru tagħha. Meta wieħed iqis li Rigressjoni lineari u metodi għall-irkupru tagħha hija matriċi trijangolari ta' fuq, tidher bħal din:

Rigressjoni lineari u metodi għall-irkupru tagħha

Dan jista 'jiġi solvut bl-użu tal-metodu ta' sostituzzjoni. Element Rigressjoni lineari u metodi għall-irkupru tagħha tinsab bħala Rigressjoni lineari u metodi għall-irkupru tagħha, element preċedenti Rigressjoni lineari u metodi għall-irkupru tagħha tinsab bħala Rigressjoni lineari u metodi għall-irkupru tagħha u l-bqija.

Ta’ min jinnota hawnhekk li l-kumplessità tal-algoritmu li jirriżulta minħabba l-użu tad-dekompożizzjoni QR hija ugwali għal Rigressjoni lineari u metodi għall-irkupru tagħha. Barra minn hekk, minkejja l-fatt li l-operazzjoni tal-multiplikazzjoni tal-matriċi hija parallelizzata sew, mhuwiex possibbli li tikteb verżjoni distribwita effettiva ta 'dan l-algoritmu.

Inżul gradjent

Meta titkellem dwar il-minimizzazzjoni ta 'funzjoni, dejjem ta' min jiftakar il-metodu ta 'inżul gradjent (stokastiku). Dan huwa metodu ta 'minimizzazzjoni sempliċi u effettiv ibbażat fuq il-kalkolu iterattiv tal-gradjent ta' funzjoni f'punt u mbagħad iċċaqlaqha fid-direzzjoni opposta għall-gradjent. Kull pass bħal dan iġib is-soluzzjoni eqreb lejn il-minimu. Il-gradjent għadu jidher l-istess:

Rigressjoni lineari u metodi għall-irkupru tagħha

Dan il-metodu huwa wkoll parallelizzat tajjeb u mqassam minħabba l-proprjetajiet lineari tal-operatur tal-gradjent. Innota li fil-formula ta 'hawn fuq, taħt is-sinjal tas-somma hemm termini indipendenti. Fi kliem ieħor, nistgħu nikkalkulaw il-gradjent indipendentement għall-indiċijiet kollha Rigressjoni lineari u metodi għall-irkupru tagħha mill-ewwel sa Rigressjoni lineari u metodi għall-irkupru tagħha, B'mod parallel ma' dan, ikkalkula l-gradjent għall-indiċi bil Rigressjoni lineari u metodi għall-irkupru tagħha li Rigressjoni lineari u metodi għall-irkupru tagħha. Imbagħad żid il-gradjenti li jirriżultaw. Ir-riżultat taż-żieda se jkun l-istess bħallikieku immedjatament ikkalkula l-gradjent għall-indiċi mill-ewwel sa Rigressjoni lineari u metodi għall-irkupru tagħha. Għalhekk, jekk id-dejta titqassam fost diversi biċċiet ta 'dejta, il-gradjent jista' jiġi kkalkulat b'mod indipendenti fuq kull biċċa, u mbagħad ir-riżultati ta 'dawn il-kalkoli jistgħu jinġabru biex jinkiseb ir-riżultat finali:

Rigressjoni lineari u metodi għall-irkupru tagħha

Mil-lat ta' implimentazzjoni, dan jaqbel mal-paradigma MapReduce. F'kull pass ta 'dixxendenza tal-gradjent, tintbagħat kompitu lil kull nodu tad-dejta biex tikkalkula l-gradjent, imbagħad il-gradjenti kkalkulati jinġabru flimkien, u r-riżultat tas-somma tagħhom jintuża biex itejjeb ir-riżultat.

Minkejja l-faċilità ta 'implimentazzjoni u l-abbiltà li tesegwixxi fil-paradigma MapReduce, inżul gradjent għandu wkoll l-iżvantaġġi tagħha. B'mod partikolari, in-numru ta' passi meħtieġa biex tinkiseb il-konverġenza huwa ogħla b'mod sinifikanti meta mqabbel ma' metodi oħra aktar speċjalizzati.

LSQR

LSQR huwa metodu ieħor biex issolvi l-problema, li huwa adattat kemm għar-restawr tar-rigressjoni lineari kif ukoll għas-soluzzjoni ta 'sistemi ta' ekwazzjonijiet lineari. Il-karatteristika ewlenija tagħha hija li tgħaqqad il-vantaġġi tal-metodi matriċi u approċċ iterattiv. Implimentazzjonijiet ta 'dan il-metodu jistgħu jinstabu fiż-żewġ libreriji SciPy, u fi MATLAB. Deskrizzjoni ta 'dan il-metodu mhux se tingħata hawn (tista' ssibha fl-artiklu LSQR: Algoritmu għal ekwazzjonijiet lineari skarsi u l-inqas kwadri skarsi). Minflok, se jintwera approċċ biex l-LSQR jiġi adattat għall-eżekuzzjoni f'ambjent distribwit.

Il-metodu LSQR huwa bbażat fuq proċedura ta’ bidjagonalizzazzjoni. Din hija proċedura iterattiva, kull iterazzjoni tikkonsisti mill-passi li ġejjin:
Rigressjoni lineari u metodi għall-irkupru tagħha

Imma jekk nassumu li l-matriċi Rigressjoni lineari u metodi għall-irkupru tagħha hija maqsuma orizzontalment, allura kull iterazzjoni tista 'tiġi rappreżentata bħala żewġ passi MapReduce. B'dan il-mod, huwa possibbli li jiġu minimizzati t-trasferimenti tad-dejta matul kull iterazzjoni (vettori biss b'tul ugwali għan-numru ta 'mhux magħrufa):

Rigressjoni lineari u metodi għall-irkupru tagħha

Huwa dan l-approċċ li jintuża meta tiġi implimentata rigressjoni lineari fi Apache Ignite ML.

Konklużjoni

Hemm ħafna algoritmi ta 'rkupru ta' rigressjoni lineari, iżda mhux kollha jistgħu jiġu applikati fil-kundizzjonijiet kollha. Allura d-dekompożizzjoni QR hija eċċellenti għal soluzzjoni preċiża fuq settijiet ta 'dejta żgħar. L-inżul tal-gradjent huwa sempliċi biex jiġi implimentat u jippermettilek li ssib malajr soluzzjoni approssimattiva. U LSQR jgħaqqad l-aħjar proprjetajiet taż-żewġ algoritmi ta 'qabel, peress li jista' jiġi distribwit, jikkonverġi aktar malajr meta mqabbel mal-inżul tal-gradjent, u jippermetti wkoll il-waqfien bikri tal-algoritmu, b'differenza mid-dekompożizzjoni QR, biex tinstab soluzzjoni approssimattiva.

Sors: www.habr.com

Żid kumment