Sors:
Ir-rigressjoni lineari hija waħda mill-algoritmi bażiċi għal ħafna oqsma relatati mal-analiżi tad-dejta. Ir-raġuni għal dan hija ovvja. Dan huwa algoritmu sempliċi ħafna u li jinftiehem, li kkontribwixxa għall-użu mifrux tiegħu għal ħafna għexieren, jekk mhux mijiet, ta 'snin. L-idea hija li nassumu dipendenza lineari ta 'varjabbli waħda fuq sett ta' varjabbli oħra, u mbagħad nippruvaw nirrestawraw din id-dipendenza.
Iżda dan l-artikolu mhuwiex dwar l-użu ta 'rigressjoni lineari biex issolvi problemi prattiċi. Hawnhekk se nikkunsidraw karatteristiċi interessanti tal-implimentazzjoni ta 'algoritmi distribwiti għall-irkupru tagħha, li ltqajna magħhom meta niktbu modulu ta' tagħlim tal-magni fi
Fuq xiex qed nitkellmu?
Aħna qed iħabbtu wiċċna mal-kompitu li nirrestawraw id-dipendenza lineari. Bħala dejta tal-input, jingħata sett ta 'vettori ta' varjabbli allegatament indipendenti, li kull wieħed minnhom huwa assoċjat ma 'ċertu valur tal-varjabbli dipendenti. Din id-dejta tista’ tiġi rappreżentata fil-forma ta’ żewġ matriċi:
Issa, peress li d-dipendenza hija preżunta, u, barra minn hekk, lineari, aħna se niktbu l-assunzjoni tagħna fil-forma ta 'prodott ta' matriċi (biex tissimplifika r-reġistrazzjoni, hawn u taħt huwa preżunt li t-terminu ħieles tal-ekwazzjoni huwa moħbi wara , u l-aħħar kolonna tal-matriċi fih unitajiet):
Ħsejjes ħafna bħal sistema ta 'ekwazzjonijiet lineari, hux? Jidher, iżda x'aktarx mhux se jkun hemm soluzzjonijiet għal tali sistema ta 'ekwazzjonijiet. Ir-raġuni għal dan hija l-istorbju, li huwa preżenti fi kważi kull data reali. Raġuni oħra tista 'tkun in-nuqqas ta' dipendenza lineari bħala tali, li tista 'tiġi miġġielda billi jiġu introdotti varjabbli addizzjonali li jiddependu b'mod mhux lineari fuq dawk oriġinali. Ikkunsidra l-eżempju li ġej:
Sors:
Dan huwa eżempju sempliċi ta 'rigressjoni lineari li juri r-relazzjoni ta' varjabbli waħda (tul l-assi ) minn varjabbli ieħor (tul l-assi ). Sabiex is-sistema ta' ekwazzjonijiet lineari li tikkorrispondi għal dan l-eżempju jkollha soluzzjoni, il-punti kollha jridu jkunu eżattament fuq l-istess linja dritta. Imma dan mhux minnu. Iżda ma jimteddux fuq l-istess linja dritta preċiżament minħabba l-istorbju (jew minħabba li s-suppożizzjoni ta 'relazzjoni lineari kienet żbaljata). Għalhekk, sabiex tiġi restawrata relazzjoni lineari minn dejta reali, ġeneralment ikun meħtieġ li tiġi introdotta suppożizzjoni oħra: id-dejta tal-input fiha ħsejjes u dan il-ħoss għandu
Metodu ta' probabbiltà massima
Allura, asssumina l-preżenza ta 'ħoss imqassam b'mod każwali. X'għandek tagħmel f'sitwazzjoni bħal din? Għal dan il-każ fil-matematika hemm u tintuża ħafna
Nirritornaw biex nirrestawraw relazzjoni lineari minn dejta b'istorbju normali. Innota li r-relazzjoni lineari preżunta hija l-aspettattiva matematika distribuzzjoni normali eżistenti. Fl-istess ħin, il-probabbiltà li jieħu valur jew ieħor, soġġett għall-preżenza ta’ osservabbli , kif ġej:
Ejjew issa jissostitwixxu minflok и Il-varjabbli li għandna bżonn huma:
Li jibqa 'huwa li ssib il-vettur , li fiha din il-probabbiltà hija massima. Biex timmassimizza funzjoni bħal din, huwa konvenjenti li l-ewwel tieħu logaritmu tagħha (il-logaritmu tal-funzjoni jilħaq massimu fl-istess punt bħall-funzjoni nnifisha):
Li, min-naħa tiegħu, nieżla biex timminimizza l-funzjoni li ġejja:
Mill-mod, dan jissejjaħ metodu
QR dekompożizzjoni
Il-minimu tal-funzjoni ta 'hawn fuq jista' jinstab billi jinstab il-punt li fih il-gradjent ta 'din il-funzjoni huwa żero. U l-gradjent se jinkiteb kif ġej:
Allura aħna jiddekomponu l-matriċi għal matriċi и u wettaq serje ta 'trasformazzjonijiet (l-algoritmu tad-dekompożizzjoni QR innifsu mhux se jiġi kkunsidrat hawnhekk, l-użu tiegħu biss fir-rigward tal-kompitu li jkun hemm):
matriċi hija ortogonali. Dan jippermettilna neħilsu mix-xogħol :
U jekk tissostitwixxi fuq , allura se taħdem . Meta wieħed iqis li hija matriċi trijangolari ta' fuq, tidher bħal din:
Dan jista 'jiġi solvut bl-użu tal-metodu ta' sostituzzjoni. Element tinsab bħala , element preċedenti tinsab bħala u l-bqija.
Ta’ min jinnota hawnhekk li l-kumplessità tal-algoritmu li jirriżulta minħabba l-użu tad-dekompożizzjoni QR hija ugwali għal . Barra minn hekk, minkejja l-fatt li l-operazzjoni tal-multiplikazzjoni tal-matriċi hija parallelizzata sew, mhuwiex possibbli li tikteb verżjoni distribwita effettiva ta 'dan l-algoritmu.
Inżul gradjent
Meta titkellem dwar il-minimizzazzjoni ta 'funzjoni, dejjem ta' min jiftakar il-metodu ta 'inżul gradjent (stokastiku). Dan huwa metodu ta 'minimizzazzjoni sempliċi u effettiv ibbażat fuq il-kalkolu iterattiv tal-gradjent ta' funzjoni f'punt u mbagħad iċċaqlaqha fid-direzzjoni opposta għall-gradjent. Kull pass bħal dan iġib is-soluzzjoni eqreb lejn il-minimu. Il-gradjent għadu jidher l-istess:
Dan il-metodu huwa wkoll parallelizzat tajjeb u mqassam minħabba l-proprjetajiet lineari tal-operatur tal-gradjent. Innota li fil-formula ta 'hawn fuq, taħt is-sinjal tas-somma hemm termini indipendenti. Fi kliem ieħor, nistgħu nikkalkulaw il-gradjent indipendentement għall-indiċijiet kollha mill-ewwel sa , B'mod parallel ma' dan, ikkalkula l-gradjent għall-indiċi bil li . Imbagħad żid il-gradjenti li jirriżultaw. Ir-riżultat taż-żieda se jkun l-istess bħallikieku immedjatament ikkalkula l-gradjent għall-indiċi mill-ewwel sa . Għalhekk, jekk id-dejta titqassam fost diversi biċċiet ta 'dejta, il-gradjent jista' jiġi kkalkulat b'mod indipendenti fuq kull biċċa, u mbagħad ir-riżultati ta 'dawn il-kalkoli jistgħu jinġabru biex jinkiseb ir-riżultat finali:
Mil-lat ta' implimentazzjoni, dan jaqbel mal-paradigma
Minkejja l-faċilità ta 'implimentazzjoni u l-abbiltà li tesegwixxi fil-paradigma MapReduce, inżul gradjent għandu wkoll l-iżvantaġġi tagħha. B'mod partikolari, in-numru ta' passi meħtieġa biex tinkiseb il-konverġenza huwa ogħla b'mod sinifikanti meta mqabbel ma' metodi oħra aktar speċjalizzati.
LSQR
Il-metodu LSQR huwa bbażat fuq
Imma jekk nassumu li l-matriċi hija maqsuma orizzontalment, allura kull iterazzjoni tista 'tiġi rappreżentata bħala żewġ passi MapReduce. B'dan il-mod, huwa possibbli li jiġu minimizzati t-trasferimenti tad-dejta matul kull iterazzjoni (vettori biss b'tul ugwali għan-numru ta 'mhux magħrufa):
Huwa dan l-approċċ li jintuża meta tiġi implimentata rigressjoni lineari fi
Konklużjoni
Hemm ħafna algoritmi ta 'rkupru ta' rigressjoni lineari, iżda mhux kollha jistgħu jiġu applikati fil-kundizzjonijiet kollha. Allura d-dekompożizzjoni QR hija eċċellenti għal soluzzjoni preċiża fuq settijiet ta 'dejta żgħar. L-inżul tal-gradjent huwa sempliċi biex jiġi implimentat u jippermettilek li ssib malajr soluzzjoni approssimattiva. U LSQR jgħaqqad l-aħjar proprjetajiet taż-żewġ algoritmi ta 'qabel, peress li jista' jiġi distribwit, jikkonverġi aktar malajr meta mqabbel mal-inżul tal-gradjent, u jippermetti wkoll il-waqfien bikri tal-algoritmu, b'differenza mid-dekompożizzjoni QR, biex tinstab soluzzjoni approssimattiva.
Sors: www.habr.com