Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ
Source: xkcd

Գծային ռեգրեսիան տվյալների վերլուծության հետ կապված բազմաթիվ ոլորտների հիմնական ալգորիթմներից մեկն է: Սրա պատճառն ակնհայտ է. Սա շատ պարզ և հասկանալի ալգորիթմ է, որը նպաստել է դրա լայն տարածմանը տասնյակ, եթե ոչ հարյուրավոր տարիներ։ Գաղափարն այն է, որ մենք ենթադրում ենք մեկ փոփոխականի գծային կախվածություն այլ փոփոխականների մի շարքից, այնուհետև փորձում ենք վերականգնել այդ կախվածությունը:

Բայց այս հոդվածը գործնական խնդիրների լուծման համար գծային ռեգրեսիա օգտագործելու մասին չէ: Այստեղ մենք կդիտարկենք դրա վերականգնման համար բաշխված ալգորիթմների ներդրման հետաքրքիր առանձնահատկությունները, որոնք մենք հանդիպեցինք մեքենայական ուսուցման մոդուլ գրելիս. Apache Ignite. Մի փոքր հիմնական մաթեմատիկան, մեքենայական ուսուցումը և բաշխված հաշվարկը կարող են օգնել ձեզ պարզել, թե ինչպես կատարել գծային ռեգրեսիա, նույնիսկ երբ ձեր տվյալները բաշխված են հազարավոր հանգույցների վրա:

Ինչի՞ մասին ենք խոսում։

Մեր առջեւ խնդիր է դրված վերականգնել գծային կախվածությունը։ Որպես մուտքային տվյալ՝ տրվում է ենթադրաբար անկախ փոփոխականների վեկտորների մի շարք, որոնցից յուրաքանչյուրը կապված է կախված փոփոխականի որոշակի արժեքի հետ։ Այս տվյալները կարող են ներկայացվել երկու մատրիցայի տեսքով.

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Այժմ, քանի որ կախվածությունը ենթադրվում է, և, առավել ևս, գծային, մենք մեր ենթադրությունը կգրենք մատրիցների արտադրյալի տեսքով (ձայնագրությունը պարզեցնելու համար այստեղ և ներքևում ենթադրվում է, որ հավասարման ազատ անդամը թաքնված է հետևում. Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ, և մատրիցայի վերջին սյունակը Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ պարունակում է միավորներ):

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Շատ նման է գծային հավասարումների համակարգի, այնպես չէ՞: Թվում է, բայց, ամենայն հավանականությամբ, նման հավասարումների համակարգի լուծումներ չեն լինի։ Դրա պատճառը աղմուկն է, որն առկա է գրեթե ցանկացած իրական տվյալների մեջ։ Մեկ այլ պատճառ կարող է լինել գծային կախվածության բացակայությունը որպես այդպիսին, որի դեմ կարելի է պայքարել՝ ներմուծելով լրացուցիչ փոփոխականներ, որոնք ոչ գծային կախված են սկզբնականներից: Դիտարկենք հետևյալ օրինակը.
Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ
Source: Վիքիփեդիա, ազատ հանրագիտարան

Սա գծային ռեգրեսիայի պարզ օրինակ է, որը ցույց է տալիս մեկ փոփոխականի կապը (առանցքի երկայնքով Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ) մեկ այլ փոփոխականից (առանցքի երկայնքով Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ) Որպեսզի այս օրինակին համապատասխան գծային հավասարումների համակարգը լուծում ունենա, բոլոր կետերը պետք է գտնվեն ճիշտ նույն ուղիղ գծի վրա: Բայց դա ճիշտ չէ: Բայց նրանք նույն ուղիղ գծի վրա չեն պառկում հենց աղմուկի պատճառով (կամ այն ​​պատճառով, որ գծային հարաբերությունների ենթադրությունը սխալ էր): Այսպիսով, իրական տվյալներից գծային կապը վերականգնելու համար սովորաբար անհրաժեշտ է ներկայացնել ևս մեկ ենթադրություն. մուտքային տվյալները պարունակում են աղմուկ, և այդ աղմուկն ունի. նորմալ բաշխում. Դուք կարող եք ենթադրություններ անել աղմուկի բաշխման այլ տեսակների վերաբերյալ, սակայն դեպքերի ճնշող մեծամասնության մեջ դիտարկվում է նորմալ բաշխումը, որը կքննարկվի հետագա:

Առավելագույն հավանականության մեթոդ

Այսպիսով, մենք ենթադրեցինք պատահական նորմալ բաշխված աղմուկի առկայությունը: Ի՞նչ անել նման իրավիճակում: Այս դեպքի համար մաթեմատիկայի մեջ կա և լայնորեն կիրառվում է առավելագույն հավանականության մեթոդ. Մի խոսքով, դրա էությունը ընտրության մեջ է հավանականության գործառույթները և դրա հետագա մաքսիմալացումը:

Մենք վերադառնում ենք նորմալ աղմուկով տվյալներից գծային հարաբերությունների վերականգնմանը: Նշենք, որ ենթադրյալ գծային հարաբերությունը մաթեմատիկական ակնկալիքն է Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ գոյություն ունեցող նորմալ բաշխում: Միաժամանակ, հավանականությունը, որ Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ ընդունում է այս կամ այն ​​արժեքները, որոնք ենթակա են դիտելիության առկայությանը Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ, Ինչպես նշված է հետեւյալում:

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Եկեք հիմա փոխարինենք դրա փոխարեն Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ и Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ Մեզ անհրաժեշտ փոփոխականներն են.

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Մնում է միայն գտնել վեկտորը Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ, որի դեպքում այս հավանականությունը առավելագույնն է: Նման ֆունկցիան առավելագույնի հասցնելու համար հարմար է նախ վերցնել դրա լոգարիթմը (ֆունկցիայի լոգարիթմը առավելագույնի կհասնի նույն կետում, ինչ ֆունկցիան ինքնին).

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Ինչն իր հերթին հանգում է հետևյալ գործառույթի նվազագույնի.

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Ի դեպ, սա կոչվում է մեթոդ նվազագույն քառակուսիները. Հաճախ վերը նշված բոլոր նկատառումները բաց են թողնվում, և այս մեթոդը պարզապես օգտագործվում է:

QR տարրալուծում

Վերոնշյալ ֆունկցիայի նվազագույնը կարելի է գտնել՝ գտնելով այն կետը, որտեղ այս ֆունկցիայի գրադիենտը զրո է։ Իսկ գրադիենտը կգրվի հետևյալ կերպ.

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

QR տարրալուծում նվազագույն քառակուսիների մեթոդով կիրառվող մինիմիզացման խնդրի լուծման մատրիցային մեթոդ է: Այս առումով, մենք վերագրում ենք հավասարումը մատրիցային ձևով.

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Այսպիսով, մենք քայքայում ենք մատրիցը Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ դեպի մատրիցներ Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ и Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ և կատարել մի շարք փոխակերպումներ (QR տարրալուծման ալգորիթմն ինքնին այստեղ չի դիտարկվի, միայն դրա օգտագործումը առաջադրանքի հետ կապված).

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

մատրիցա Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ ուղղանկյուն է. Սա մեզ թույլ է տալիս ազատվել աշխատանքից Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ:

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Իսկ եթե փոխարինես Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ մասին Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ, ապա այն կաշխատի Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ. Հաշվի առնելով դա Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ վերին եռանկյունաձև մատրիցա է, այն ունի հետևյալ տեսքը.

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Սա կարող է լուծվել փոխարինման մեթոդով: Տարր Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ գտնվում է որպես Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ, նախորդ տարր Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ գտնվում է որպես Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ եւ այլն:

Այստեղ հարկ է նշել, որ QR տարրալուծման կիրառման արդյունքում ստացված ալգորիթմի բարդությունը հավասար է. Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ. Ավելին, չնայած այն հանգամանքին, որ մատրիցային բազմապատկման գործողությունը լավ զուգահեռականացված է, հնարավոր չէ գրել այս ալգորիթմի արդյունավետ բաշխված տարբերակը։

Գրադիենտ ծագում

Երբ խոսում ենք ֆունկցիան նվազագույնի հասցնելու մասին, միշտ արժե հիշել (ստոխաստիկ) գրադիենտ ծագման մեթոդը։ Սա մինիմալացման պարզ և արդյունավետ մեթոդ է, որը հիմնված է մի կետում ֆունկցիայի գրադիենտի կրկնվող հաշվարկի վրա և այնուհետև այն գրադիենտին հակառակ ուղղությամբ տեղափոխելու վրա: Յուրաքանչյուր նման քայլ լուծումը մոտենում է նվազագույնին։ Գրադիենտը դեռ նույնն է թվում.

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Այս մեթոդը նույնպես լավ զուգահեռացված և բաշխված է գրադիենտ օպերատորի գծային հատկությունների շնորհիվ: Նկատի ունեցեք, որ վերը նշված բանաձևում գումարի նշանի տակ կան անկախ տերմիններ: Այլ կերպ ասած, մենք կարող ենք ինքնուրույն հաշվարկել գրադիենտը բոլոր ինդեքսների համար Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ առաջինից մինչև Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ, սրան զուգահեռ հաշվարկեք ինդեքսների գրադիենտը Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ դեպի Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ. Այնուհետև ավելացրեք ստացված գրադիենտները: Հավելման արդյունքը կլինի նույնը, ինչ եթե մենք անմիջապես հաշվարկենք ինդեքսների գրադիենտը առաջինից մինչև Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ. Այսպիսով, եթե տվյալները բաշխված են մի քանի տվյալների միջև, գրադիենտը կարող է ինքնուրույն հաշվարկվել յուրաքանչյուր մասի վրա, այնուհետև այս հաշվարկների արդյունքները կարող են ամփոփվել՝ վերջնական արդյունք ստանալու համար.

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Իրականացման տեսանկյունից սա համապատասխանում է պարադիգմին MapReduce. Գրադիենտ անկման յուրաքանչյուր քայլում յուրաքանչյուր տվյալների հանգույց ուղարկվում է գրադիենտը հաշվարկելու առաջադրանք, այնուհետև հաշվարկված գրադիենտները հավաքվում են միասին, և դրանց գումարի արդյունքն օգտագործվում է արդյունքը բարելավելու համար:

Չնայած իրականացման հեշտությանը և MapReduce պարադիգմում գործարկելու հնարավորությանը, գրադիենտ ծագումն ունի նաև իր թերությունները: Մասնավորապես, կոնվերգենցիայի հասնելու համար անհրաժեշտ քայլերի թիվը զգալիորեն ավելի մեծ է այլ ավելի մասնագիտացված մեթոդների համեմատ:

LSQR

LSQR Խնդիրը լուծելու ևս մեկ մեթոդ է, որը հարմար է ինչպես գծային ռեգրեսիան վերականգնելու, այնպես էլ գծային հավասարումների համակարգերի լուծման համար։ Դրա հիմնական առանձնահատկությունն այն է, որ այն համատեղում է մատրիցային մեթոդների առավելությունները և կրկնվող մոտեցումը: Այս մեթոդի իրականացումը կարելի է գտնել երկու գրադարաններում SciPyեւ ներս MATLAB. Այս մեթոդի նկարագրությունը այստեղ չի տրվի (այն կարելի է գտնել հոդվածում LSQR. Ալգորիթմ նոսր գծային հավասարումների և նոսր նվազագույն քառակուսիների համար) Փոխարենը կցուցադրվի մոտեցում՝ LSQR-ը բաշխված միջավայրում կատարմանը հարմարեցնելու համար:

LSQR մեթոդը հիմնված է երկդիագոնալիզացիայի կարգը. Սա կրկնվող ընթացակարգ է, յուրաքանչյուր կրկնություն բաղկացած է հետևյալ քայլերից.
Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Բայց եթե ենթադրենք, որ մատրիցը Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ հորիզոնական բաժանված է, այնուհետև յուրաքանչյուր կրկնություն կարող է ներկայացվել որպես MapReduce երկու քայլ: Այս կերպ հնարավոր է նվազագույնի հասցնել տվյալների փոխանցումը յուրաքանչյուր կրկնության ընթացքում (միայն անհայտների թվին հավասար երկարությամբ վեկտորներ).

Գծային ռեգրեսիա և դրա վերականգնման մեթոդներ

Այս մոտեցումն է, որն օգտագործվում է գծային ռեգրեսիա իրականացնելիս Apache Ignite ML.

Ամփոփում

Գոյություն ունեն գծային ռեգրեսիայի վերականգնման բազմաթիվ ալգորիթմներ, բայց ոչ բոլորը կարող են կիրառվել բոլոր պայմաններում: Այսպիսով, QR-ի տարրալուծումը հիանալի է փոքր տվյալների հավաքածուներում ճշգրիտ լուծման համար: Գրադիենտ ծագումը հեշտ է իրականացնել և թույլ է տալիս արագ գտնել մոտավոր լուծում: Եվ LSQR-ն համատեղում է նախորդ երկու ալգորիթմների լավագույն հատկությունները, քանի որ այն կարող է բաշխվել, ավելի արագ զուգակցել գրադիենտ իջնելու համեմատ, ինչպես նաև թույլ է տալիս ալգորիթմի վաղ դադարեցումը, ի տարբերություն QR-ի տարրալուծման, մոտավոր լուծում գտնելու համար:

Source: www.habr.com

Добавить комментарий