Հատկությունների ընտրություն մեքենայական ուսուցման մեջ

Հե՜յ Հաբր։

Մենք Reksoft-ում հոդվածը թարգմանեցինք ռուսերեն Հատկանիշների ընտրություն մեքենայական ուսուցման մեջ. Հուսով ենք, որ այն օգտակար կլինի բոլոր նրանց, ովքեր հետաքրքրված են թեմայով:

Իրական աշխարհում տվյալները միշտ չէ, որ այնքան մաքուր են, որքան երբեմն կարծում են բիզնես հաճախորդները: Ահա թե ինչու տվյալների արդյունահանումը և տվյալների վեճը պահանջարկ ունեն: Այն օգնում է բացահայտել բացակայող արժեքներն ու օրինաչափությունները հարցումների կառուցվածքային տվյալների մեջ, որոնք մարդիկ չեն կարող բացահայտել: Որպեսզի գտնել և օգտագործել այս օրինաչափությունները՝ արդյունքները կանխատեսելու համար՝ օգտագործելով տվյալների մեջ հայտնաբերված հարաբերությունները, մեքենայական ուսուցումը հարմար է:

Ցանկացած ալգորիթմ հասկանալու համար անհրաժեշտ է դիտարկել տվյալների բոլոր փոփոխականները և պարզել, թե ինչ են ներկայացնում այդ փոփոխականները: Սա կարևոր է, քանի որ արդյունքների հիմքում ընկած հիմնավորումը հիմնված է տվյալների ըմբռնման վրա: Եթե ​​տվյալները պարունակում են 5 կամ նույնիսկ 50 փոփոխական, կարող եք դրանք բոլորը ուսումնասիրել: Իսկ եթե դրանք 200-ն են: Այդ դեպքում պարզապես բավարար ժամանակ չի լինի յուրաքանչյուր փոփոխական ուսումնասիրելու համար: Ավելին, որոշ ալգորիթմներ չեն աշխատում կատեգորիկ տվյալների համար, և այնուհետև դուք պետք է փոխարկեք բոլոր դասակարգային սյունակները քանակական փոփոխականների (դրանք կարող են քանակական թվալ, բայց չափումները ցույց կտան, որ դրանք դասակարգային են) դրանք մոդելին ավելացնելու համար: Այսպիսով, փոփոխականների թիվն ավելանում է, և դրանք մոտ 500 են, ի՞նչ անել հիմա։ Կարելի է մտածել, որ պատասխանը կլինի ծավալայինության նվազեցումը: Չափերի կրճատման ալգորիթմները նվազեցնում են պարամետրերի քանակը, բայց բացասաբար են ազդում մեկնաբանելիության վրա: Ի՞նչ անել, եթե կան այլ մեթոդներ, որոնք վերացնում են առանձնահատկությունները, մինչդեռ մնացածները հեշտացնում են հասկանալի և մեկնաբանելու համար:

Կախված նրանից, թե վերլուծությունը հիմնված է ռեգրեսիայի կամ դասակարգման վրա, առանձնահատկությունների ընտրության ալգորիթմները կարող են տարբերվել, բայց դրանց իրականացման հիմնական գաղափարը մնում է նույնը:

Բարձր փոխկապակցված փոփոխականներ

Փոփոխականները, որոնք մեծ փոխկապակցված են միմյանց հետ, տալիս են նույն տեղեկատվությունը մոդելին, ուստի կարիք չկա օգտագործել դրանք բոլորը վերլուծության համար: Օրինակ, եթե տվյալների բազան պարունակում է «Օնլայն ժամանակ» և «Օգտագործված երթևեկություն» հատկանիշները, մենք կարող ենք ենթադրել, որ դրանք որոշակիորեն փոխկապակցված կլինեն, և մենք կտեսնենք ուժեղ հարաբերակցություն, նույնիսկ եթե ընտրենք տվյալների անաչառ նմուշ: Այս դեպքում մոդելում անհրաժեշտ է այս փոփոխականներից միայն մեկը: Եթե ​​դուք օգտագործում եք երկուսն էլ, մոդելը չափազանց կտեղավորվի և կողմնակալ կլինի մեկ կոնկրետ հատկանիշի նկատմամբ:

P- արժեքներ

Գծային ռեգրեսիայի նման ալգորիթմներում նախնական վիճակագրական մոդելը միշտ լավ գաղափար է: Այն օգնում է ցույց տալ առանձնահատկությունների կարևորությունը դրանց p-արժեքների միջոցով, որոնք ստացվել են այս մոդելով: Նշանակության մակարդակը սահմանելով՝ մենք ստուգում ենք ստացված p արժեքները, և եթե որևէ արժեք ցածր է նշված նշանակության մակարդակից, ապա այս հատկանիշը հայտարարվում է նշանակալի, այսինքն՝ դրա արժեքի փոփոխությունը, հավանաբար, կհանգեցնի արժեքի փոփոխության։ թիրախը.

Ուղղակի ընտրություն

Առաջ ընտրությունը տեխնիկա է, որը ներառում է փուլային ռեգրեսիայի կիրառում: Մոդելի կառուցումը սկսվում է լրիվ զրոյից, այսինքն՝ դատարկ մոդելից, այնուհետև յուրաքանչյուր կրկնություն ավելացնում է փոփոխական, որը բարելավում է կառուցվող մոդելը: Որ փոփոխականն է ավելացվել մոդելին, որոշվում է դրա նշանակությամբ: Սա կարելի է հաշվարկել՝ օգտագործելով տարբեր չափումներ: Ամենատարածված ձևը սկզբնական վիճակագրական մոդելում ստացված p արժեքներն օգտագործելն է՝ օգտագործելով բոլոր փոփոխականները: Երբեմն ուղղակի ընտրությունը կարող է հանգեցնել մոդելի չափից ավելի հարմարեցմանը, քանի որ մոդելում կարող են լինել բարձր փոխկապակցված փոփոխականներ, նույնիսկ եթե դրանք տրամադրում են նույն տեղեկատվությունը մոդելին (բայց մոդելը դեռ բարելավում է ցույց տալիս):

Հակադարձ ընտրություն

Հակադարձ ընտրությունը ներառում է նաև հատկությունների քայլ առ քայլ վերացում, բայց հակառակ ուղղությամբ՝ համեմատած առաջի ընտրության հետ: Այս դեպքում սկզբնական մոդելը ներառում է բոլոր անկախ փոփոխականները: Այնուհետև փոփոխականները վերացվում են (մեկը մեկ կրկնության համար), եթե դրանք արժեք չեն ներկայացնում ռեգրեսիոն նոր մոդելին յուրաքանչյուր կրկնության մեջ: Առանձնահատկությունների բացառումը հիմնված է սկզբնական մոդելի p արժեքների վրա: Այս մեթոդը նաև անորոշություն ունի բարձր փոխկապակցված փոփոխականները հեռացնելիս:

Recursive Feature Elimination

RFE-ն լայնորեն կիրառվող տեխնիկա/ալգորիթմ է նշանակալի հատկանիշների ճշգրիտ քանակի ընտրության համար: Երբեմն մեթոդը օգտագործվում է բացատրելու մի շարք «ամենակարևոր» հատկանիշներ, որոնք ազդում են արդյունքների վրա. և երբեմն կրճատել շատ մեծ թվով փոփոխականներ (մոտ 200-400), և միայն նրանք, որոնք գոնե որոշակի ներդրում ունեն մոդելի մեջ, պահպանվում են, իսկ մնացած բոլորը բացառվում են: RFE-ն օգտագործում է վարկանիշային համակարգ. Տվյալների հավաքածուի հատկանիշներին վերագրվում են աստիճաններ: Այդ շարքերն այնուհետև օգտագործվում են ռեկուրսիվ կերպով վերացնելու հատկանիշները՝ հիմնվելով դրանց միջև համակողմանիության և մոդելում այդ հատկանիշների կարևորության վրա: Ի լրումն դասակարգման առանձնահատկությունների, RFE-ն կարող է ցույց տալ, թե արդյոք այդ հատկանիշները կարևոր են, թե ոչ նույնիսկ որոշակի թվով հատկանիշների համար (քանի որ շատ հավանական է, որ ընտրված հատկանիշները կարող են օպտիմալ չլինել, իսկ գործառույթների օպտիմալ թիվը կարող է ավելի շատ լինել: կամ ընտրված թվից պակաս):

Հատկանիշի կարևորության դիագրամ

Երբ խոսում ենք մեքենայական ուսուցման ալգորիթմների մեկնաբանելիության մասին, մենք սովորաբար քննարկում ենք գծային ռեգրեսիաները (որոնք թույլ են տալիս վերլուծել հատկանիշների կարևորությունը՝ օգտագործելով p-արժեքները) և որոշումների ծառերը (բառացիորեն ցույց են տալիս հատկանիշների կարևորությունը ծառի տեսքով և միևնույն ժամանակ նրանց հիերարխիան): Մյուս կողմից, այնպիսի ալգորիթմներ, ինչպիսիք են Random Forest-ը, LightGBM-ը և XG Boost-ը, հաճախ օգտագործում են հատկանիշի կարևորության դիագրամ, այսինքն՝ գծագրվում է փոփոխականների դիագրամ և «դրանց կարևորության թվերը»: Սա հատկապես օգտակար է, երբ անհրաժեշտ է տրամադրել ատրիբուտների կարևորության կառուցվածքային հիմնավորում՝ բիզնեսի վրա դրանց ազդեցության տեսանկյունից:

Կանոնավորեցում

Կանոնավորումը կատարվում է կողմնակալության և շեղումների միջև հավասարակշռությունը վերահսկելու համար: Կողմնակալությունը ցույց է տալիս, թե որքան է մոդելը գերազանցել վերապատրաստման տվյալների հավաքածուն: Շեղումը ցույց է տալիս, թե որքան տարբեր էին կանխատեսումները վերապատրաստման և թեստային տվյալների հավաքածուների միջև: Իդեալում, և՛ կողմնակալությունը, և՛ շեղումը պետք է փոքր լինեն: Ահա, որտեղ կանոնավորացումը գալիս է օգնության: Կան երկու հիմնական տեխնիկա.

L1 կանոնավորացում - Lasso. Lasso-ն պատժում է մոդելի կշիռները՝ փոխելու դրանց նշանակությունը մոդելի համար և նույնիսկ կարող է դրանք վերակայել զրոյի (այսինքն՝ հեռացնել այդ փոփոխականները վերջնական մոդելից): Սովորաբար, Lasso-ն օգտագործվում է, երբ տվյալների բազան պարունակում է մեծ թվով փոփոխականներ, և դուք ցանկանում եք բացառել դրանցից մի քանիսը, որպեսզի ավելի լավ հասկանաք, թե որքան կարևոր հատկանիշներ են ազդում մոդելի վրա (այսինքն՝ այն հատկանիշները, որոնք ընտրվել են Lasso-ի կողմից և նրանց նշանակվել է կարևորություն):

L2 կանոնավորացում - Ridge մեթոդ. Ridge-ի խնդիրն է պահպանել բոլոր փոփոխականները և միևնույն ժամանակ դրանց կարևորություն տալ՝ ելնելով մոդելի կատարողականում նրանց ներդրումից: Ridge-ը լավ ընտրություն կլինի, եթե տվյալների բազան պարունակում է փոքր թվով փոփոխականներ, և դրանք բոլորն անհրաժեշտ են ստացված բացահայտումները և արդյունքները մեկնաբանելու համար:

Քանի որ Ridge-ը պահպանում է բոլոր փոփոխականները, և Lasso-ն ավելի լավ է անում դրանց կարևորությունը պարզելու համար, մշակվել է ալգորիթմ, որը միավորում է երկու կանոնավորությունների լավագույն հատկանիշները, որը հայտնի է որպես Elastic-Net:

Մեքենայական ուսուցման համար հնարավորություններ ընտրելու շատ այլ եղանակներ կան, բայց հիմնական գաղափարը միշտ նույնն է. ցուցադրել փոփոխականների կարևորությունը և այնուհետև վերացնել դրանցից մի քանիսը` ելնելով ստացված կարևորությունից: Կարևորությունը շատ սուբյեկտիվ տերմին է, քանի որ այն ոչ միայն մեկ, այլ չափումների և գծապատկերների մի ամբողջ շարք է, որոնք կարող են օգտագործվել հիմնական հատկանիշները գտնելու համար:

Շնորհակալություն կարդալու համար: Ուրախ ուսուցում:

Source: www.habr.com

Добавить комментарий