🥇Maşın Öyrənməsində Xüsusiyyət Seçimi

Hey Habr!

Biz Reksoft-da məqaləni rus dilinə tərcümə etdik Maşın Öyrənməsində Xüsusiyyət Seçimi. Ümid edirik ki, mövzu ilə maraqlanan hər kəs üçün faydalı olacaq.

Real dünyada məlumatlar həmişə biznes müştərilərinin bəzən düşündüyü qədər təmiz olmur. Bu səbəbdən data mining və məlumat mübahisəsi tələb olunur. İnsanların müəyyən edə bilmədiyi sorğu strukturlu məlumatlarda çatışmayan dəyərləri və nümunələri müəyyən etməyə kömək edir. Məlumatlarda aşkar edilmiş əlaqələrdən istifadə edərək nəticələri proqnozlaşdırmaq üçün bu nümunələri tapmaq və istifadə etmək üçün maşın öyrənməsi faydalı olur.

Hər hansı bir alqoritmi başa düşmək üçün verilənlərdəki bütün dəyişənlərə baxmaq və bu dəyişənlərin nəyi təmsil etdiyini anlamaq lazımdır. Bu kritikdir, çünki nəticələrin arxasında duran əsas məlumatların başa düşülməsinə əsaslanır. Məlumatda 5 və ya hətta 50 dəyişən varsa, onların hamısını yoxlaya bilərsiniz. Bəs onların 200-ü olarsa? Onda sadəcə olaraq hər bir dəyişəni öyrənmək üçün kifayət qədər vaxt olmayacaq. Üstəlik, bəzi alqoritmlər kateqoriyalı məlumatlar üçün işləmir və sonra onları modelə əlavə etmək üçün bütün kateqoriyalı sütunları kəmiyyət dəyişənlərinə çevirməli olacaqsınız (onlar kəmiyyət kimi görünə bilər, lakin ölçülər onların kateqoriyalı olduğunu göstərəcək). Beləliklə, dəyişənlərin sayı artır və onların sayı 500-ə yaxındır.İndi nə etməli? Cavabın ölçüsünü azaltmaq olacağını düşünə bilərsiniz. Ölçülərin azaldılması alqoritmləri parametrlərin sayını azaldır, lakin şərh edilə bilənliyə mənfi təsir göstərir. Qalanları başa düşməyi və şərh etməyi asanlaşdırarkən xüsusiyyətləri aradan qaldıran başqa üsullar varsa necə?

Təhlilin reqressiyaya və ya təsnifata əsaslanmasından asılı olaraq, xüsusiyyət seçmə alqoritmləri fərqli ola bilər, lakin onların həyata keçirilməsinin əsas ideyası dəyişməz olaraq qalır.

Yüksək Korrelyasiyalı Dəyişənlər

Bir-biri ilə yüksək korrelyasiyaya malik dəyişənlər modelə eyni məlumatı verir, ona görə də təhlil üçün onların hamısından istifadə etməyə ehtiyac yoxdur. Məsələn, verilənlər bazası "Onlayn vaxt" və "İstifadə olunan trafik" xüsusiyyətlərini ehtiva edirsə, onların bir qədər əlaqəli olacağını güman edə bilərik və qərəzsiz məlumat nümunəsi seçsək belə, güclü korrelyasiya görəcəyik. Bu halda modeldə bu dəyişənlərdən yalnız biri lazımdır. Hər ikisini istifadə etsəniz, model həddindən artıq uyğunlaşacaq və müəyyən bir xüsusiyyətə meylli olacaq.

P-dəyərləri

Xətti reqressiya kimi alqoritmlərdə ilkin statistik model həmişə yaxşı fikirdir. Bu modelin əldə etdiyi p-dəyərləri vasitəsilə xüsusiyyətlərin əhəmiyyətini göstərməyə kömək edir. Əhəmiyyət səviyyəsini təyin etdikdən sonra nəticədə p-dəyərlərini yoxlayırıq və əgər hər hansı bir dəyər göstərilən əhəmiyyət səviyyəsindən aşağıdırsa, bu xüsusiyyət əhəmiyyətli elan edilir, yəni onun dəyərindəki dəyişiklik, ehtimal ki, dəyərinin dəyişməsinə səbəb olacaqdır. hədəf.

Birbaşa seçim

İrəli seçim addım-addım reqressiya tətbiqini əhatə edən bir texnikadır. Modelin qurulması tam sıfırdan, yəni boş modeldən başlayır və sonra hər bir iterasiya qurulan modelə təkmilləşdirmə aparan dəyişən əlavə edir. Modelə hansı dəyişənin əlavə olunduğu onun əhəmiyyəti ilə müəyyən edilir. Bu müxtəlif ölçülərdən istifadə etməklə hesablana bilər. Ən ümumi yol, bütün dəyişənlərdən istifadə edərək orijinal statistik modeldə əldə edilən p-dəyərlərindən istifadə etməkdir. Bəzən irəli seçim modelin həddən artıq uyğunlaşmasına səbəb ola bilər, çünki modeldə yüksək korrelyasiyalı dəyişənlər ola bilər, hətta onlar modelə eyni məlumatı təqdim etsələr də (lakin model hələ də təkmilləşməni göstərir).

Ters seçim

Əks seçim həm də əlamətlərin addım-addım aradan qaldırılmasını nəzərdə tutur, lakin irəli seçimlə müqayisədə əks istiqamətdə. Bu halda ilkin model bütün müstəqil dəyişənləri əhatə edir. Dəyişənlər hər iterasiyada yeni reqressiya modelinə dəyər vermirsə, silinir (hər iterasiya üçün bir). Xüsusiyyət istisnası ilkin modelin p-dəyərlərinə əsaslanır. Bu metod həm də yüksək korrelyasiyalı dəyişənləri silərkən qeyri-müəyyənliyə malikdir.

Rekursiv funksiyaların aradan qaldırılması

RFE əhəmiyyətli xüsusiyyətlərin dəqiq sayını seçmək üçün geniş istifadə olunan texnika/alqoritmdir. Bəzən üsul nəticələrə təsir edən bir sıra “ən mühüm” xüsusiyyətləri izah etmək üçün istifadə olunur; və bəzən çox sayda dəyişənləri azaltmaq üçün (təxminən 200-400) və yalnız modelə ən azı müəyyən töhfə verənlər saxlanılır və bütün digərləri istisna olunur. RFE sıralama sistemindən istifadə edir. Məlumat dəstindəki xüsusiyyətlərə dərəcələr təyin edilir. Bu dərəcələr daha sonra onlar arasındakı kollinearlığa və modeldə həmin xüsusiyyətlərin əhəmiyyətinə əsaslanan xüsusiyyətləri rekursiv şəkildə aradan qaldırmaq üçün istifadə olunur. Reytinq xüsusiyyətlərinə əlavə olaraq, RFE bu xüsusiyyətlərin hətta müəyyən bir sıra funksiyalar üçün vacib olub olmadığını göstərə bilər (çünki çox güman ki, seçilmiş funksiyaların sayı optimal olmaya bilər və funksiyaların optimal sayı daha çox ola bilər. və ya seçilmiş nömrədən az).

Xüsusiyyət Önəmi Diaqramı

Maşın öyrənmə alqoritmlərinin şərh edilə bilməsi haqqında danışarkən, biz adətən xətti reqressiyaları (p-dəyərlərindən istifadə edərək xüsusiyyətlərin əhəmiyyətini təhlil etməyə imkan verir) və qərar ağaclarını (hərfi mənada bir ağac şəklində olan xüsusiyyətlərin əhəmiyyətini göstərən və s. eyni zamanda onların iyerarxiyası). Digər tərəfdən, Random Forest, LightGBM və XG Boost kimi alqoritmlər tez-tez bir xüsusiyyət əhəmiyyəti diaqramından istifadə edir, yəni dəyişənlərin diaqramından və "onların vaciblik nömrələri" qurulur. Bu, atributların biznesə təsiri baxımından əhəmiyyəti üçün strukturlaşdırılmış əsaslandırma təqdim etməyiniz lazım olduqda xüsusilə faydalıdır.

Regularizasiya

Tənzimləmə qərəz və variasiya arasındakı tarazlığa nəzarət etmək üçün edilir. Qərəz, modelin təlim məlumat dəstinə nə qədər uyğun olduğunu göstərir. Sapma təlim və test məlumat dəstləri arasında proqnozların nə qədər fərqli olduğunu göstərir. İdeal olaraq, həm qərəz, həm də fərq kiçik olmalıdır. Bu, nizamlanmanın xilasetməyə gəldiyi yerdir! İki əsas texnika var:

L1 Regularization - Lasso: Lasso model çəkilərini model üçün əhəmiyyətini dəyişdirmək üçün cəzalandırır və hətta onları sıfırlaya bilər (yəni, həmin dəyişənləri son modeldən çıxara bilər). Tipik olaraq, Lasso verilənlər toplusunda çoxlu sayda dəyişən olduqda istifadə olunur və siz mühüm xüsusiyyətlərin modelə necə təsir etdiyini daha yaxşı başa düşmək üçün onlardan bəzilərini istisna etmək istədiyiniz zaman istifadə olunur (yəni, Lasso tərəfindən seçilmiş və əhəmiyyət verilmiş xüsusiyyətlər).

L2 Regularization - Ridge metodu: Ridge-in işi bütün dəyişənləri saxlamaq və eyni zamanda modelin performansına töhfələrinə əsasən onlara əhəmiyyət verməkdir. Əgər verilənlər toplusunda az sayda dəyişən varsa və onların hamısı tapıntıları və əldə edilmiş nəticələri şərh etmək üçün zəruridirsə, Ridge yaxşı seçim olacaqdır.

Ridge bütün dəyişənləri saxladığından və Lasso onların əhəmiyyətini müəyyən etmək üçün daha yaxşı iş gördüyündən, Elastic-Net kimi tanınan hər iki nizamlamanın ən yaxşı xüsusiyyətlərini özündə birləşdirən bir alqoritm hazırlanmışdır.

Maşın öyrənməsi üçün xüsusiyyətləri seçmək üçün daha bir çox yol var, lakin əsas fikir həmişə eynidir: dəyişənlərin əhəmiyyətini nümayiş etdirin və sonra ortaya çıxan əhəmiyyətə əsasən onlardan bəzilərini aradan qaldırın. Əhəmiyyət çox subyektiv bir termindir, çünki o, yalnız bir deyil, əsas atributları tapmaq üçün istifadə edilə bilən ölçü və qrafiklərin bütün dəstidir.

Oxuduğunuz üçün təşəkkür edirik! Xoşbəxt öyrənmə!

Mənbə: www.habr.com