Funkciju izvēle maŔīnmācÄ«bā

Čau Habr!

Mēs Reksoftā tulkojām rakstu krievu valodā Funkciju izvēle maŔīnmācÄ«bā. Mēs ceram, ka tā bÅ«s noderÄ«ga ikvienam, kuru interesē Ŕī tēma.

Reālajā pasaulē dati ne vienmēr ir tik tÄ«ri, kā biznesa klienti dažreiz domā. Tāpēc datu ieguve un datu strÄ«di ir pieprasÄ«ti. Tas palÄ«dz identificēt trÅ«kstoŔās vērtÄ«bas un modeļus vaicājumu strukturētajos datos, ko cilvēki nevar identificēt. Lai atrastu un izmantotu Å”os modeļus, lai prognozētu rezultātus, izmantojot atklātās attiecÄ«bas datos, noder maŔīnmācÄ«Å”anās.

Lai saprastu jebkuru algoritmu, jums ir jāaplÅ«ko visi datu mainÄ«gie un jānoskaidro, ko Å”ie mainÄ«gie attēlo. Tas ir ļoti svarÄ«gi, jo rezultātu pamatojums ir balstÄ«ts uz datu izpratni. Ja datos ir 5 vai pat 50 mainÄ«gie, varat tos visus pārbaudÄ«t. Ko darÄ«t, ja tādu ir 200? Tad vienkārÅ”i nepietiks laika, lai izpētÄ«tu katru mainÄ«go. Turklāt daži algoritmi nedarbojas kategoriskiem datiem, un tad jums bÅ«s jāpārvērÅ” visas kategoriskās kolonnas par kvantitatÄ«viem mainÄ«gajiem (tie var izskatÄ«ties kvantitatÄ«vi, bet metrika parādÄ«s, ka tie ir kategoriski), lai tos pievienotu modelim. Tādējādi mainÄ«go skaits palielinās, un to ir aptuveni 500. Ko darÄ«t tagad? Varētu domāt, ka atbilde bÅ«tu samazināt dimensiju. Dimensiju samazināŔanas algoritmi samazina parametru skaitu, bet tiem ir negatÄ«va ietekme uz interpretējamÄ«bu. Ko darÄ«t, ja ir citi paņēmieni, kas novērÅ” funkcijas, vienlaikus padarot atlikuŔās viegli saprotamas un interpretējamas?

Atkarībā no tā, vai analīze ir balstīta uz regresiju vai klasifikāciju, pazīmju atlases algoritmi var atŔķirties, taču to ievieŔanas galvenā ideja paliek nemainīga.

Ļoti korelēti mainīgie

MainÄ«gie lielumi, kas ir cieÅ”i saistÄ«ti viens ar otru, nodroÅ”ina modelim vienu un to paÅ”u informāciju, tāpēc nav nepiecieÅ”ams tos visus izmantot analÄ«zei. Piemēram, ja datu kopā ir lÄ«dzekļi ā€œTieÅ”saistes laiksā€ un ā€œIzmantotā satiksmeā€, mēs varam pieņemt, ka tie bÅ«s zināmā mērā korelēti, un mēs redzēsim spēcÄ«gu korelāciju pat tad, ja atlasÄ«sim objektÄ«vu datu paraugu. Å ajā gadÄ«jumā modelÄ« ir nepiecieÅ”ams tikai viens no Å”iem mainÄ«gajiem. Ja izmantosit abus, modelis tiks pārslogots un novirzÄ«ts uz vienu konkrētu funkciju.

P vērtības

Tādos algoritmos kā lineārā regresija, sākotnējais statistiskais modelis vienmēr ir laba ideja. Tas palÄ«dz parādÄ«t Ä«paŔību nozÄ«mi, izmantojot to p-vērtÄ«bas, kas iegÅ«tas ar Å”o modeli. Pēc nozÄ«mÄ«guma lÄ«meņa iestatÄ«Å”anas mēs pārbaudām iegÅ«tās p vērtÄ«bas, un, ja kāda vērtÄ«ba ir zemāka par norādÄ«to nozÄ«mÄ«guma lÄ«meni, Ŕī pazÄ«me tiek pasludināta par nozÄ«mÄ«gu, tas ir, tās vērtÄ«bas izmaiņas, visticamāk, izraisÄ«s izmaiņas mērÄ·is.

TieŔā atlase

Uz priekÅ”u atlase ir metode, kas ietver pakāpeniskas regresijas piemēroÅ”anu. Modeļa veidoÅ”ana sākas ar pilnÄ«gu nulli, tas ir, tukÅ”u modeli, un pēc tam katra iterācija pievieno mainÄ«go, kas uzlabo veidojamo modeli. KurÅ” mainÄ«gais tiek pievienots modelim, nosaka tā nozÄ«mÄ«gums. To var aprēķināt, izmantojot dažādus rādÄ«tājus. VisizplatÄ«tākais veids ir izmantot sākotnējā statistikas modelÄ« iegÅ«tās p vērtÄ«bas, izmantojot visus mainÄ«gos. Dažkārt izvēle uz priekÅ”u var novest pie modeļa pārmērÄ«Å”anas, jo modelÄ« var bÅ«t ļoti korelēti mainÄ«gie, pat ja tie modelim sniedz tādu paÅ”u informāciju (taču modelÄ« joprojām ir uzlabojumi).

Apgrieztā izvēle

Apgrieztā atlase ietver arÄ« pakāpenisku pazÄ«mju likvidÄ“Å”anu, bet pretējā virzienā, salÄ«dzinot ar atlasi uz priekÅ”u. Å ajā gadÄ«jumā sākotnējais modelis ietver visus neatkarÄ«gos mainÄ«gos. Pēc tam mainÄ«gie tiek izslēgti (viens katrā iterācijā), ja tie nesniedz vērtÄ«bu jaunajam regresijas modelim katrā iterācijā. Funkciju izslēgÅ”ana balstās uz sākotnējā modeļa p vērtÄ«bām. Å ai metodei ir arÄ« nenoteiktÄ«ba, noņemot ļoti korelētus mainÄ«gos.

Rekursīvo funkciju likvidēŔana

RFE ir plaÅ”i izmantots paņēmiens/algoritms, lai atlasÄ«tu precÄ«zu nozÄ«mÄ«go pazÄ«mju skaitu. Dažreiz Å”o metodi izmanto, lai izskaidrotu vairākas ā€œsvarÄ«gākāsā€ pazÄ«mes, kas ietekmē rezultātus; un dažreiz samazināt ļoti lielu mainÄ«go skaitu (apmēram 200ā€“400), un tiek saglabāti tikai tie, kas dod vismaz kādu ieguldÄ«jumu modelÄ«, un visi pārējie tiek izslēgti. RFE izmanto ranžēŔanas sistēmu. Datu kopas pazÄ«mēm tiek pieŔķirtas pakāpes. Pēc tam Ŕīs rindas tiek izmantotas, lai rekursÄ«vi likvidētu pazÄ«mes, pamatojoties uz to kolinearitāti un Å”o pazÄ«mju nozÄ«mi modelÄ«. Papildus ranžēŔanas funkcijām RFE var parādÄ«t, vai Ŕīs funkcijas ir svarÄ«gas vai pat nē noteiktam objektu skaitam (jo ļoti iespējams, ka atlasÄ«tais lÄ«dzekļu skaits var nebÅ«t optimāls un optimālais funkciju skaits var bÅ«t vai nu vairāk vai mazāks par izvēlēto skaitli).

Funkciju svarīguma diagramma

Runājot par maŔīnmācÄ«Å”anās algoritmu interpretējamÄ«bu, mēs parasti apspriežam lineārās regresijas (kas ļauj analizēt pazÄ«mju nozÄ«mi, izmantojot p-vērtÄ«bas) un lēmumu kokus (burtiski parāda pazÄ«mju nozÄ«mi koka formā, un pie tajā paŔā laikā to hierarhija). No otras puses, tādi algoritmi kā Random Forest, LightGBM un XG Boost bieži izmanto funkciju svarÄ«guma diagrammu, tas ir, tiek uzzÄ«mēta mainÄ«go lielumu un ā€œto svarÄ«guma skaitļuā€ diagramma. Tas ir Ä«paÅ”i noderÄ«gi, ja jums ir nepiecieÅ”ams strukturēts pamatojums atribÅ«tu nozÄ«mei, ņemot vērā to ietekmi uz uzņēmējdarbÄ«bu.

Regularizācija

Regularizācija tiek veikta, lai kontrolētu lÄ«dzsvaru starp neobjektivitāti un dispersiju. Novirze parāda, cik daudz modelis ir pārspÄ«lēts apmācÄ«bas datu kopā. Novirze parāda, cik atŔķirÄ«gas bija prognozes starp apmācÄ«bas un testa datu kopām. Ideālā gadÄ«jumā gan novirzēm, gan novirzēm jābÅ«t mazām. Å eit palÄ«gā nāk legalizācija! Ir divas galvenās metodes:

L1 Regularizācija ā€” Lasso: Lasso piemēro sodu modeļa svērumiem, lai mainÄ«tu to nozÄ«mi modelÄ«, un pat var tos atcelt (t.i., noņemt Å”os mainÄ«gos no galÄ«gā modeļa). Parasti Lasso tiek izmantots, ja datu kopā ir liels skaits mainÄ«go un jÅ«s vēlaties izslēgt dažus no tiem, lai labāk izprastu, kā svarÄ«gi lÄ«dzekļi ietekmē modeli (tas ir, tās funkcijas, kuras ir atlasÄ«jis Lasso un kurām ir pieŔķirta nozÄ«me).

L2 Regularizācija ā€” Ridža metode: Ridža uzdevums ir saglabāt visus mainÄ«gos un vienlaikus pieŔķirt tiem nozÄ«mi, pamatojoties uz to ieguldÄ«jumu modeļa veiktspējā. Ridge bÅ«s laba izvēle, ja datu kopā ir neliels skaits mainÄ«go un tie visi ir nepiecieÅ”ami, lai interpretētu iegÅ«tos konstatējumus un rezultātus.

Tā kā Ridge saglabā visus mainīgos un Lasso veic labāku darbu, lai noteiktu to nozīmi, tika izstrādāts algoritms, kas apvieno abu regularizāciju labākās īpaŔības, kas pazīstamas kā Elastic-Net.

Ir daudz vairāk veidu, kā atlasÄ«t lÄ«dzekļus maŔīnmācÄ«bai, taču galvenā ideja vienmēr ir viena: demonstrējiet mainÄ«go nozÄ«mi un pēc tam noņemiet dažus no tiem, pamatojoties uz iegÅ«to nozÄ«mi. SvarÄ«gums ir ļoti subjektÄ«vs termins, jo tas nav tikai viens, bet gan vesels metrikas un diagrammu kopums, ko var izmantot, lai atrastu galvenos atribÅ«tus.

Paldies par lasīŔanu! Laimīgu mācīŔanos!

Avots: www.habr.com

Pievieno komentāru