Äau Habr!
MÄs ReksoftÄ tulkojÄm rakstu krievu valodÄ
ReÄlajÄ pasaulÄ dati ne vienmÄr ir tik tÄ«ri, kÄ biznesa klienti dažreiz domÄ. TÄpÄc datu ieguve un datu strÄ«di ir pieprasÄ«ti. Tas palÄ«dz identificÄt trÅ«kstoÅ”Äs vÄrtÄ«bas un modeļus vaicÄjumu strukturÄtajos datos, ko cilvÄki nevar identificÄt. Lai atrastu un izmantotu Å”os modeļus, lai prognozÄtu rezultÄtus, izmantojot atklÄtÄs attiecÄ«bas datos, noder maŔīnmÄcÄ«Å”anÄs.
Lai saprastu jebkuru algoritmu, jums ir jÄaplÅ«ko visi datu mainÄ«gie un jÄnoskaidro, ko Å”ie mainÄ«gie attÄlo. Tas ir ļoti svarÄ«gi, jo rezultÄtu pamatojums ir balstÄ«ts uz datu izpratni. Ja datos ir 5 vai pat 50 mainÄ«gie, varat tos visus pÄrbaudÄ«t. Ko darÄ«t, ja tÄdu ir 200? Tad vienkÄrÅ”i nepietiks laika, lai izpÄtÄ«tu katru mainÄ«go. TurklÄt daži algoritmi nedarbojas kategoriskiem datiem, un tad jums bÅ«s jÄpÄrvÄrÅ” visas kategoriskÄs kolonnas par kvantitatÄ«viem mainÄ«gajiem (tie var izskatÄ«ties kvantitatÄ«vi, bet metrika parÄdÄ«s, ka tie ir kategoriski), lai tos pievienotu modelim. TÄdÄjÄdi mainÄ«go skaits palielinÄs, un to ir aptuveni 500. Ko darÄ«t tagad? VarÄtu domÄt, ka atbilde bÅ«tu samazinÄt dimensiju. Dimensiju samazinÄÅ”anas algoritmi samazina parametru skaitu, bet tiem ir negatÄ«va ietekme uz interpretÄjamÄ«bu. Ko darÄ«t, ja ir citi paÅÄmieni, kas novÄrÅ” funkcijas, vienlaikus padarot atlikuÅ”Äs viegli saprotamas un interpretÄjamas?
AtkarÄ«bÄ no tÄ, vai analÄ«ze ir balstÄ«ta uz regresiju vai klasifikÄciju, pazÄ«mju atlases algoritmi var atŔķirties, taÄu to ievieÅ”anas galvenÄ ideja paliek nemainÄ«ga.
Ä»oti korelÄti mainÄ«gie
MainÄ«gie lielumi, kas ir cieÅ”i saistÄ«ti viens ar otru, nodroÅ”ina modelim vienu un to paÅ”u informÄciju, tÄpÄc nav nepiecieÅ”ams tos visus izmantot analÄ«zei. PiemÄram, ja datu kopÄ ir lÄ«dzekļi āTieÅ”saistes laiksā un āIzmantotÄ satiksmeā, mÄs varam pieÅemt, ka tie bÅ«s zinÄmÄ mÄrÄ korelÄti, un mÄs redzÄsim spÄcÄ«gu korelÄciju pat tad, ja atlasÄ«sim objektÄ«vu datu paraugu. Å ajÄ gadÄ«jumÄ modelÄ« ir nepiecieÅ”ams tikai viens no Å”iem mainÄ«gajiem. Ja izmantosit abus, modelis tiks pÄrslogots un novirzÄ«ts uz vienu konkrÄtu funkciju.
P vÄrtÄ«bas
TÄdos algoritmos kÄ lineÄrÄ regresija, sÄkotnÄjais statistiskais modelis vienmÄr ir laba ideja. Tas palÄ«dz parÄdÄ«t Ä«paŔību nozÄ«mi, izmantojot to p-vÄrtÄ«bas, kas iegÅ«tas ar Å”o modeli. PÄc nozÄ«mÄ«guma lÄ«meÅa iestatÄ«Å”anas mÄs pÄrbaudÄm iegÅ«tÄs p vÄrtÄ«bas, un, ja kÄda vÄrtÄ«ba ir zemÄka par norÄdÄ«to nozÄ«mÄ«guma lÄ«meni, Ŕī pazÄ«me tiek pasludinÄta par nozÄ«mÄ«gu, tas ir, tÄs vÄrtÄ«bas izmaiÅas, visticamÄk, izraisÄ«s izmaiÅas mÄrÄ·is.
TieÅ”Ä atlase
Uz priekÅ”u atlase ir metode, kas ietver pakÄpeniskas regresijas piemÄroÅ”anu. Modeļa veidoÅ”ana sÄkas ar pilnÄ«gu nulli, tas ir, tukÅ”u modeli, un pÄc tam katra iterÄcija pievieno mainÄ«go, kas uzlabo veidojamo modeli. KurÅ” mainÄ«gais tiek pievienots modelim, nosaka tÄ nozÄ«mÄ«gums. To var aprÄÄ·inÄt, izmantojot dažÄdus rÄdÄ«tÄjus. VisizplatÄ«tÄkais veids ir izmantot sÄkotnÄjÄ statistikas modelÄ« iegÅ«tÄs p vÄrtÄ«bas, izmantojot visus mainÄ«gos. DažkÄrt izvÄle uz priekÅ”u var novest pie modeļa pÄrmÄrÄ«Å”anas, jo modelÄ« var bÅ«t ļoti korelÄti mainÄ«gie, pat ja tie modelim sniedz tÄdu paÅ”u informÄciju (taÄu modelÄ« joprojÄm ir uzlabojumi).
ApgrieztÄ izvÄle
ApgrieztÄ atlase ietver arÄ« pakÄpenisku pazÄ«mju likvidÄÅ”anu, bet pretÄjÄ virzienÄ, salÄ«dzinot ar atlasi uz priekÅ”u. Å ajÄ gadÄ«jumÄ sÄkotnÄjais modelis ietver visus neatkarÄ«gos mainÄ«gos. PÄc tam mainÄ«gie tiek izslÄgti (viens katrÄ iterÄcijÄ), ja tie nesniedz vÄrtÄ«bu jaunajam regresijas modelim katrÄ iterÄcijÄ. Funkciju izslÄgÅ”ana balstÄs uz sÄkotnÄjÄ modeļa p vÄrtÄ«bÄm. Å ai metodei ir arÄ« nenoteiktÄ«ba, noÅemot ļoti korelÄtus mainÄ«gos.
RekursÄ«vo funkciju likvidÄÅ”ana
RFE ir plaÅ”i izmantots paÅÄmiens/algoritms, lai atlasÄ«tu precÄ«zu nozÄ«mÄ«go pazÄ«mju skaitu. Dažreiz Å”o metodi izmanto, lai izskaidrotu vairÄkas āsvarÄ«gÄkÄsā pazÄ«mes, kas ietekmÄ rezultÄtus; un dažreiz samazinÄt ļoti lielu mainÄ«go skaitu (apmÄram 200ā400), un tiek saglabÄti tikai tie, kas dod vismaz kÄdu ieguldÄ«jumu modelÄ«, un visi pÄrÄjie tiek izslÄgti. RFE izmanto ranžÄÅ”anas sistÄmu. Datu kopas pazÄ«mÄm tiek pieŔķirtas pakÄpes. PÄc tam Ŕīs rindas tiek izmantotas, lai rekursÄ«vi likvidÄtu pazÄ«mes, pamatojoties uz to kolinearitÄti un Å”o pazÄ«mju nozÄ«mi modelÄ«. Papildus ranžÄÅ”anas funkcijÄm RFE var parÄdÄ«t, vai Ŕīs funkcijas ir svarÄ«gas vai pat nÄ noteiktam objektu skaitam (jo ļoti iespÄjams, ka atlasÄ«tais lÄ«dzekļu skaits var nebÅ«t optimÄls un optimÄlais funkciju skaits var bÅ«t vai nu vairÄk vai mazÄks par izvÄlÄto skaitli).
Funkciju svarīguma diagramma
RunÄjot par maŔīnmÄcÄ«Å”anÄs algoritmu interpretÄjamÄ«bu, mÄs parasti apspriežam lineÄrÄs regresijas (kas ļauj analizÄt pazÄ«mju nozÄ«mi, izmantojot p-vÄrtÄ«bas) un lÄmumu kokus (burtiski parÄda pazÄ«mju nozÄ«mi koka formÄ, un pie tajÄ paÅ”Ä laikÄ to hierarhija). No otras puses, tÄdi algoritmi kÄ Random Forest, LightGBM un XG Boost bieži izmanto funkciju svarÄ«guma diagrammu, tas ir, tiek uzzÄ«mÄta mainÄ«go lielumu un āto svarÄ«guma skaitļuā diagramma. Tas ir Ä«paÅ”i noderÄ«gi, ja jums ir nepiecieÅ”ams strukturÄts pamatojums atribÅ«tu nozÄ«mei, Åemot vÄrÄ to ietekmi uz uzÅÄmÄjdarbÄ«bu.
RegularizÄcija
RegularizÄcija tiek veikta, lai kontrolÄtu lÄ«dzsvaru starp neobjektivitÄti un dispersiju. Novirze parÄda, cik daudz modelis ir pÄrspÄ«lÄts apmÄcÄ«bas datu kopÄ. Novirze parÄda, cik atŔķirÄ«gas bija prognozes starp apmÄcÄ«bas un testa datu kopÄm. IdeÄlÄ gadÄ«jumÄ gan novirzÄm, gan novirzÄm jÄbÅ«t mazÄm. Å eit palÄ«gÄ nÄk legalizÄcija! Ir divas galvenÄs metodes:
L1 RegularizÄcija ā Lasso: Lasso piemÄro sodu modeļa svÄrumiem, lai mainÄ«tu to nozÄ«mi modelÄ«, un pat var tos atcelt (t.i., noÅemt Å”os mainÄ«gos no galÄ«gÄ modeļa). Parasti Lasso tiek izmantots, ja datu kopÄ ir liels skaits mainÄ«go un jÅ«s vÄlaties izslÄgt dažus no tiem, lai labÄk izprastu, kÄ svarÄ«gi lÄ«dzekļi ietekmÄ modeli (tas ir, tÄs funkcijas, kuras ir atlasÄ«jis Lasso un kurÄm ir pieŔķirta nozÄ«me).
L2 RegularizÄcija ā Ridža metode: Ridža uzdevums ir saglabÄt visus mainÄ«gos un vienlaikus pieŔķirt tiem nozÄ«mi, pamatojoties uz to ieguldÄ«jumu modeļa veiktspÄjÄ. Ridge bÅ«s laba izvÄle, ja datu kopÄ ir neliels skaits mainÄ«go un tie visi ir nepiecieÅ”ami, lai interpretÄtu iegÅ«tos konstatÄjumus un rezultÄtus.
TÄ kÄ Ridge saglabÄ visus mainÄ«gos un Lasso veic labÄku darbu, lai noteiktu to nozÄ«mi, tika izstrÄdÄts algoritms, kas apvieno abu regularizÄciju labÄkÄs Ä«paŔības, kas pazÄ«stamas kÄ Elastic-Net.
Ir daudz vairÄk veidu, kÄ atlasÄ«t lÄ«dzekļus maŔīnmÄcÄ«bai, taÄu galvenÄ ideja vienmÄr ir viena: demonstrÄjiet mainÄ«go nozÄ«mi un pÄc tam noÅemiet dažus no tiem, pamatojoties uz iegÅ«to nozÄ«mi. SvarÄ«gums ir ļoti subjektÄ«vs termins, jo tas nav tikai viens, bet gan vesels metrikas un diagrammu kopums, ko var izmantot, lai atrastu galvenos atribÅ«tus.
Paldies par lasÄ«Å”anu! LaimÄ«gu mÄcÄ«Å”anos!
Avots: www.habr.com