Khetho ea likarolo thutong ea mochini

Hey Habr!

Rōna ba Reksoft re ile ra fetolela sehlooho seo Serussia Khetho ea Likarolo Thutong ea Mochini. Re tšepa hore e tla ba molemo ho bohle ba thahasellang sehlooho sena.

Lefatšeng la 'nete, data ha e lule e hloekile joalo ka ha bareki ba khoebo ba nahana ka linako tse ling. Ke ka lebaka leo merafo ea data le likhohlano tsa data li batloang. E thusa ho tseba boleng le lipaterone tse sieo ho data e hlophisitsoeng eo batho ba ke keng ba e tseba. E le hore u fumane le ho sebelisa mekhoa ena ho bolela esale pele liphetho u sebelisa likamano tse sibollotsoeng ho data, ho ithuta ka mochine ho tla ba molemo.

Ho utloisisa algorithm efe kapa efe, o hloka ho sheba mefuta eohle ea data mme o fumane hore na mefuta eo e emela eng. Sena ke sa bohlokoa hobane lebaka la sephetho le ipapisitse le ho utloisisa data. Haeba data e na le mefuta e 5 kapa e 50, u ka e hlahloba kaofela. Ho thoe'ng haeba ho na le tse 200 tsa tsona? Joale ho ke ke ha ba le nako e lekaneng ea ho ithuta mofuta o mong le o mong. Ho feta moo, li-algorithms tse ling ha li sebetse bakeng sa data ea categorical, 'me joale u tla tlameha ho fetolela litšiea tsohle tsa categorical ho li-variables tse ngata (li ka shebahala li le ngata, empa metrics e tla bontša hore ke categorical) ho li kenyelletsa ho mohlala. Kahoo, palo ea mefuta-futa ea eketseha, 'me ho na le tse ka bang 500. Ho etsoa'ng hona joale? Motho a ka 'na a nahana hore karabo e tla be e le ho fokotsa dimensionality. Li-algorithms tsa phokotso ea litekanyo li fokotsa palo ea liparamente empa li na le phello e mpe ho tolokong. Ho thoe'ng haeba ho e-na le mekhoa e meng e tlosang likarolo ha e ntse e etsa hore tse setseng li be bonolo ho li utloisisa le ho li hlalosa?

Ho ipapisitse le hore na tlhahlobo e ipapisitse le ho fokotseha kapa ho hlophisoa, li-algorithms tsa khetho ea likarolo li ka fapana, empa mohopolo oa mantlha oa ts'ebetsong ea bona o ntse o tšoana.

Liphetoho tse amanang haholo

Liphetoho tse amanang haholo le tse ling li fana ka boitsebiso bo tšoanang ho mohlala, kahoo ha ho hlokahale hore u li sebelise kaofela bakeng sa tlhahlobo. Ka mohlala, haeba dataset e na le "Nako ea Marang-rang" le "Tšebeliso ea Sephethephethe", re ka nahana hore li tla amana ka tsela e itseng, 'me re tla bona khokahanyo e matla le haeba re khetha sampole ea data e hlokang leeme. Tabeng ena, ho hlokahala e le 'ngoe feela ea mefuta e fapaneng ea mohlala. Haeba u li sebelisa ka bobeli, mohlala o tla be o fetisitsoe ho feta tekano 'me o leeme tšobotsing e itseng.

P-litekanyetso

Ho li-algorithms tse kang linear regression, mohlala oa pele oa lipalo ke mohopolo o motle kamehla. E thusa ho bonts'a bohlokoa ba likarolo ka li-p-values ​​tsa bona tse fumanoeng ke mohlala ona. Ha re se re behile boemo ba bohlokoa, re hlahloba litekanyetso tsa p, 'me haeba boleng leha e le bofe bo ka tlaase ho tekanyo ea bohlokoa e boletsoeng, joale tšobotsi ena e boleloa e le ea bohlokoa, ke hore, phetoho ea boleng ba eona e ka lebisa phetohong ea boleng ba eona. sepheo.

Khetho e tobileng

Kgetho ya pele ke thekniki yeo e akaretšago go šomiša poelo morago ga kgato. Mohaho oa mohlala o qala ka zero e feletseng, ke hore, mohlala o se nang letho, 'me e' ngoe le e 'ngoe e pheta-pheta e eketsa phetoho e etsang ntlafatso ea mohlala o hahiloeng. Ke phetoho efe e kenyelletsoeng ho mohlala e khethoa ke bohlokoa ba eona. Sena se ka baloa ho sebelisoa metrics e fapaneng. Mokhoa o atileng haholo ke ho sebelisa li-p-values ​​tse fumanoeng mofuteng oa lipalo oa mantlha u sebelisa mefuta eohle. Ka linako tse ling khetho e tobileng e ka lebisa ho fetelletseng ea mohlala hobane ho ka 'na ha e-ba le mefuta e mengata e amanang le mohlala, le haeba e fana ka boitsebiso bo tšoanang ho mohlala (empa mohlala o ntse o bontša ntlafatso).

Kgetho ya morao

Khetho e khutlisetsang morao e boetse e kenyelletsa ho felisoa ha mekhoa ea mohato ka mohato, empa ka lehlakoreng le leng ha ho bapisoa le khetho ea pele. Tabeng ena, mohlala oa pele o kenyelletsa mefuta eohle e ikemetseng. Liphetoho li tlosoa (e le 'ngoe ka ho pheta-pheta) haeba li sa fane ka boleng ho mokhoa o mocha oa ho fokotsa nako e' ngoe le e 'ngoe. Ho qheleloa ka thoko ho ipapisitse le boleng ba p ba mofuta oa pele. Mokhoa ona o boetse o na le ho hloka botsitso ha o tlosa mefuta e amanang haholo.

Pheliso ea Sebopeho sa Recursive

RFE ke mokhoa o sebelisoang haholo / algorithm bakeng sa ho khetha palo e nepahetseng ea likarolo tsa bohlokoa. Ka linako tse ling mokhoa o sebelisoa ho hlalosa likarolo tse ngata tsa "bohlokoa ka ho fetisisa" tse susumetsang liphello; 'me ka linako tse ling ho fokotsa palo e kholo haholo ea mefuta-futa (hoo e ka bang 200-400),' me ke feela ba etsang karolo ea bonyane monehelo oa mohlala ba bolokiloe, 'me ba bang kaofela ha ba kenyelletsoe. RFE e sebelisa sistimi ea maemo. Likarolo tse ho sete ea data li abetsoe maemo. Joale maemo ana a sebelisoa ho felisa likarolo tse ipapisitseng le collinearity pakeng tsa tsona le bohlokoa ba likarolo tseo tsa mohlala. Ntle le likarolo tsa maemo, RFE e ka bonts'a hore na likarolo tsena li bohlokoa kapa che bakeng sa palo e fanoeng ea likarolo (hobane ho ka etsahala hore palo e khethiloeng ea likarolo e se be e nepahetseng, 'me palo e nepahetseng ea likarolo e kanna ea ba ho feta. kapa ka tlase ho palo e khethiloeng).

Setšoantšo sa Bohlokoa ba Tšobotsi

Ha re bua ka ho toloka ha li-algorithms tsa ho ithuta mochini, hangata re bua ka li-regressions tsa mela (tse u lumellang ho sekaseka bohlokoa ba likarolo u sebelisa litekanyetso tsa p) le lifate tsa liqeto (ka ho toba li bonts'a bohlokoa ba likarolo ka sebopeho sa sefate, ka nako e le nngwe bolaodi ba bona). Ka lehlakoreng le leng, li-algorithms tse kang Random Forest, LightGBM le XG Boost hangata li sebelisa setšoantšo sa bohlokoa ba likarolo, ke hore, setšoantšo sa mefuta-futa le "linomoro tsa tsona tsa bohlokoa" li reriloe. Sena se bohlokoa haholo ha o hloka ho fana ka mabaka a hlophisitsoeng bakeng sa bohlokoa ba litšoaneleho ho latela phello ea tsona khoebong.

Regularization

Regularization e etsoa ho laola tekano lipakeng tsa leeme le phapang. Bias e bonts'a hore na mohlala o fetelletse hakae ho sete ea data ea koetliso. Phapang e bonts'a hore na likhakanyo li ne li fapane joang lipakeng tsa lithupelo le li-database tsa liteko. Ha e le hantle, ka bobeli leeme le phapang li lokela ho ba tse nyane. Mona ke moo ho etsa lintho kamehla ho thusang! Ho na le mekhoa e 'meli ea mantlha:

L1 Regularization - Lasso: Lasso e fana ka kotlo ea litekanyo tsa mohlala ho fetola bohlokoa ba tsona ho mohlala mme e ka ba ea li hlakola (ke hore, tlosa mefuta eo mofuteng oa ho qetela). Ka tloaelo, Lasso e sebelisoa ha dataset e na le palo e kholo ea mefuta-futa 'me u batla ho kenyelletsa tse ling tsa tsona ho utloisisa hantle hore na likarolo tsa bohlokoa li ama mohlala joang (ke hore, likarolo tseo tse khethiloeng ke Lasso le ho abeloa bohlokoa).

L2 Regularization - Mokhoa oa Ridge: Mosebetsi oa Ridge ke ho boloka mefuta eohle 'me ka nako e ts'oanang a abela bohlokoa ho bona ho latela tlatsetso ea bona ts'ebetsong ea mohlala. Ridge e tla ba khetho e ntle haeba dataset e na le palo e nyane ea mefuta-futa 'me kaofela ha eona e hlokahala ho hlalosa liphetho le liphetho tse fumanoeng.

Kaha Ridge e boloka mefuta eohle ea mefuta-futa 'me Lasso e etsa mosebetsi o betere oa ho theha bohlokoa ba tsona, ho ile ha etsoa algorithm e kopanyang likarolo tse ntle ka ho fetisisa tsa maemo a mabeli a tloaelehileng, a tsejoang e le Elastic-Net.

Ho na le mekhoa e meng e mengata ea ho khetha likarolo tsa ho ithuta mochini, empa mohopolo o ka sehloohong o lula o tšoana: bonts'a bohlokoa ba mefuta-futa ebe o tlosa tse ling tsa tsona ho latela bohlokoa bo hlahisitsoeng. Bohlokoa ke lentsoe le ikhethileng haholo, kaha ha se le le leng feela, empa ke sete e felletseng ea metrics le lichate tse ka sebelisoang ho fumana litšobotsi tsa bohlokoa.

Kea leboha ha u bala! Ho ithuta ho thabisang!

Source: www.habr.com

Eketsa ka tlhaloso