Hi Habr!
Dhâeadar-theangaich sinne aig Reksoft an artaigil gu Ruisis . Tha sinn an dòchas gum bi e feumail dhan a h-uile duine aig a bheil Ăšidh sa chuspair.
Anns an fhĂŹor shaoghal, chan eil dĂ ta an-còmhnaidh cho glan âs a tha luchd-ceannach gnĂŹomhachais aâ smaoineachadh uaireannan. Sin as coireach gu bheil iarrtas mòr air mèinneadh dĂ ta agus crathadh dĂ ta. Bidh e aâ cuideachadh le bhith ag aithneachadh luachan agus pĂ train a tha a dhĂŹth ann an dĂ ta le structar ceist nach urrainn dha daoine aithneachadh. Gus na pĂ train sin a lorg agus a chleachdadh gus toraidhean a ro-innse aâ cleachdadh dĂ imhean a chaidh a lorg anns an dĂ ta, tha ionnsachadh innealan feumail.
Gus algairim sam bith a thuigsinn, feumaidh tu coimhead air na caochladairean uile san dĂ ta agus obraich a-mach dè a tha na caochladairean sin aâ riochdachadh. Tha seo deatamach oir tha an fheallsanachd air cĂšl nan toraidhean stèidhichte air tuigse air an dĂ ta. Ma tha 5 no eadhon caochladairean 50 anns an dĂ ta, faodaidh tu sgrĂšdadh a dhèanamh orra uile. Dè ma tha 200 dhiubh ann? An uairsin cha bhith Ăšine gu leòr ann airson a h-uile caochladair a sgrĂšdadh. A bharrachd air an sin, chan eil cuid de algorithms ag obair airson dĂ ta gnèitheach, agus an uairsin feumaidh tu na colbhan gnèitheach gu lèir a thionndadh gu caochladairean cainneachdail (is dòcha gum bi iad aâ coimhead cainneachdail, ach seallaidh na meatrach gu bheil iad gnèitheach) gus an cur ris aâ mhodail. Mar sin, tha an Ă ireamh de chaochladairean ag Ă rdachadh, agus tha mu 500 dhiubh ann. Dè a nĂŹ thu a-nis? Is dòcha gum bi aon aâ smaoineachadh gur e am freagairt meudachd a lughdachadh. Bidh algorithms lughdachadh meudachd aâ lughdachadh an Ă ireamh de pharamadairean ach aâ toirt droch bhuaidh air eadar-mhĂŹneachadh. Dè ma tha dòighean eile ann a chuireas Ă s do fheartan agus a nĂŹ an fheadhainn a tha air fhĂ gail furasta a thuigsinn agus a mhĂŹneachadh?
A rèir a bheil am mion-sgrÚdadh stèidhichte air ais-tharraing no seòrsachadh, faodaidh na h-algorithms taghaidh feart a bhith eadar-dhealaichte, ach tha am prÏomh bheachd air an cur an gnÏomh fhathast mar a tha e.
Caochlaidhean fĂŹor cho-cheangailte
Bidh caochladairean a tha gu math co-cheangailte ri chèile aâ toirt an aon fhiosrachadh don mhodail, agus mar sin chan fheumar an cleachdadh uile airson mion-sgrĂšdadh. Mar eisimpleir, ma tha na feartan âOnline Timeâ agus âTrafaic Usedâ ann an stòr-dĂ ta, faodaidh sinn gabhail ris gum bi iad beagan co-cheangailte, agus chĂŹ sinn co-dhĂ imh lĂ idir eadhon ged a thaghas sinn sampall dĂ ta neo-phĂ irteach. Anns a 'chĂšis seo, chan eil ach aon de na caochladairean sin a dhĂŹth anns a' mhodail. Ma chleachdas tu an dĂ chuid, bidh am modail air a chuir thairis agus air a chlaonadh a dhâ ionnsaigh aon fheart sònraichte.
P-luachan
Ann an algorithms leithid ais-tharraing sreathach, tha modal staitistigeil tĂšsail an-còmhnaidh na dheagh bheachd. Bidh e aâ cuideachadh le bhith aâ sealltainn cho cudromach sa tha na feartan tro na luachan-p aca a fhuair am modail seo. Ăs deidh dhuinn an ĂŹre brĂŹgh a shuidheachadh, bidh sinn aâ sgrĂšdadh nan luachan-p a thig Ă s, agus ma tha luach sam bith nas ĂŹsle na an ĂŹre brĂŹgh ainmichte, tha am feart seo air ainmeachadh cudromach, is e sin, ma dhâ atharraicheas a luach is dòcha gun lean sin atharrachadh ann an luach. an targaid.
Taghadh dĂŹreach
Tha taghadh air adhart na dhòigh-obrach a tha aâ toirt a-steach a bhith aâ cleachdadh ais-tharraing mean air mhean. Bidh togail modail aâ tòiseachadh le neoni iomlan, is e sin, modail falamh, agus an uairsin bidh gach tionndadh aâ cur caochladair a nĂŹ leasachadh air aâ mhodail a thathar aâ togail. Tha an caochladair a thèid a chur ris aâ mhodail air a dhearbhadh leis cho cudromach sa tha e. Faodar seo a thomhas aâ cleachdadh diofar shlatan-tomhais. Is e an dòigh as cumanta na luachan-p a gheibhear anns aâ mhodail staitistigeil thĂšsail a chleachdadh aâ cleachdadh a h-uile caochladair. Aig amannan faodaidh taghadh air adhart leantainn gu bhith aâ dèanamh cus de mhodail oir dhâ fhaodadh gu bheil caochladairean gu math co-cheangailte sa mhodail, eadhon ged a bheir iad an aon fhiosrachadh don mhodail (ach tha am modail fhathast aâ nochdadh leasachadh).
Taghadh air ais
Tha taghadh cĂšil cuideachd aâ toirt a-steach cuir Ă s do fheartan ceum air cheum, ach an taobh eile an taca ri taghadh air adhart. Anns a 'chĂšis seo, tha a' chiad mhodail a 'gabhail a-steach a h-uile caochladair neo-eisimeileach. Bithear an uairsin aâ cuir Ă s do chaochladairean (aon airson gach tionndadh) mura cuir iad luach ris aâ mhodail ath-thòiseachaidh Ăšr anns gach tionndadh. Tha Ă s-dĂšnadh feart stèidhichte air luachan-p aâ chiad mhodail. Tha mĂŹ-chinnt aig an dòigh seo cuideachd nuair a bheir thu air falbh caochladairean fĂŹor cho-cheangailte.
Cur Ă s do fheart ath-chuairteach
Tha RFE na innleachd/algorithm air a chleachdadh gu farsaing airson an dearbh Ă ireamh de fheartan cudromach a thaghadh. Uaireannan thathar aâ cleachdadh an dòigh gus grunn fheartan âas cudromaicheâ a mhĂŹneachadh a bheir buaidh air toraidhean; agus uaireannan gus Ă ireamh glè mhòr de chaochladairean a lughdachadh (mu 200-400), agus chan eil ach an fheadhainn a tha aâ cur co-dhiĂš beagan ris aâ mhodail air an gleidheadh, agus a h-uile cĂ il eile air an dĂšnadh a-mach. Bidh RFE aâ cleachdadh siostam rangachaidh. Tha na feartan anns an t-seata dĂ ta nan ĂŹrean ainmichte. Tha na h-ĂŹrean sin an uairsin air an cleachdadh gus cuir Ă s do fheartan ath-chuairteach stèidhichte air aâ cho-chòrdachd eatorra agus cho cudromach sa tha na feartan sin sa mhodail. A bharrachd air feartan rangachadh, faodaidh RFE sealltainn a bheil na feartan sin cudromach no nach eil eadhon airson Ă ireamh sònraichte de fheartan (seach gu bheil e glè choltach gur dòcha nach bi an Ă ireamh de fheartan taghte as fheĂ rr, agus gum faodadh an Ă ireamh as fheĂ rr de fheartan a bhith nas motha. no nas lugha na an Ă ireamh taghte).
Sgeama Cudromachd Feart
Nuair a bhios sinn a 'bruidhinn mu dheidhinn eadar-mhĂŹneachaidh algorithms ionnsachadh innealan, mar as trice bidh sinn a' beachdachadh air ath-thionndaidhean sreathach (a leigeas leat sgrĂšdadh a dhèanamh air cho cudromach 'sa tha feartan a' cleachdadh p-luachan) agus craobhan co-dhĂšnaidhean (gu litearra a 'sealltainn cho cudromach sa tha feartan ann an cruth craoibhe, agus aig an aig an aon Ă m an rangachd). Air an lĂ imh eile, bidh algorithms leithid Random Forest, LightGBM agus XG Boost gu tric aâ cleachdadh diagram cudromachd feart, is e sin, diagram de chaochladairean agus âna h-Ă ireamhan cudromachd acaâ air an dealbhadh. Tha seo gu sònraichte feumail nuair a dhâ fheumas tu feallsanachd structarail a thoirt seachad airson cho cudromach sa tha feartan a thaobh aâ bhuaidh a thâ aca air aâ ghnĂŹomhachas.
Riaghladh
Bithear aâ dèanamh cunbhalachadh gus smachd a chumail air aâ chothromachadh eadar claonadh agus caochlaidheachd. Tha bias aâ sealltainn na tha am modail air cus uidheamachadh air an t-seata dĂ ta trèanaidh. Tha an claonadh aâ sealltainn cho eadar-dhealaichte âs a bha na ro-innsean eadar an trèanadh agus an dĂ ta deuchainn. Gu h-iomchaidh, bu chòir an dĂ chuid claonadh agus eadar-dhealachadh a bhith beag. Seo far a bheil riaghailteachadh a 'tighinn gu teasairginn! Tha dĂ phrĂŹomh dhòigh ann:
Riaghladh L1 - Lasso: Bidh Lasso aâ peanasachadh cuideaman modail gus an cudromachd don mhodail atharrachadh agus faodaidh e eadhon an cur air falbh (ie na caochladairean sin a thoirt air falbh bhon mhodail dheireannach). Mar as trice, bidh Lasso air a chleachdadh nuair a tha Ă ireamh mhòr de chaochladairean ann an stòr-dĂ ta agus tha thu airson cuid dhiubh a chuir a-mach gus tuigse nas fheĂ rr fhaighinn air mar a tha feartan cudromach aâ toirt buaidh air a âmhodail (is e sin, na feartan sin a chaidh a thaghadh le Lasso agus a chaidh a shònrachadh cudromach).
Riaghladh L2 - Modh Ridge: Is e obair Ridge na caochladairean gu lèir a stòradh agus aig an aon Ă m cudrom a shònrachadh dhaibh stèidhichte air na tha iad aâ cur ri coileanadh aâ mhodail. Bidh Ridge na dheagh roghainn ma tha Ă ireamh bheag de chaochladairean anns an t-seata dĂ ta agus tha iad uile riatanach gus na co-dhĂšnaidhean agus na toraidhean a gheibhear a mhĂŹneachadh.
Leis gu bheil Ridge aâ cumail a h-uile caochladair agus Lasso aâ dèanamh obair nas fheĂ rr ann a bhith aâ stèidheachadh an cudromachd, chaidh algairim a leasachadh a tha aâ cothlamadh nam feartan as fheĂ rr den dĂ riaghailt, ris an canar Elastic-Net.
Tha mòran a bharrachd dhòighean ann airson feartan a thaghadh airson ionnsachadh innealan, ach tha am prĂŹomh bheachd an-còmhnaidh mar an ceudna: sealltainn cho cudromach sa tha caochladairean agus an uairsin cuir Ă s do chuid dhiubh stèidhichte air cho cudromach sa tha iad. Tha cudromachd na theirm gu math cuspaireil, leis nach e dĂŹreach aon a thâ ann, ach seata slĂ n de mheatairean agus chlĂ ran a ghabhas cleachdadh gus prĂŹomh bhuadhan a lorg.
Tapadh leibh airson an leughadh! Ionnsachadh sona!
Source: www.habr.com
