Taghadh feart ann an ionnsachadh inneal

Hi Habr!

Dh’eadar-theangaich sinne aig Reksoft an artaigil gu Ruisis Taghadh Feart ann an Ionnsachadh Inneal. Tha sinn an dòchas gum bi e feumail dhan a h-uile duine aig a bheil ùidh sa chuspair.

Anns an fhìor shaoghal, chan eil dàta an-còmhnaidh cho glan ‘s a tha luchd-ceannach gnìomhachais a’ smaoineachadh uaireannan. Sin as coireach gu bheil iarrtas mòr air mèinneadh dàta agus crathadh dàta. Bidh e a’ cuideachadh le bhith ag aithneachadh luachan agus pàtrain a tha a dhìth ann an dàta le structar ceist nach urrainn dha daoine aithneachadh. Gus na pàtrain sin a lorg agus a chleachdadh gus toraidhean a ro-innse a’ cleachdadh dàimhean a chaidh a lorg anns an dàta, tha ionnsachadh innealan feumail.

Gus algairim sam bith a thuigsinn, feumaidh tu coimhead air na caochladairean uile san dàta agus obraich a-mach dè a tha na caochladairean sin a’ riochdachadh. Tha seo deatamach oir tha an fheallsanachd air cùl nan toraidhean stèidhichte air tuigse air an dàta. Ma tha 5 no eadhon caochladairean 50 anns an dàta, faodaidh tu sgrùdadh a dhèanamh orra uile. Dè ma tha 200 dhiubh ann? An uairsin cha bhith ùine gu leòr ann airson a h-uile caochladair a sgrùdadh. A bharrachd air an sin, chan eil cuid de algorithms ag obair airson dàta gnèitheach, agus an uairsin feumaidh tu na colbhan gnèitheach gu lèir a thionndadh gu caochladairean cainneachdail (is dòcha gum bi iad a’ coimhead cainneachdail, ach seallaidh na meatrach gu bheil iad gnèitheach) gus an cur ris a’ mhodail. Mar sin, tha an àireamh de chaochladairean ag àrdachadh, agus tha mu 500 dhiubh ann. Dè a nì thu a-nis? Is dòcha gum bi aon a’ smaoineachadh gur e am freagairt meudachd a lughdachadh. Bidh algorithms lughdachadh meudachd a’ lughdachadh an àireamh de pharamadairean ach a’ toirt droch bhuaidh air eadar-mhìneachadh. Dè ma tha dòighean eile ann a chuireas às do fheartan agus a nì an fheadhainn a tha air fhàgail furasta a thuigsinn agus a mhìneachadh?

A rèir a bheil am mion-sgrùdadh stèidhichte air ais-tharraing no seòrsachadh, faodaidh na h-algorithms taghaidh feart a bhith eadar-dhealaichte, ach tha am prìomh bheachd air an cur an gnìomh fhathast mar a tha e.

Caochlaidhean fìor cho-cheangailte

Bidh caochladairean a tha gu math co-cheangailte ri chèile a’ toirt an aon fhiosrachadh don mhodail, agus mar sin chan fheumar an cleachdadh uile airson mion-sgrùdadh. Mar eisimpleir, ma tha na feartan “Online Time” agus “Trafaic Used” ann an stòr-dàta, faodaidh sinn gabhail ris gum bi iad beagan co-cheangailte, agus chì sinn co-dhàimh làidir eadhon ged a thaghas sinn sampall dàta neo-phàirteach. Anns a 'chùis seo, chan eil ach aon de na caochladairean sin a dhìth anns a' mhodail. Ma chleachdas tu an dà chuid, bidh am modail air a chuir thairis agus air a chlaonadh a dh’ ionnsaigh aon fheart sònraichte.

P-luachan

Ann an algorithms leithid ais-tharraing sreathach, tha modal staitistigeil tùsail an-còmhnaidh na dheagh bheachd. Bidh e a’ cuideachadh le bhith a’ sealltainn cho cudromach sa tha na feartan tro na luachan-p aca a fhuair am modail seo. Às deidh dhuinn an ìre brìgh a shuidheachadh, bidh sinn a’ sgrùdadh nan luachan-p a thig às, agus ma tha luach sam bith nas ìsle na an ìre brìgh ainmichte, tha am feart seo air ainmeachadh cudromach, is e sin, ma dh’ atharraicheas a luach is dòcha gun lean sin atharrachadh ann an luach. an targaid.

Taghadh dìreach

Tha taghadh air adhart na dhòigh-obrach a tha a’ toirt a-steach a bhith a’ cleachdadh ais-tharraing mean air mhean. Bidh togail modail a’ tòiseachadh le neoni iomlan, is e sin, modail falamh, agus an uairsin bidh gach tionndadh a’ cur caochladair a nì leasachadh air a’ mhodail a thathar a’ togail. Tha an caochladair a thèid a chur ris a’ mhodail air a dhearbhadh leis cho cudromach sa tha e. Faodar seo a thomhas a’ cleachdadh diofar shlatan-tomhais. Is e an dòigh as cumanta na luachan-p a gheibhear anns a’ mhodail staitistigeil thùsail a chleachdadh a’ cleachdadh a h-uile caochladair. Aig amannan faodaidh taghadh air adhart leantainn gu bhith a’ dèanamh cus de mhodail oir dh’ fhaodadh gu bheil caochladairean gu math co-cheangailte sa mhodail, eadhon ged a bheir iad an aon fhiosrachadh don mhodail (ach tha am modail fhathast a’ nochdadh leasachadh).

Taghadh air ais

Tha taghadh cùil cuideachd a’ toirt a-steach cuir às do fheartan ceum air cheum, ach an taobh eile an taca ri taghadh air adhart. Anns a 'chùis seo, tha a' chiad mhodail a 'gabhail a-steach a h-uile caochladair neo-eisimeileach. Bithear an uairsin a’ cuir às do chaochladairean (aon airson gach tionndadh) mura cuir iad luach ris a’ mhodail ath-thòiseachaidh ùr anns gach tionndadh. Tha às-dùnadh feart stèidhichte air luachan-p a’ chiad mhodail. Tha mì-chinnt aig an dòigh seo cuideachd nuair a bheir thu air falbh caochladairean fìor cho-cheangailte.

Cur às do fheart ath-chuairteach

Tha RFE na innleachd/algorithm air a chleachdadh gu farsaing airson an dearbh àireamh de fheartan cudromach a thaghadh. Uaireannan thathar a’ cleachdadh an dòigh gus grunn fheartan “as cudromaiche” a mhìneachadh a bheir buaidh air toraidhean; agus uaireannan gus àireamh glè mhòr de chaochladairean a lughdachadh (mu 200-400), agus chan eil ach an fheadhainn a tha a’ cur co-dhiù beagan ris a’ mhodail air an gleidheadh, agus a h-uile càil eile air an dùnadh a-mach. Bidh RFE a’ cleachdadh siostam rangachaidh. Tha na feartan anns an t-seata dàta nan ìrean ainmichte. Tha na h-ìrean sin an uairsin air an cleachdadh gus cuir às do fheartan ath-chuairteach stèidhichte air a’ cho-chòrdachd eatorra agus cho cudromach sa tha na feartan sin sa mhodail. A bharrachd air feartan rangachadh, faodaidh RFE sealltainn a bheil na feartan sin cudromach no nach eil eadhon airson àireamh sònraichte de fheartan (seach gu bheil e glè choltach gur dòcha nach bi an àireamh de fheartan taghte as fheàrr, agus gum faodadh an àireamh as fheàrr de fheartan a bhith nas motha. no nas lugha na an àireamh taghte).

Sgeama Cudromachd Feart

Nuair a bhios sinn a 'bruidhinn mu dheidhinn eadar-mhìneachaidh algorithms ionnsachadh innealan, mar as trice bidh sinn a' beachdachadh air ath-thionndaidhean sreathach (a leigeas leat sgrùdadh a dhèanamh air cho cudromach 'sa tha feartan a' cleachdadh p-luachan) agus craobhan co-dhùnaidhean (gu litearra a 'sealltainn cho cudromach sa tha feartan ann an cruth craoibhe, agus aig an aig an aon àm an rangachd). Air an làimh eile, bidh algorithms leithid Random Forest, LightGBM agus XG Boost gu tric a’ cleachdadh diagram cudromachd feart, is e sin, diagram de chaochladairean agus “na h-àireamhan cudromachd aca” air an dealbhadh. Tha seo gu sònraichte feumail nuair a dh’ fheumas tu feallsanachd structarail a thoirt seachad airson cho cudromach sa tha feartan a thaobh a’ bhuaidh a th’ aca air a’ ghnìomhachas.

Riaghladh

Bithear a’ dèanamh cunbhalachadh gus smachd a chumail air a’ chothromachadh eadar claonadh agus caochlaidheachd. Tha bias a’ sealltainn na tha am modail air cus uidheamachadh air an t-seata dàta trèanaidh. Tha an claonadh a’ sealltainn cho eadar-dhealaichte ‘s a bha na ro-innsean eadar an trèanadh agus an dàta deuchainn. Gu h-iomchaidh, bu chòir an dà chuid claonadh agus eadar-dhealachadh a bhith beag. Seo far a bheil riaghailteachadh a 'tighinn gu teasairginn! Tha dà phrìomh dhòigh ann:

Riaghladh L1 - Lasso: Bidh Lasso a’ peanasachadh cuideaman modail gus an cudromachd don mhodail atharrachadh agus faodaidh e eadhon an cur air falbh (ie na caochladairean sin a thoirt air falbh bhon mhodail dheireannach). Mar as trice, bidh Lasso air a chleachdadh nuair a tha àireamh mhòr de chaochladairean ann an stòr-dàta agus tha thu airson cuid dhiubh a chuir a-mach gus tuigse nas fheàrr fhaighinn air mar a tha feartan cudromach a’ toirt buaidh air a ’mhodail (is e sin, na feartan sin a chaidh a thaghadh le Lasso agus a chaidh a shònrachadh cudromach).

Riaghladh L2 - Modh Ridge: Is e obair Ridge na caochladairean gu lèir a stòradh agus aig an aon àm cudrom a shònrachadh dhaibh stèidhichte air na tha iad a’ cur ri coileanadh a’ mhodail. Bidh Ridge na dheagh roghainn ma tha àireamh bheag de chaochladairean anns an t-seata dàta agus tha iad uile riatanach gus na co-dhùnaidhean agus na toraidhean a gheibhear a mhìneachadh.

Leis gu bheil Ridge a’ cumail a h-uile caochladair agus Lasso a’ dèanamh obair nas fheàrr ann a bhith a’ stèidheachadh an cudromachd, chaidh algairim a leasachadh a tha a’ cothlamadh nam feartan as fheàrr den dà riaghailt, ris an canar Elastic-Net.

Tha mòran a bharrachd dhòighean ann airson feartan a thaghadh airson ionnsachadh innealan, ach tha am prìomh bheachd an-còmhnaidh mar an ceudna: sealltainn cho cudromach sa tha caochladairean agus an uairsin cuir às do chuid dhiubh stèidhichte air cho cudromach sa tha iad. Tha cudromachd na theirm gu math cuspaireil, leis nach e dìreach aon a th’ ann, ach seata slàn de mheatairean agus chlàran a ghabhas cleachdadh gus prìomh bhuadhan a lorg.

Tapadh leibh airson an leughadh! Ionnsachadh sona!

Source: www.habr.com

Cuir beachd ann