Ke koho hiʻohiʻona ma ke aʻo mīkini

E Habr!

Ua unuhi mākou ma Reksoft i ka ʻatikala ma ka ʻōlelo Lūkini Koho Hiʻona ma ke aʻo mīkini. Manaʻo mākou e lilo ia i mea pono i nā poʻe a pau e hoihoi i ke kumuhana.

I ka honua maoli, ʻaʻole maʻemaʻe mau ka ʻikepili e like me ka manaʻo o nā mea kūʻai aku ʻoihana. ʻO ia ke kumu e koi ʻia ai ka ʻimi ʻikepili a me ka hakakā ʻikepili. Kōkua ia i ka ʻike ʻana i nā waiwai nalowale a me nā ʻano i ka ʻikepili i hoʻonohonoho ʻia i ka nīnau i hiki ʻole i ke kanaka ke ʻike. I mea e ʻimi ai a hoʻohana i kēia mau hiʻohiʻona e wānana i nā hopena me ka hoʻohana ʻana i nā pilina i ʻike ʻia ma ka ʻikepili, hiki ke aʻo ʻia ka mīkini.

No ka hoʻomaopopo ʻana i kekahi algorithm, pono ʻoe e nānā i nā mea hoʻololi āpau i ka ʻikepili a e noʻonoʻo i ke ʻano o kēlā mau ʻano. He mea koʻikoʻi kēia no ka mea ʻo ke kumu o ka hopena ma muli o ka hoʻomaopopo ʻana i ka ʻikepili. Inā loaʻa i ka ʻikepili he 5 a i ʻole 50 mau mea hoʻololi, hiki iā ʻoe ke nānā iā lākou āpau. Pehea inā he 200 o lākou? A laila ʻaʻole lawa ka manawa e aʻo ai i kēlā me kēia ʻano hoʻololi. Eia kekahi, ʻaʻole hana kekahi mau algorithms no ka ʻikepili categorical, a laila pono ʻoe e hoʻohuli i nā kolamu categorical a pau i nā mea hoʻololi quantitative (hiki ke nānā aku i ka quantitative, akā e hōʻike ana nā metrics he categorical lākou) e hoʻohui iā lākou i ke kumu hoʻohālike. No laila, piʻi ka helu o nā mea hoʻololi, a aia ma kahi o 500. He aha ka hana i kēia manawa? Manaʻo paha kekahi ʻo ka pane e hōʻemi i ka dimensionality. ʻO nā algorithms hōʻemi dimensionality e hōʻemi i ka helu o nā ʻāpana akā he hopena maikaʻi ʻole i ka wehewehe. He aha inā inā loaʻa nā ʻenehana ʻē aʻe e hoʻopau i nā hiʻohiʻona ʻoiai e maʻalahi nā mea i koe e hoʻomaopopo a wehewehe?

Ma muli o ka hoʻokumu ʻana o ka loiloi i ka regression a i ʻole ka hoʻokaʻawale ʻana, ʻokoʻa paha nā hiʻohiʻona koho algorithm, akā mau ka manaʻo nui o kā lākou hoʻokō.

Nā Hoʻololi Hoʻopili Kiʻekiʻe

Hāʻawi nā ʻokoʻa i hoʻopili nui ʻia kekahi i kekahi i ka ʻike like i ke kumu hoʻohālike, no laila ʻaʻohe pono e hoʻohana iā lākou āpau no ka nānā ʻana. No ka laʻana, inā loaʻa i kahi ʻikepili nā hiʻohiʻona "Wahi Pūnaewele" a me "Hoʻohana Kaʻahele", hiki iā mākou ke manaʻo e hoʻopili ʻia ia mau mea, a e ʻike mākou i ka pilina ikaika ʻoiai inā mākou e koho i kahi laʻana ʻikepili pili ʻole. I kēia hihia, hoʻokahi wale nō o kēia mau mea hoʻololi e pono ai i ke kŘkohu. Inā ʻoe e hoʻohana i nā mea ʻelua, e hoʻopili ʻia ke kumu hoʻohālike a hoʻohālikelike ʻia i kahi hiʻohiʻona.

P-waiwai

I nā algorithms e like me ka regression linear, he manaʻo maikaʻi mau ke kumu hoʻohālike helu mua. Kōkua ia i ka hōʻike ʻana i ke koʻikoʻi o nā hiʻohiʻona ma o kā lākou p-waiwai i loaʻa i kēia kumu hoʻohālike. I ka hoʻonoho ʻana i ka pae koʻikoʻi, nānā mākou i nā waiwai p i loaʻa, a inā aia kekahi waiwai ma lalo o ka pae koʻikoʻi i ʻōlelo ʻia, a laila ua ʻōlelo ʻia kēia hiʻohiʻona koʻikoʻi, ʻo ia hoʻi, ʻo ka hoʻololi ʻana i kāna waiwai e alakaʻi i kahi hoʻololi i ka waiwai o ka pahu hopu.

Koho pololei

ʻO ke koho mua kahi ʻenehana e pili ana i ka hoʻohana ʻana i ka regression stepwise. Hoʻomaka ka hale hoʻohālike me ka ʻole piha, ʻo ia hoʻi, kahi kumu hoʻohālike, a laila hoʻohui kēlā me kēia hoʻololi i kahi loli e hoʻomaikaʻi ai i ke kumu hoʻohālike i kūkulu ʻia. ʻO ka mea hoʻololi i hoʻohui ʻia i ke kumu hoʻohālike e hoʻoholo ʻia e kona koʻikoʻi. Hiki ke helu ʻia kēia me ka hoʻohana ʻana i nā metric like ʻole. ʻO ke ala maʻamau ka hoʻohana ʻana i nā p-waiwai i loaʻa i ka hoʻohālike helu kumu me ka hoʻohana ʻana i nā ʻano like ʻole. I kekahi manawa, hiki ke koho i mua i ka hoʻopili ʻana i kahi kŘkohu no ka mea aia paha nā ʻano hoʻololi i hoʻopili pono ʻia i loko o ke kŘkohu, ʻoiai inā hāʻawi lākou i ka ʻike like i ke kumu hoʻohālike (akā ke hōʻike mau nei ke kumu hoʻohālike i ka holomua).

Hoʻohuli i ke koho

ʻO ke koho hoʻohuli ʻana e pili ana i ka hoʻopau ʻana i kēlā me kēia ʻanuʻu o nā ʻano, akā ma ka ʻaoʻao ʻē aʻe i hoʻohālikelike ʻia me ke koho mua. I kēia hihia, ʻo ke kumu hoʻohālike mua e pili ana i nā ʻokoʻa kūʻokoʻa a pau. Hoʻopau ʻia nā mea hoʻololi (hoʻokahi i kēlā me kēia ʻike) inā ʻaʻole lākou e hāʻawi i ka waiwai i ke kumu hoʻohālike hou i kēlā me kēia hoʻololi. Hoʻokumu ʻia ka wehe ʻana i nā hiʻohiʻona ma nā p-waiwai o ke kumu hoʻohālike mua. ʻAʻole maopopo ke ʻano o kēia ʻano i ka wā e wehe ai i nā ʻano like ʻole.

Hoʻopau Hiʻona Recursive

ʻO RFE kahi ʻenehana/algorithm i hoʻohana nui ʻia no ke koho ʻana i ka helu pololei o nā hiʻohiʻona koʻikoʻi. I kekahi manawa hoʻohana ʻia ke ʻano e wehewehe i kekahi mau hiʻohiʻona "koʻikoʻi" e pili ana i nā hopena; a i kekahi manawa e ho'ēmi i ka heluna nui loa o nā mea hoʻololi (e pili ana i 200-400), a ʻo nā mea wale nō e hāʻawi i ka liʻiliʻi i kekahi mau haʻawina i ke kumu hoʻohālike e mālama ʻia, a ʻo nā mea ʻē aʻe a pau e kāpae ʻia. Hoʻohana ʻo RFE i kahi ʻōnaehana hoʻonohonoho. Hāʻawi ʻia nā hiʻohiʻona i ka hoʻonohonoho ʻikepili. Hoʻohana ʻia kēia mau pae no ka hoʻopau hou ʻana i nā hiʻohiʻona e pili ana i ka collinearity ma waena o lākou a me ke koʻikoʻi o kēlā mau hiʻohiʻona i ke kumu hoʻohālike. Ma waho aʻe o nā hiʻohiʻona hoʻonohonoho, hiki iā RFE ke hōʻike inā he mea nui kēia mau hiʻohiʻona a ʻaʻole paha no ka helu o nā hiʻohiʻona i hāʻawi ʻia (no ka mea, ʻoi aku paha ka maikaʻi o ka helu o nā hiʻohiʻona i koho ʻia, a ʻoi aku paha ka nui o nā hiʻohiʻona. a emi mai paha ma mua o ka helu i koho ʻia).

Kiʻi Koʻikoʻi Hiʻona

Ke kamaʻilio e pili ana i ka interpretability o ka mīkini aʻo algorithms, mākou e kamaʻilio maʻamau linear regressions (e ae oe e kālailai i ke koʻikoʻi o nā hiʻona me ka p-waiwai) a me ka hoʻoholo lāʻau (e hōʻike maoli ana i ka pono o nā hiʻona ma ke ano o ka laau, a ma ka ʻO ka manawa like ko lākou hierarchy). Ma ka ʻaoʻao ʻē aʻe, hoʻohana pinepine nā algorithms e like me Random Forest, LightGBM a me XG Boost i kahi kiʻi koʻikoʻi hiʻohiʻona, ʻo ia hoʻi, kahi kiʻi o nā mea hoʻololi a me "nā helu koʻikoʻi" i hoʻolālā ʻia. He mea maikaʻi loa kēia inā pono ʻoe e hāʻawi i kahi kumu i hoʻonohonoho ʻia no ke koʻikoʻi o nā ʻano e pili ana i kā lākou hopena i ka ʻoihana.

Hoʻoponopono mau

Hana ʻia ka hoʻoponopono ʻana no ka mālama ʻana i ke kaulike ma waena o ka bias a me ka ʻokoʻa. Hōʻike ʻo Bias i ka nui o ka hoʻopili ʻana o ke kumu hoʻohālike i ka hoʻonohonoho ʻikepili aʻo. Hōʻike ka ʻokoʻa i ka ʻokoʻa o nā wānana ma waena o ka hoʻomaʻamaʻa a me ka hōʻike hōʻike. ʻO ke kūpono, e liʻiliʻi ke ʻano a me ka ʻokoʻa. ʻO kēia kahi e hoʻopakele ai ka regularization! ʻElua mau ʻenehana nui:

L1 Regularization - Lasso: Hoʻopaʻi ʻo Lasso i nā kaupaona hoʻohālike e hoʻololi i ko lākou koʻikoʻi i ke kumu hoʻohālike a hiki ke hoʻonohonoho hou iā lākou i ka ʻole (ʻo ia hoʻi. ʻO ka maʻamau, hoʻohana ʻia ʻo Lasso i ka wā e loaʻa ai i kahi ʻikepili kahi helu nui o nā mea hoʻololi a makemake ʻoe e kāpae i kekahi o lākou e hoʻomaopopo maikaʻi i ka hopena o nā hiʻohiʻona koʻikoʻi i ke kumu hoʻohālike (ʻo ia hoʻi, kēlā mau hiʻohiʻona i koho ʻia e Lasso a ua hāʻawi ʻia i ka mea nui).

L2 Regularization - Ridge ala: ʻO ka hana a Ridge e mālama i nā ʻano like ʻole a ma ka manawa like e hāʻawi i ka mea nui iā lākou ma muli o kā lākou hāʻawi ʻana i ka hana o ke kumu hoʻohālike. He koho maikaʻi ʻo Ridge inā he helu liʻiliʻi nā mea hoʻololi i ka dataset a pono lākou a pau e wehewehe i nā ʻike a me nā hopena i loaʻa.

Ma muli o ka mālama ʻana o Ridge i nā mea hoʻololi āpau a ʻoi aku ka maikaʻi o Lasso i ka hoʻokumu ʻana i ko lākou koʻikoʻi, ua kūkulu ʻia kahi algorithm e hoʻohui i nā hiʻohiʻona maikaʻi loa o nā regularization ʻelua, i kapa ʻia ʻo Elastic-Net.

Nui nā ala ʻē aʻe e koho ai i nā hiʻohiʻona no ke aʻo ʻana i ka mīkini, akā ʻo ka manaʻo nui e like mau: hōʻike i ke koʻikoʻi o nā mea hoʻololi a laila hoʻopau i kekahi o ia mau mea ma muli o ke koʻikoʻi o ka hopena. ʻO ka mea koʻikoʻi he huaʻōlelo kumuhana nui, ʻoiai ʻaʻole ia he hoʻokahi wale nō, akā he pūʻulu holoʻokoʻa o nā metric a me nā pakuhi i hiki ke hoʻohana ʻia e ʻimi i nā ʻano koʻikoʻi.

Mahalo iā ʻoe no ka heluhelu ʻana! Hauʻoli ke aʻo ʻana!

Source: www.habr.com

Pākuʻi i ka manaʻo hoʻopuka