Zaɓin zaɓi a cikin koyon injin

Hai Habr!

Mu a Reksoft mun fassara labarin zuwa Rashanci Zaɓin fasali a cikin Koyan Injin. Muna fatan zai kasance da amfani ga duk wanda ke sha'awar batun.

A cikin duniyar gaske, bayanai ba koyaushe suke da tsabta kamar yadda abokan ciniki ke tunani a wasu lokuta. Wannan shine dalilin da ya sa ake buƙatar haƙar ma'adinan bayanai da rikice-rikicen bayanai. Yana taimakawa gano ƙima da ƙima a cikin bayanan da aka tsara waɗanda mutane ba za su iya tantancewa ba. Domin nemo da amfani da waɗannan alamu don hasashen sakamako ta amfani da alaƙar da aka gano a cikin bayanan, koyan na'ura yana zuwa da amfani.

Don fahimtar kowane algorithm, kuna buƙatar duba duk masu canji a cikin bayanan kuma ku gano abin da waɗannan masu canji ke wakilta. Wannan yana da mahimmanci saboda dalilin da ya sa sakamakon ya dogara ne akan fahimtar bayanai. Idan bayanan sun ƙunshi masu canji 5 ko ma 50, zaku iya bincika su duka. Idan akwai 200 daga cikinsu fa? Sa'an nan kawai ba za a sami isasshen lokaci don nazarin kowane ma'auni ɗaya ba. Bugu da ƙari, wasu algorithms ba sa aiki don bayanan ƙididdiga, sa'an nan kuma dole ne ku canza duk ginshiƙan ginshiƙai zuwa ƙididdiga masu yawa (suna iya kama da ƙididdiga, amma ma'auni za su nuna cewa sun kasance nau'i) don ƙara su zuwa samfurin. Don haka, adadin masu canji ya karu, kuma akwai kusan 500. Me za a yi yanzu? Mutum na iya tunanin cewa amsar ita ce rage girman girma. Algorithms rage girman girman suna rage adadin sigogi amma suna da mummunan tasiri akan fassarar. Idan akwai wasu fasahohin da ke kawar da fasali yayin da suke sauƙaƙan fahimta da fassara fa?

Dangane da ko binciken ya dogara ne akan koma baya ko rarrabuwa, fasalin zaɓin algorithms na iya bambanta, amma babban ra'ayin aiwatar da su ya kasance iri ɗaya.

Matsakaicin Maɗaukaki masu alaƙa

Bambance-bambancen da ke da alaƙa da juna suna ba da bayanai iri ɗaya ga ƙirar, don haka babu buƙatar amfani da su duka don bincike. Misali, idan kundin bayanai ya ƙunshi fasalulluka "Lokacin Kan Layi" da "Tsarin Amfani", za mu iya ɗauka cewa za a ɗan ɗanɗana su, kuma za mu ga alaƙa mai ƙarfi ko da mun zaɓi samfurin bayanai mara son zuciya. A wannan yanayin, ɗaya daga cikin waɗannan masu canji kawai ake buƙata a cikin ƙirar. Idan kun yi amfani da duka biyun, ƙirar za ta kasance mai wuce gona da iri kuma ta karkata zuwa ga wani fasali na musamman.

P-darajar

A cikin algorithms kamar koma baya na layi, ƙirar ƙididdiga ta farko koyaushe kyakkyawan ra'ayi ne. Yana taimakawa wajen nuna mahimmancin sifofin ta hanyar p-darajar su wanda wannan samfurin ya samu. Bayan saita matakin mahimmanci, zamu bincika sakamakon p-values, kuma idan kowace ƙima tana ƙasa da ƙayyadaddun matakin mahimmanci, to ana ayyana wannan fasalin mai mahimmanci, wato, canji a cikin ƙimarsa zai iya haifar da canji a ƙimar darajar. manufa.

Zaɓin kai tsaye

Zaɓin gaba wata dabara ce wacce ta ƙunshi yin amfani da koma bayan matakin mataki. Ginin ƙirar yana farawa da cikakken sifili, wato, samfurin fanko, sannan kowane juzu'i yana ƙara maɓalli wanda ke inganta ƙirar da ake ginawa. Wanne m aka ƙara zuwa samfurin an ƙaddara ta mahimmancinsa. Ana iya ƙididdige wannan ta amfani da ma'auni daban-daban. Hanyar da ta fi dacewa ita ce amfani da p-darajar da aka samu a cikin ainihin ƙididdiga ta hanyar amfani da duk masu canji. Wani lokaci zaɓi na gaba na iya haifar da wuce gona da iri saboda ana iya samun sauye-sauye masu alaƙa sosai a cikin ƙirar, ko da sun ba da bayanai iri ɗaya ga ƙirar (amma har yanzu ƙirar tana nuna haɓakawa).

Komawa zaɓi

Zaɓin na baya kuma ya haɗa da kawar da ɗabi'a mataki-mataki, amma a kishiyar hanya idan aka kwatanta da zaɓin gaba. A wannan yanayin, ƙirar farko ta ƙunshi duk masu canji masu zaman kansu. Ana kawar da sauye-sauye (ɗaya a kowane lokaci) idan ba su ba da gudummawar ƙima ga sabon tsarin koma baya a cikin kowane juzu'i ba. Keɓance fasalin yana dogara ne akan ƙimar p-darajar ƙirar farko. Wannan hanyar kuma tana da rashin tabbas lokacin cire masu canji masu alaƙa sosai.

Kawarwar fasalin Maimaituwa

RFE wata dabara ce/algorithm da ake amfani da ita don zaɓar ainihin adadin mahimman fasali. Wani lokaci ana amfani da hanyar don bayyana adadin abubuwan "mafi mahimmanci" waɗanda ke tasiri sakamakon; kuma wani lokacin don rage yawan adadin masu canji (kimanin 200-400), kuma kawai waɗanda ke ba da gudummawar aƙalla ga ƙirar ana riƙe su, kuma an cire duk sauran. RFE yana amfani da tsarin martaba. Siffofin da ke cikin saitin bayanai an ba su darajoji. Sannan ana amfani da waɗannan darajoji don kawar da fasali akai-akai dangane da haɗin kai tsakanin su da mahimmancin waɗannan fasalulluka a cikin ƙirar. Bugu da ƙari ga fasalulluka masu daraja, RFE na iya nuna ko waɗannan fasalulluka suna da mahimmanci ko a'a har ma da adadin abubuwan da aka ba su (saboda yana da yuwuwar adadin abubuwan da aka zaɓa bazai zama mafi kyau ba, kuma mafi kyawun adadin fasalulluka na iya zama ko dai ƙari. ko ƙasa da lambar da aka zaɓa).

Ma'anar Mahimmancin Bayani

Lokacin da muke magana game da fassarar algorithms na koyon injin, yawanci muna tattauna sauye-sauye na layi (wanda ke ba ku damar nazarin mahimmancin fasali ta amfani da p-values) da bishiyoyi masu yanke shawara (a zahiri suna nuna mahimmancin fasali a cikin nau'in itace, kuma a lokaci guda matsayinsu). A gefe guda, algorithms irin su Random Forest, LightGBM da XG Boost sau da yawa suna amfani da zane mai mahimmanci, wato, zane na masu canji kuma an tsara "mahimman lambobin su". Wannan yana da amfani musamman lokacin da kuke buƙatar samar da ingantaccen dalili don mahimmancin halayen dangane da tasirin su akan kasuwancin.

Tsayawa

Ana yin tsari don sarrafa ma'auni tsakanin son rai da bambance-bambance. Bias yana nuna nawa samfurin ya wuce gona da iri akan saitin bayanan horo. Bambancin ya nuna yadda tsinkayar ta bambanta tsakanin bayanan horo da gwaji. Da kyau, duka biyun son zuciya da bambance-bambance ya kamata su zama ƙarami. Wannan shine inda daidaitawa ya zo don ceto! Akwai manyan dabaru guda biyu:

L1 Regularization - Lasso: Lasso yana azabtar da ma'aunin ƙira don canza mahimmancin su ga ƙirar kuma yana iya lalata su (watau cire waɗannan masu canji daga ƙirar ƙarshe). Yawanci, ana amfani da Lasso lokacin da ma'aunin bayanai ya ƙunshi ɗimbin ma'auni kuma kuna son ware wasu daga cikinsu don ƙarin fahimtar yadda mahimman abubuwan ke shafar ƙirar (wato waɗannan abubuwan da Lasso ya zaɓa kuma aka ba su mahimmanci).

L2 Regularization - Hanyar Ridge: Aikin Ridge shine adana duk masu canji kuma a lokaci guda sanya musu mahimmanci dangane da gudummawar da suke bayarwa ga aikin ƙirar. Ridge zai zama kyakkyawan zaɓi idan bayanan bayanan ya ƙunshi ƙananan adadin masu canji kuma dukkansu suna da mahimmanci don fassara sakamakon da sakamakon da aka samu.

Tun da Ridge yana kiyaye duk masu canji kuma Lasso yayi aiki mafi kyau na tabbatar da mahimmancin su, an ƙirƙiri wani algorithm wanda ya haɗu da mafi kyawun fasalulluka na yau da kullun, wanda aka sani da Elastic-Net.

Akwai ƙarin hanyoyi da yawa don zaɓar fasalulluka don koyon na'ura, amma babban ra'ayi koyaushe iri ɗaya ne: nuna mahimmancin masu canji sannan a kawar da wasu daga cikinsu dangane da mahimmancin da aka samu. Muhimmanci kalma ce mai ƙima, domin ba ɗaya ba ce, amma gabaɗayan ma'auni da sigogi waɗanda za a iya amfani da su don nemo mahimman halaye.

Na gode da karantawa! Farin ciki koyo!

source: www.habr.com

Add a comment