Dewis nodwedd mewn dysgu peiriant

Hei Habr!

Fe wnaethom ni yn Reksoft gyfieithu'r erthygl i Rwsieg Dethol Nodweddion mewn Dysgu Peiriannau. Gobeithiwn y bydd yn ddefnyddiol i bawb sydd â diddordeb yn y pwnc.

Yn y byd go iawn, nid yw data bob amser mor lân ag y mae cwsmeriaid busnes yn ei feddwl weithiau. Dyna pam mae galw am gloddio data a dadlau data. Mae'n helpu i nodi gwerthoedd a phatrymau coll mewn data â strwythur ymholiad na all bodau dynol eu hadnabod. Er mwyn darganfod a defnyddio'r patrymau hyn i ragfynegi canlyniadau gan ddefnyddio perthnasoedd a ddarganfuwyd yn y data, daw dysgu peirianyddol yn ddefnyddiol.

Er mwyn deall unrhyw algorithm, mae angen ichi edrych ar yr holl newidynnau yn y data a chyfrifo beth mae'r newidynnau hynny'n ei gynrychioli. Mae hyn yn hollbwysig oherwydd bod y rhesymeg y tu ôl i'r canlyniadau yn seiliedig ar ddeall y data. Os yw'r data'n cynnwys 5 neu hyd yn oed 50 o newidynnau, gallwch chi eu harchwilio i gyd. Beth os oes 200 ohonyn nhw? Yna, yn syml, ni fydd digon o amser i astudio pob newidyn unigol. Ar ben hynny, nid yw rhai algorithmau yn gweithio ar gyfer data categorïaidd, ac yna bydd yn rhaid i chi drosi'r holl golofnau categorïaidd i newidynnau meintiol (efallai y byddant yn edrych yn feintiol, ond bydd y metrigau'n dangos eu bod yn gategoraidd) i'w hychwanegu at y model. Felly, mae nifer y newidynnau yn cynyddu, ac mae tua 500 ohonyn nhw Beth i'w wneud nawr? Efallai y bydd rhywun yn meddwl mai'r ateb fyddai lleihau dimensiwn. Mae algorithmau lleihau dimensioldeb yn lleihau nifer y paramedrau ond yn cael effaith negyddol ar ddehongliad. Beth os oes technegau eraill sy'n dileu nodweddion tra'n gwneud y rhai sy'n weddill yn hawdd eu deall a'u dehongli?

Yn dibynnu a yw'r dadansoddiad yn seiliedig ar atchweliad neu ddosbarthiad, gall yr algorithmau dewis nodweddion fod yn wahanol, ond mae'r prif syniad o'u gweithredu yn aros yr un fath.

Newidynnau Cydberthynol Iawn

Mae newidynnau sy'n cydberthyn yn fawr â'i gilydd yn darparu'r un wybodaeth i'r model, felly nid oes angen eu defnyddio i gyd ar gyfer dadansoddi. Er enghraifft, os yw set ddata'n cynnwys y nodweddion "Amser Ar-lein" a "Traffig a Ddefnyddir", gallwn gymryd yn ganiataol y bydd rhywfaint o gydberthynas rhyngddynt, a byddwn yn gweld cydberthynas gref hyd yn oed os byddwn yn dewis sampl data diduedd. Yn yr achos hwn, dim ond un o'r newidynnau hyn sydd ei angen yn y model. Os ydych chi'n defnyddio'r ddau, bydd y model yn cael ei or-ffitio ac yn gogwyddo tuag at un nodwedd benodol.

P-gwerthoedd

Mewn algorithmau fel atchweliad llinol, mae model ystadegol cychwynnol bob amser yn syniad da. Mae'n helpu i ddangos pwysigrwydd y nodweddion trwy eu gwerthoedd-p a gafwyd gan y model hwn. Ar ôl gosod y lefel arwyddocâd, rydym yn gwirio'r gwerthoedd-p canlyniadol, ac os yw unrhyw werth yn is na'r lefel arwyddocâd penodedig, yna mae'r nodwedd hon yn cael ei datgan yn arwyddocaol, hynny yw, bydd newid yn ei gwerth yn debygol o arwain at newid yng ngwerth y y targed.

Dewis uniongyrchol

Mae dewis ymlaen yn dechneg sy'n cynnwys cymhwyso atchweliad fesul cam. Mae adeiladu model yn dechrau gyda sero cyflawn, hynny yw, model gwag, ac yna mae pob iteriad yn ychwanegu newidyn sy'n gwneud gwelliant i'r model sy'n cael ei adeiladu. Mae pa newidyn sy'n cael ei ychwanegu at y model yn cael ei bennu gan ei arwyddocâd. Gellir cyfrifo hyn gan ddefnyddio metrigau amrywiol. Y ffordd fwyaf cyffredin yw defnyddio'r gwerthoedd-p a gafwyd yn y model ystadegol gwreiddiol gan ddefnyddio'r holl newidynnau. Weithiau gall dewis ymlaen llaw arwain at orffitio model oherwydd gall fod newidynnau cydberthynol iawn yn y model, hyd yn oed os ydynt yn darparu’r un wybodaeth i’r model (ond mae’r model yn dal i ddangos gwelliant).

Dewis gwrthdroi

Mae dewis gwrthdro hefyd yn golygu dileu nodweddion gam wrth gam, ond i'r cyfeiriad arall o'i gymharu â dewis ymlaen. Yn yr achos hwn, mae'r model cychwynnol yn cynnwys yr holl newidynnau annibynnol. Yna caiff newidynnau eu dileu (un fesul iteriad) os nad ydynt yn cyfrannu gwerth at y model atchweliad newydd ym mhob iteriad. Mae gwaharddiad nodwedd yn seiliedig ar werthoedd-p y model cychwynnol. Mae gan y dull hwn ansicrwydd hefyd wrth ddileu newidynnau cydberthynol iawn.

Dileu Nodwedd Recursive

Mae RFE yn dechneg/algorithm a ddefnyddir yn eang ar gyfer dewis union nifer y nodweddion arwyddocaol. Weithiau defnyddir y dull i egluro nifer o nodweddion “pwysicaf” sy'n dylanwadu ar ganlyniadau; ac weithiau i leihau nifer fawr iawn o newidynnau (tua 200-400), a dim ond y rhai sy'n gwneud rhywfaint o gyfraniad o leiaf i'r model sy'n cael eu cadw, a phob un arall yn cael ei eithrio. Mae RFE yn defnyddio system raddio. Mae'r nodweddion yn y set ddata yn rengoedd penodedig. Yna defnyddir y rhengoedd hyn i ddileu nodweddion yn rheolaidd yn seiliedig ar y cydberthynas rhyngddynt a phwysigrwydd y nodweddion hynny yn y model. Yn ogystal â nodweddion graddio, gall RFE ddangos a yw'r nodweddion hyn yn bwysig ai peidio hyd yn oed ar gyfer nifer benodol o nodweddion (oherwydd ei bod yn debygol iawn na fydd y nifer o nodweddion a ddewiswyd yn optimaidd, ac efallai y bydd y nifer optimaidd o nodweddion naill ai'n fwy. neu lai na'r rhif a ddewiswyd).

Diagram Pwysigrwydd Nodwedd

Wrth siarad am ddehongliad algorithmau dysgu peirianyddol, rydym fel arfer yn trafod atchweliadau llinol (sy'n eich galluogi i ddadansoddi pwysigrwydd nodweddion gan ddefnyddio gwerthoedd-p) a choed penderfynu (yn llythrennol yn dangos pwysigrwydd nodweddion ar ffurf coeden, ac yn y yr un pryd eu hierarchaeth). Ar y llaw arall, mae algorithmau fel Random Forest, LightGBM a XG Boost yn aml yn defnyddio diagram pwysigrwydd nodwedd, hynny yw, diagram o newidynnau ac mae “eu niferoedd pwysigrwydd” yn cael ei blotio. Mae hyn yn arbennig o ddefnyddiol pan fydd angen i chi ddarparu rhesymeg strwythuredig ar gyfer pwysigrwydd priodoleddau o ran eu heffaith ar y busnes.

Rheoleidd-dra

Gwneir rheoleidd-dra i reoli'r cydbwysedd rhwng gogwydd ac amrywiant. Mae rhagfarn yn dangos faint mae'r model wedi'i orffitio ar y set data hyfforddi. Mae'r gwyriad yn dangos pa mor wahanol oedd y rhagfynegiadau rhwng y setiau data hyfforddi a phrofion. Yn ddelfrydol, dylai gogwydd ac amrywiant fod yn fach. Dyma lle daw rheoleiddio i'r adwy! Mae dwy brif dechneg:

L1 Rheoleiddio - Lasso: Mae Lasso yn cosbi pwysau model i newid eu pwysigrwydd i’r model a gall hyd yn oed eu nullio (h.y. tynnu’r newidynnau hynny o’r model terfynol). Yn nodweddiadol, defnyddir Lasso pan fydd set ddata yn cynnwys nifer fawr o newidynnau a'ch bod am eithrio rhai ohonynt i ddeall yn well sut mae nodweddion pwysig yn effeithio ar y model (hynny yw, y nodweddion hynny a ddewiswyd gan Lasso ac y rhoddwyd pwysigrwydd iddynt).

L2 Rheoleiddio - Dull Ridge: Gwaith Ridge yw storio'r holl newidynnau ac ar yr un pryd aseinio pwysigrwydd iddynt yn seiliedig ar eu cyfraniad at berfformiad y model. Bydd Ridge yn ddewis da os yw'r set ddata yn cynnwys nifer fach o newidynnau a bod pob un ohonynt yn angenrheidiol i ddehongli'r canfyddiadau a'r canlyniadau a gafwyd.

Gan fod Ridge yn cadw'r holl newidynnau a Lasso yn gwneud gwaith gwell o sefydlu eu pwysigrwydd, datblygwyd algorithm sy'n cyfuno nodweddion gorau'r ddau reoleiddio, a elwir yn Elastic-Net.

Mae yna lawer mwy o ffyrdd o ddewis nodweddion ar gyfer dysgu peiriant, ond mae'r prif syniad bob amser yr un peth: dangos pwysigrwydd newidynnau ac yna dileu rhai ohonynt yn seiliedig ar y pwysigrwydd canlyniadol. Mae pwysigrwydd yn derm goddrychol iawn, gan nad un yn unig ydyw, ond set gyfan o fetrigau a siartiau y gellir eu defnyddio i ddod o hyd i briodoleddau allweddol.

Diolch am ddarllen! Dysgu hapus!

Ffynhonnell: hab.com

Ychwanegu sylw