Ħej Habr!
Aħna ta 'Reksoft ittraduċijna l-artiklu għar-Russu . Nittamaw li jkun utli għal kull min hu interessat fis-suġġett.
Fid-dinja reali, id-dejta mhix dejjem nadifa daqs kemm xi drabi jaħsbu l-klijenti tan-negozju. Dan huwa għaliex data mining u data wrangling huma fid-domanda. Jgħin biex jiġu identifikati valuri u mudelli neqsin f'dejta strutturata b'mistoqsijiet li l-bnedmin ma jistgħux jidentifikaw. Sabiex issib u tuża dawn il-mudelli biex tbassar riżultati billi tuża relazzjonijiet skoperti fid-dejta, it-tagħlim tal-magni huwa utli.
Biex tifhem kwalunkwe algoritmu, trid tħares lejn il-varjabbli kollha fid-dejta u tara x'jirrappreżentaw dawk il-varjabbli. Dan huwa kritiku għaliex ir-raġuni wara r-riżultati hija bbażata fuq il-fehim tad-dejta. Jekk id-dejta fiha 5 jew saħansitra 50 varjabbli, tista 'teżaminahom kollha. X'jiġri jekk ikun hemm 200 minnhom? Imbagħad sempliċement mhux se jkun hemm biżżejjed ħin biex tistudja kull varjabbli. Barra minn hekk, xi algoritmi ma jaħdmux għal data kategorika, u mbagħad ikollok tikkonverti l-kolonni kategoriċi kollha għal varjabbli kwantitattivi (jistgħu jidhru kwantitattivi, iżda l-metriċi juru li huma kategoriċi) biex iżżidhom mal-mudell. Għalhekk, in-numru ta 'varjabbli jiżdied, u hemm madwar 500 minnhom X'għandek tagħmel issa? Wieħed jista 'jaħseb li t-tweġiba tkun li titnaqqas id-dimensjonalità. L-algoritmi tat-tnaqqis tad-dimensjonijiet inaqqsu n-numru ta 'parametri iżda għandhom impatt negattiv fuq l-interpretabilità. X'jiġri jekk ikun hemm tekniki oħra li jeliminaw is-sinjali filwaqt li jagħmlu dawk li jifdal faċli biex jinftiehmu u jinterpretaw?
Skont jekk l-analiżi hijiex ibbażata fuq rigressjoni jew klassifikazzjoni, l-algoritmi tal-għażla tal-karatteristiċi jistgħu jvarjaw, iżda l-idea ewlenija tal-implimentazzjoni tagħhom tibqa l-istess.
Varjabbli Korrelatati ħafna
Varjabbli li huma korrelatati ħafna ma 'xulxin jipprovdu l-istess informazzjoni lill-mudell, għalhekk m'hemmx bżonn li jintużaw kollha għall-analiżi. Pereżempju, jekk sett tad-dejta jkun fih il-karatteristiċi "Ħin Online" u "Traffiku Użat", nistgħu nassumu li se jkunu kemmxejn korrelatati, u se naraw korrelazzjoni qawwija anke jekk nagħżlu kampjun ta 'dejta imparzjali. F'dan il-każ, waħda biss minn dawn il-varjabbli hija meħtieġa fil-mudell. Jekk tuża t-tnejn, il-mudell ikun iżżejjed u preġudikat lejn karatteristika partikolari waħda.
P-valuri
F'algoritmi bħal rigressjoni lineari, mudell statistiku inizjali huwa dejjem idea tajba. Jgħin biex turi l-importanza tal-karatteristiċi permezz tal-valuri p tagħhom li nkisbu minn dan il-mudell. Wara li stabbilixxew il-livell ta 'sinifikat, aħna niċċekkjaw il-valuri p li jirriżultaw, u jekk xi valur huwa taħt il-livell ta' sinifikat speċifikat, allura din il-karatteristika hija ddikjarata sinifikanti, jiġifieri, bidla fil-valur tagħha x'aktarx twassal għal bidla fil-valur ta ' il-mira.
Għażla diretta
L-għażla 'l quddiem hija teknika li tinvolvi l-applikazzjoni ta' rigressjoni gradwali. Il-bini tal-mudell jibda b'żero komplut, jiġifieri mudell vojt, u mbagħad kull iterazzjoni żżid varjabbli li tagħmel titjib għall-mudell li qed jinbena. Liema varjabbli hija miżjuda mal-mudell hija determinata mis-sinifikat tagħha. Dan jista 'jiġi kkalkulat bl-użu ta' metriċi varji. L-aktar mod komuni huwa li tuża l-valuri p miksuba fil-mudell statistiku oriġinali billi tuża l-varjabbli kollha. Xi drabi l-għażla 'l quddiem tista' twassal għal twaħħil żejjed ta' mudell minħabba li jista' jkun hemm varjabbli korrelatati ħafna fil-mudell, anki jekk jipprovdu l-istess informazzjoni lill-mudell (iżda l-mudell xorta juri titjib).
Għażla b'lura
L-għażla inversa tinvolvi wkoll l-eliminazzjoni pass pass tal-karatteristiċi, iżda fid-direzzjoni opposta meta mqabbla mal-għażla 'l quddiem. F'dan il-każ, il-mudell inizjali jinkludi l-varjabbli indipendenti kollha. Il-varjabbli mbagħad jiġu eliminati (wieħed għal kull iterazzjoni) jekk ma jikkontribwixxux valur għall-mudell ta' rigressjoni l-ġdid f'kull iterazzjoni. L-esklużjoni tal-karatteristiċi hija bbażata fuq il-valuri p tal-mudell inizjali. Dan il-metodu għandu wkoll inċertezza meta jneħħi varjabbli korrelatati ħafna.
Eliminazzjoni ta' Karatteristika Rikursiva
RFE hija teknika/algoritmu użata ħafna għall-għażla tan-numru eżatt ta 'karatteristiċi sinifikanti. Xi drabi l-metodu jintuża biex jispjega numru ta 'karatteristiċi "l-aktar importanti" li jinfluwenzaw ir-riżultati; u xi kultant biex jitnaqqas numru kbir ħafna ta 'varjabbli (madwar 200-400), u dawk biss li jagħmlu mill-inqas xi kontribut għall-mudell jinżammu, u l-oħrajn kollha huma esklużi. RFE juża sistema ta' klassifikazzjoni. Il-karatteristiċi fis-sett tad-dejta huma assenjati gradi. Dawn il-gradi huma mbagħad użati biex jeliminaw b'mod rikorsiv karatteristiċi bbażati fuq il-kolinearità bejniethom u l-importanza ta 'dawk il-karatteristiċi fil-mudell. Minbarra l-karatteristiċi tal-klassifikazzjoni, RFE jista 'juri jekk dawn il-karatteristiċi humiex importanti jew le anki għal numru partikolari ta' karatteristiċi (għax huwa probabbli ħafna li n-numru magħżul ta 'karatteristiċi jista' ma jkunx ottimali, u l-aħjar numru ta 'karatteristiċi jista' jkun jew aktar jew inqas min-numru magħżul).
Dijagramma Importanza Karatteristika
Meta nitkellmu dwar l-interpretabilità tal-algoritmi tat-tagħlim tal-magni, ġeneralment niddiskutu regressjonijiet lineari (li jippermettulek tanalizza l-importanza tal-karatteristiċi bl-użu ta’ p-valuri) u siġar tad-deċiżjonijiet (litteralment li juru l-importanza tal-karatteristiċi fil-forma ta’ siġra, u fil- fl-istess ħin il-ġerarkija tagħhom). Min-naħa l-oħra, algoritmi bħal Random Forest, LightGBM u XG Boost ħafna drabi jużaw dijagramma ta 'importanza tal-karatteristika, jiġifieri, dijagramma ta' varjabbli u "numri ta 'importanza tagħhom" hija plottjata. Dan huwa speċjalment utli meta jkollok bżonn tipprovdi raġunament strutturat għall-importanza tal-attributi f'termini tal-impatt tagħhom fuq in-negozju.
Regolarizzazzjoni
Ir-regolarizzazzjoni ssir biex tikkontrolla l-bilanċ bejn il-preġudizzju u l-varjanza. Il-preġudizzju juri kemm il-mudell iżżejjed fuq is-sett tad-dejta tat-taħriġ. Id-devjazzjoni turi kemm il-previżjonijiet kienu differenti bejn is-settijiet tad-dejta tat-taħriġ u tat-test. Idealment, kemm il-preġudizzju kif ukoll il-varjanza għandhom ikunu żgħar. Dan huwa fejn ir-regolarizzazzjoni tiġi għas-salvataġġ! Hemm żewġ tekniki ewlenin:
Regolarizzazzjoni L1 - Lasso: Lasso jippenalizza l-piżijiet tal-mudell biex ibiddel l-importanza tagħhom għall-mudell u jista 'saħansitra tannullahom (jiġifieri neħħi dawk il-varjabbli mill-mudell finali). Tipikament, Lasso jintuża meta sett ta 'dejta jkun fih numru kbir ta' varjabbli u trid teskludi xi wħud minnhom biex tifhem aħjar kemm il-karatteristiċi importanti jaffettwaw il-mudell (jiġifieri, dawk il-karatteristiċi li ġew magħżula minn Lasso u ġew assenjati importanza).
L2 Regolarizzazzjoni - Metodu Ridge: Xogħol Ridge huwa li jaħżen il-varjabbli kollha u fl-istess ħin jassenja lilhom importanza abbażi tal-kontribut tagħhom għall-prestazzjoni tal-mudell. Ridge tkun għażla tajba jekk is-sett tad-dejta jkun fih numru żgħir ta’ varjabbli u kollha kemm huma meħtieġa biex jinterpretaw is-sejbiet u r-riżultati miksuba.
Peress li Ridge iżomm il-varjabbli kollha u Lasso jagħmel xogħol aħjar biex jistabbilixxi l-importanza tagħhom, ġie żviluppat algoritmu li jgħaqqad l-aqwa karatteristiċi taż-żewġ regolarizzazzjonijiet, magħrufa bħala Elastic-Net.
Hemm ħafna aktar modi kif tagħżel karatteristiċi għat-tagħlim tal-magni, iżda l-idea ewlenija hija dejjem l-istess: uri l-importanza tal-varjabbli u mbagħad telimina xi wħud minnhom ibbażati fuq l-importanza li tirriżulta. L-importanza hija terminu suġġettiv ħafna, peress li mhuwiex wieħed biss, iżda sett sħiħ ta 'metriċi u charts li jistgħu jintużaw biex jinstabu attributi ewlenin.
Grazzi talli qrajt! Tagħlim kuntent!
Sors: www.habr.com
