Zgjedhja e veçorive në mësimin e makinerive

Hej Habr!

Ne në Reksoft e përkthejmë artikullin në Rusisht Zgjedhja e veçorive në mësimin e makinerisë. Shpresojmë se do të jetë e dobishme për të gjithë ata që janë të interesuar për këtë temë.

Në botën reale, të dhënat nuk janë gjithmonë aq të pastra sa mendojnë ndonjëherë klientët e biznesit. Kjo është arsyeja pse nxjerrja e të dhënave dhe grindja e të dhënave janë të kërkuara. Ndihmon në identifikimin e vlerave dhe modeleve që mungojnë në të dhënat e strukturuara me pyetje që njerëzit nuk mund t'i identifikojnë. Për të gjetur dhe përdorur këto modele për të parashikuar rezultatet duke përdorur marrëdhëniet e zbuluara në të dhëna, mësimi i makinerive është i dobishëm.

Për të kuptuar çdo algoritëm, duhet të shikoni të gjitha variablat në të dhëna dhe të kuptoni se çfarë përfaqësojnë ato variabla. Kjo është kritike sepse arsyetimi pas rezultateve bazohet në të kuptuarit e të dhënave. Nëse të dhënat përmbajnë 5 ose edhe 50 variabla, mund t'i ekzaminoni të gjitha. Po sikur të jenë 200 prej tyre? Atëherë thjesht nuk do të ketë kohë të mjaftueshme për të studiuar çdo ndryshore të vetme. Për më tepër, disa algoritme nuk funksionojnë për të dhëna kategorike dhe më pas do t'ju duhet të konvertoni të gjitha kolonat kategorike në variabla sasiore (ato mund të duken sasiore, por metrikat do të tregojnë se ato janë kategorike) për t'i shtuar ato në model. Kështu, numri i variablave rritet dhe janë rreth 500. Çfarë duhet bërë tani? Dikush mund të mendojë se përgjigja do të ishte zvogëlimi i dimensionalitetit. Algoritmet e reduktimit të dimensioneve zvogëlojnë numrin e parametrave, por kanë një ndikim negativ në interpretueshmërinë. Po sikur të ketë teknika të tjera që eliminojnë veçoritë, ndërsa ato të mbetura i bëjnë të lehta për t'u kuptuar dhe interpretuar?

Në varësi të faktit nëse analiza bazohet në regresion ose klasifikim, algoritmet e përzgjedhjes së veçorive mund të ndryshojnë, por ideja kryesore e zbatimit të tyre mbetet e njëjtë.

Variabla me korrelacion të lartë

Variablat që janë shumë të ndërlidhur me njëri-tjetrin japin të njëjtin informacion për modelin, kështu që nuk ka nevojë të përdoren të gjitha për analizë. Për shembull, nëse një grup të dhënash përmban veçoritë "Online Time" dhe "Traffic Used", ne mund të supozojmë se ato do të jenë disi të ndërlidhura dhe do të shohim një korrelacion të fortë edhe nëse zgjedhim një mostër të paanshme të të dhënave. Në këtë rast, vetëm një nga këto variabla nevojitet në model. Nëse i përdorni të dyja, modeli do të jetë i mbivendosur dhe i njëanshëm ndaj një veçorie të veçantë.

P-vlerat

Në algoritme si regresioni linear, një model statistikor fillestar është gjithmonë një ide e mirë. Ndihmon për të treguar rëndësinë e veçorive përmes vlerave të tyre p të cilat janë marrë nga ky model. Pasi kemi vendosur nivelin e rëndësisë, ne kontrollojmë vlerat p që rezultojnë dhe nëse ndonjë vlerë është nën nivelin e specifikuar të rëndësisë, atëherë kjo veçori shpallet e rëndësishme, domethënë një ndryshim në vlerën e tij ka të ngjarë të çojë në një ndryshim në vlerën e objektivi.

Zgjedhja e drejtpërdrejtë

Përzgjedhja përpara është një teknikë që përfshin aplikimin e regresionit hap pas hapi. Ndërtimi i modelit fillon me një zero të plotë, domethënë një model bosh, dhe më pas çdo përsëritje shton një variabël që bën një përmirësim në modelin që po ndërtohet. Cili variabël i shtohet modelit përcaktohet nga rëndësia e tij. Kjo mund të llogaritet duke përdorur metrika të ndryshme. Mënyra më e zakonshme është përdorimi i vlerave p të marra në modelin origjinal statistikor duke përdorur të gjitha variablat. Ndonjëherë përzgjedhja e përparme mund të çojë në përshtatjen e tepërt të një modeli sepse mund të ketë variabla shumë të ndërlidhura në model, edhe nëse ato i japin të njëjtin informacion modelit (por modeli ende tregon përmirësim).

Zgjedhja e kundërt

Përzgjedhja e kundërt përfshin gjithashtu eliminimin hap pas hapi të tipareve, por në drejtim të kundërt në krahasim me përzgjedhjen përpara. Në këtë rast, modeli fillestar përfshin të gjitha variablat e pavarur. Variablat më pas eliminohen (një për përsëritje) nëse nuk kontribuojnë me vlerë në modelin e ri të regresionit në çdo përsëritje. Përjashtimi i veçorive bazohet në vlerat p të modelit fillestar. Kjo metodë gjithashtu ka pasiguri kur heq variablat shumë të ndërlidhur.

Eliminimi i veçorive rekursive

RFE është një teknikë/algoritëm i përdorur gjerësisht për zgjedhjen e numrit të saktë të veçorive të rëndësishme. Ndonjëherë metoda përdoret për të shpjeguar një numër karakteristikash "më të rëndësishme" që ndikojnë në rezultatet; dhe ndonjëherë për të reduktuar një numër shumë të madh të variablave (rreth 200-400), dhe vetëm ato që japin të paktën një kontribut në model mbahen, dhe të gjithë të tjerët përjashtohen. RFE përdor një sistem renditjeje. Veçorive në grupin e të dhënave u caktohen renditjet. Këto renditje përdoren më pas për të eliminuar në mënyrë rekursive veçoritë bazuar në kolinearitetin midis tyre dhe rëndësinë e këtyre veçorive në model. Përveç renditjes së veçorive, RFE mund të tregojë nëse këto veçori janë të rëndësishme apo jo edhe për një numër të caktuar karakteristikash (sepse ka shumë të ngjarë që numri i zgjedhur i veçorive të mos jetë optimal, dhe numri optimal i veçorive mund të jetë ose më shumë ose më pak se numri i zgjedhur).

Diagrami i rëndësisë së veçorive

Kur flasim për interpretueshmërinë e algoritmeve të mësimit të makinerisë, ne zakonisht diskutojmë regresionet lineare (të cilat ju lejojnë të analizoni rëndësinë e veçorive duke përdorur vlerat p) dhe pemët e vendimeve (fjalë për fjalë që tregojnë rëndësinë e veçorive në formën e një peme, dhe në në të njëjtën kohë hierarkia e tyre). Nga ana tjetër, algoritmet si Random Forest, LightGBM dhe XG Boost shpesh përdorin një diagram të rëndësisë së veçorive, domethënë, vizatohet një diagram variablash dhe "numrat e rëndësisë së tyre". Kjo është veçanërisht e dobishme kur ju duhet të jepni një arsyetim të strukturuar për rëndësinë e atributeve për sa i përket ndikimit të tyre në biznes.

Rregullimi

Rregullimi bëhet për të kontrolluar ekuilibrin midis paragjykimit dhe variancës. Paragjykimi tregon se sa shumë modeli është përshtatur në grupin e të dhënave të trajnimit. Devijimi tregon se sa të ndryshme ishin parashikimet midis grupeve të të dhënave të trajnimit dhe testimit. Në mënyrë ideale, si paragjykimi ashtu edhe varianca duhet të jenë të vogla. Ja ku rregullimi vjen në shpëtim! Ekzistojnë dy teknika kryesore:

Rregullimi L1 - Lasso: Lasso penalizon peshat e modelit për të ndryshuar rëndësinë e tyre për modelin dhe madje mund t'i rivendosë ato në zero (d.m.th. t'i heqë ato variabla nga modeli përfundimtar). Në mënyrë tipike, Lasso përdoret kur një grup të dhënash përmban një numër të madh variablash dhe ju dëshironi të përjashtoni disa prej tyre për të kuptuar më mirë se sa tipare të rëndësishme ndikojnë në model (d.m.th., ato veçori që janë përzgjedhur nga Lasso dhe u është caktuar rëndësia).

L2 Regularization - Metoda Ridge: Puna e Ridge është të ruajë të gjitha variablat dhe në të njëjtën kohë t'u japë atyre rëndësi bazuar në kontributin e tyre në performancën e modelit. Ridge do të jetë një zgjedhje e mirë nëse grupi i të dhënave përmban një numër të vogël variablash dhe të gjithë ata janë të nevojshëm për të interpretuar gjetjet dhe rezultatet e marra.

Meqenëse Ridge i mban të gjitha variablat dhe Lasso bën një punë më të mirë për të përcaktuar rëndësinë e tyre, u zhvillua një algoritëm që kombinon tiparet më të mira të të dy rregullimeve, i njohur si Elastic-Net.

Ka shumë mënyra të tjera për të zgjedhur veçoritë për mësimin e makinerive, por ideja kryesore është gjithmonë e njëjtë: demonstroni rëndësinë e variablave dhe më pas eliminoni disa prej tyre bazuar në rëndësinë që rezulton. Rëndësia është një term shumë subjektiv, pasi nuk është vetëm një, por një grup i tërë metrikash dhe grafikësh që mund të përdoren për të gjetur atributet kryesore.

Faleminderit që lexuat! Gëzuar mësimin!

Burimi: www.habr.com

Shto një koment