Funktsioonide valik masinõppes

Tere Habr!

Meie Reksoftis tõlkisime artikli vene keelde Funktsioonide valik masinõppes. Loodame, et see on kasulik kõigile, keda teema huvitab.

Reaalses maailmas pole andmed alati nii puhtad, kui ärikliendid mõnikord arvavad. Seetõttu on andmekaevandamine ja andmevaidlused nõudlikud. See aitab tuvastada päringupõhiselt struktureeritud andmetes puuduvad väärtused ja mustrid, mida inimesed ei suuda tuvastada. Nende mustrite leidmiseks ja kasutamiseks tulemuste ennustamiseks, kasutades andmetes avastatud seoseid, tuleb kasuks masinõpe.

Mis tahes algoritmi mõistmiseks peate vaatama kõiki andmetes olevaid muutujaid ja leidma, mida need muutujad esindavad. See on kriitilise tähtsusega, kuna tulemuste põhjendus põhineb andmete mõistmisel. Kui andmed sisaldavad 5 või isegi 50 muutujat, saate neid kõiki uurida. Mis siis, kui neid on 200? Siis lihtsalt ei jätku aega iga muutuja uurimiseks. Veelgi enam, mõned algoritmid ei tööta kategooriliste andmete puhul ja seejärel peate teisendama kõik kategoorilised veerud kvantitatiivseteks muutujateks (need võivad näida kvantitatiivsed, kuid mõõdikud näitavad, et need on kategoorilised), et need mudelisse lisada. Seega muutujate arv suureneb ja neid on umbes 500. Mida nüüd teha? Võib arvata, et vastus oleks mõõtmete vähendamises. Mõõtmete vähendamise algoritmid vähendavad parameetrite arvu, kuid avaldavad negatiivset mõju tõlgendatavusele. Mis siis, kui on muid tehnikaid, mis kõrvaldavad funktsioonid, muutes ülejäänud lihtsaks mõista ja tõlgendada?

Sõltuvalt sellest, kas analüüs põhineb regressioonil või klassifikatsioonil, võivad funktsioonide valiku algoritmid erineda, kuid nende rakendamise põhiidee jääb samaks.

Väga korrelatsioonis muutujad

Üksteisega tugevalt korrelatsioonis olevad muutujad annavad mudelile sama informatsiooni, mistõttu pole vaja neid kõiki analüüsimiseks kasutada. Näiteks kui andmestik sisaldab funktsioone "Võrguaeg" ja "Kasutatud liiklus", võime eeldada, et need on teatud määral korrelatsioonis ja me näeme tugevat korrelatsiooni isegi siis, kui valime erapooletu andmevalimi. Sel juhul on mudelis vaja ainult ühte neist muutujatest. Kui kasutate mõlemat, on mudel ülekomplekteeritud ja kaldub ühe konkreetse funktsiooni poole.

P-väärtused

Algoritmides, nagu lineaarne regressioon, on esialgne statistiline mudel alati hea mõte. See aitab näidata funktsioonide olulisust nende p-väärtuste kaudu, mis selle mudeli abil saadi. Olles määranud olulisuse taseme, kontrollime saadud p-väärtusi ja kui mõni väärtus jääb alla määratud olulisuse taseme, kuulutatakse see omadus oluliseks, see tähendab, et selle väärtuse muutus toob tõenäoliselt kaasa väärtuse muutumise. Sihtmärk.

Otsene valik

Edasi valik on tehnika, mis hõlmab astmelise regressiooni rakendamist. Mudeli koostamine algab täielikust nullist, st tühjast mudelist, ja seejärel lisab iga iteratsioon muutuja, mis muudab ehitatava mudeli täiustamiseks. Milline muutuja mudelisse lisatakse, määrab selle olulisus. Seda saab arvutada erinevate mõõdikute abil. Kõige tavalisem viis on kasutada kõiki muutujaid kasutades algses statistilises mudelis saadud p-väärtusi. Mõnikord võib edasine valik viia mudeli ülepaigutamiseni, kuna mudelis võivad olla tugevalt korrelatsiooniga muutujad, isegi kui need annavad mudelile sama teavet (kuid mudelis on siiski näha paranemist).

Vastupidine valik

Pöördvalik hõlmab ka tunnuste järkjärgulist kõrvaldamist, kuid vastupidises suunas, võrreldes edasise valikuga. Sellisel juhul sisaldab esialgne mudel kõiki sõltumatuid muutujaid. Muutujad elimineeritakse (üks iga iteratsiooni kohta), kui need ei anna igas iteratsioonis väärtust uuele regressioonimudelile. Funktsioonide välistamine põhineb esialgse mudeli p-väärtustel. Sellel meetodil on ebakindlus ka tugevalt korrelatsiooniga muutujate eemaldamisel.

Rekursiivne funktsioonide kõrvaldamine

RFE on laialdaselt kasutatav tehnika/algoritm oluliste funktsioonide täpse arvu valimiseks. Mõnikord kasutatakse seda meetodit mitme "kõige olulisema" omaduse selgitamiseks, mis tulemusi mõjutavad; ja mõnikord ka väga suure hulga muutujate vähendamiseks (umbes 200-400) ning alles jäetakse ainult need, mis annavad vähemalt mingi panuse mudelisse, ja kõik teised jäetakse välja. RFE kasutab järjestussüsteemi. Andmekogumi tunnustele määratakse auastmed. Neid auastmeid kasutatakse seejärel tunnuste rekursiivseks kõrvaldamiseks, lähtudes nendevahelisest kollineaarsusest ja nende omaduste tähtsusest mudelis. Lisaks funktsioonide järjestamisele saab RFE näidata, kas need funktsioonid on teatud hulga funktsioonide jaoks olulised või isegi mitte (kuna on väga tõenäoline, et valitud funktsioonide arv ei pruugi olla optimaalne ja optimaalne funktsioonide arv võib olla kas suurem või väiksem kui valitud arv).

Funktsiooni tähtsuse diagramm

Rääkides masinõppe algoritmide tõlgendatavusest, käsitleme tavaliselt lineaarset regressiooni (mis võimaldavad analüüsida tunnuste olulisust p-väärtuste abil) ja otsustuspuid (näitavad sõna otseses mõttes funktsioonide olulisust puu kujul, ja samal ajal nende hierarhia). Teisest küljest kasutavad sellised algoritmid nagu Random Forest, LightGBM ja XG Boost sageli funktsioonide tähtsuse diagrammi, st joonistatakse muutujate ja "nende tähtsuse numbrite" diagramm. See on eriti kasulik siis, kui peate esitama struktureeritud põhjenduse atribuutide tähtsuse kohta nende mõju seisukohalt ettevõttele.

Regulariseerimine

Regulariseerimine toimub erapoolikuse ja dispersiooni vahelise tasakaalu kontrollimiseks. Kallutatus näitab, kui palju mudel on treeningandmete kogumile üle sobitatud. Hälve näitab, kui erinevad olid ennustused koolituse ja testi andmekogumite vahel. Ideaalis peaksid nii kallutatus kui ka dispersioon olema väikesed. Siin tulebki appi regulaarsus! On kaks peamist tehnikat:

L1 Regulariseerimine – Lasso: Lasso karistab mudeli kaalusid, et muuta nende tähtsust mudelile, ja võib isegi nullida (st eemaldada need muutujad lõplikust mudelist). Tavaliselt kasutatakse Lassot, kui andmestik sisaldab suurt hulka muutujaid ja soovite mõned neist välja jätta, et paremini mõista, kuidas olulised omadused mudelit mõjutavad (st need funktsioonid, mille Lasso on valinud ja millele on omistatud tähtsus).

L2 Regulariseerimine – Ridge'i meetod: Ridge'i ülesanne on salvestada kõik muutujad ja samal ajal omistada neile tähtsus, lähtudes nende panusest mudeli toimimisse. Ridge on hea valik, kui andmestik sisaldab väikest arvu muutujaid ja need kõik on vajalikud leidude ja saadud tulemuste tõlgendamiseks.

Kuna Ridge säilitab kõik muutujad ja Lasso teeb nende tähtsuse kindlaksmääramisel paremini tööd, töötati välja algoritm, mis ühendab mõlema regulatsiooni parimad omadused, mida tuntakse kui Elastic-Net.

Masinõppe funktsioonide valimiseks on palju rohkem võimalusi, kuid põhiidee on alati sama: demonstreerige muutujate olulisust ja seejärel eemaldage mõned neist tuleneva tähtsuse põhjal. Tähtsus on väga subjektiivne mõiste, kuna see ei ole ainult üks, vaid terve hulk mõõdikuid ja diagramme, mida saab kasutada võtmeatribuutide leidmiseks.

Täname, et lugesite! Head õppimist!

Allikas: www.habr.com

Lisa kommentaar