Pilihan fitur dina pembelajaran mesin

Héy Habr!

Kami di Reksoft narjamahkeun artikel kana basa Rusia Pilihan Fitur dina Mesin Learning. Kami ngarepkeun éta bakal mangpaat pikeun sadayana anu resep kana topik éta.

Di dunya nyata, data henteu salawasna bersih sakumaha konsumén bisnis kadang pikir. Ieu sababna pertambangan data sareng wrangling data diperyogikeun. Éta ngabantosan ngaidentipikasi nilai sareng pola anu leungit dina data terstruktur query anu teu tiasa diidentipikasi ku manusa. Pikeun milarian sareng nganggo pola ieu pikeun ngaduga hasil nganggo hubungan anu kapanggih dina data, pembelajaran mesin tiasa dianggo.

Pikeun ngartos algoritma naon waé, anjeun kedah ningali sadaya variabel dina data sareng terangkeun naon anu diwakilan ku variabel éta. Ieu kritis sabab rationale balik hasil dumasar kana pamahaman data. Lamun data ngandung 5 atawa malah 50 variabel, anjeun tiasa nalungtik kabeh. Kumaha upami aya 200 diantarana? Lajeng aya saukur moal cukup waktu pikeun diajar unggal variabel tunggal. Leuwih ti éta, sababaraha algoritma teu dianggo pikeun data categorical, lajeng anjeun bakal kudu ngarobah sakabeh kolom categorical kana variabel kuantitatif (aranjeunna bisa kasampak kuantitatif, tapi metrics bakal nembongkeun yen aranjeunna categorical) pikeun nambahkeun kana model. Ku kituna, jumlah variabel naek, sarta aya ngeunaan 500. Naon anu kudu dipigawé ayeuna? Hiji panginten yén jawabanna nyaéta ngirangan dimensi. Algoritma pangurangan diménsi ngurangan jumlah parameter tapi boga dampak negatif kana interprétasi. Kumaha upami aya téknik sanés anu ngaleungitkeun fitur bari ngajantenkeun anu sésana gampang kahartos sareng diinterpretasi?

Gumantung kana naha analisa dumasar kana régrési atanapi klasifikasi, algoritma pamilihan fitur tiasa bénten, tapi ideu utama palaksanaanna tetep sami.

Variabel Korélasi Kacida

Variabel-variabel anu aya hubunganana sareng anu sanés nyayogikeun inpormasi anu sami pikeun modél, janten henteu kedah dianggo sadayana pikeun analisa. Contona, upami susunan data ngandung fitur "Waktu Online" jeung "Lalu lintas Dipaké", urang bisa nganggap yén maranéhna bakal rada correlated, sarta kami bakal ningali korelasi kuat sanajan urang milih sampel data unbiased. Dina hal ieu, ngan hiji variabel ieu diperlukeun dina modél. Upami anjeun nganggo duanana, modélna bakal dipasangkeun sareng bias kana hiji fitur khusus.

P-nilai

Dina algoritma sapertos régrési linier, modél statistik awal mangrupikeun ide anu saé. Éta ngabantosan pikeun nunjukkeun pentingna fitur ngaliwatan nilai-p na anu dicandak ku modél ieu. Saatos netepkeun tingkat signifikansi, urang pariksa nilai-p anu dihasilkeun, sareng upami aya nilai sahandapeun tingkat signifikansi anu ditangtukeun, maka fitur ieu dinyatakeun signifikan, nyaéta, parobihan nilaina kamungkinan bakal nyababkeun parobahan dina nilai. udagan.

Pilihan langsung

Pilihan maju nyaéta téhnik anu ngalibatkeun nerapkeun régrési stepwise. Wangunan model dimimitian ku enol lengkep, nyaeta, model kosong, lajeng unggal Iteration nambahkeun variabel nu ngajadikeun pamutahiran kana model keur diwangun. Variabel mana nu ditambahkeun kana model ditangtukeun ku significance na. Ieu bisa diitung ngagunakeun rupa metrics. Cara anu paling umum nyaéta ngagunakeun nilai-p anu dicandak dina modél statistik asli nganggo sadaya variabel. Kadang-kadang pilihan langsung bisa ngakibatkeun overfitting model sabab meureun aya variabel kacida correlated dina modél, sanajan aranjeunna nyadiakeun informasi anu sarua pikeun modél (tapi model masih nembongkeun pamutahiran).

Pilihan tibalik

Pilihan tibalik ogé ngalibatkeun léngkah-léngkah ngaleungitkeun sipat, tapi dina arah anu sabalikna dibandingkeun sareng pilihan maju. Dina hal ieu, modél awal ngawengku sakabéh variabel bebas. Variabel lajeng ngaleungitkeun (hiji per iteration) lamun maranéhna teu nyumbangkeun nilai kana model regression anyar dina unggal iteration. Pangaluaran fitur dumasar kana nilai-p tina modél awal. Metoda ieu ogé boga kateupastian nalika miceun variabel kacida correlated.

Éliminasi Fitur Recursive

RFE mangrupakeun téknik/algoritma loba dipaké pikeun milih jumlah pasti fitur signifikan. Kadang-kadang métode dipaké pikeun ngajelaskeun sababaraha fitur "pangpentingna" nu pangaruh hasil; sarta kadangkala pikeun ngurangan jumlah anu kacida gedéna tina variabel (kira-kira 200-400), sarta ngan maranéhanana anu nyieun sahenteuna sababaraha kontribusi ka model anu dipikagaduh, sarta sakabeh batur anu kaasup. RFE ngagunakeun sistem ranking. Fitur dina set data ditugaskeun pangkat. Jajaran ieu lajeng dipaké pikeun recursively ngaleungitkeun fitur dumasar kana collinearity antara aranjeunna sarta pentingna fitur maranéhanana dina modél. Salian fitur ranking, RFE bisa némbongkeun naha fitur ieu penting atawa henteu malah pikeun sajumlah fitur nu tangtu (sabab kamungkinan pisan yén jumlah dipilih fitur bisa jadi teu optimal, sarta jumlah optimal fitur bisa jadi boh leuwih. atawa kurang ti jumlah nu dipilih).

Diagram Pentingna Fitur

Lamun ngobrol ngeunaan interpretability tina algoritma learning mesin, urang biasana ngabahas régrési linier (anu ngidinan Anjeun pikeun nganalisis pentingna fitur ngagunakeun p-nilai) jeung tangkal kaputusan (sacara harfiah némbongkeun pentingna fitur dina bentuk tangkal, sarta di sakaligus hirarki maranéhanana). Di sisi anu sanés, algoritma sapertos Random Forest, LightGBM sareng XG Boost sering ngagunakeun diagram pentingna fitur, nyaéta, diagram variabel sareng "angka pentingna" direncanakeun. Ieu hususna kapaké nalika anjeun kedah nyayogikeun rasional terstruktur pikeun pentingna atribut dina hal dampakna dina bisnis.

Regularisasi

Regularisasi dilakukeun pikeun ngontrol kasaimbangan antara bias sareng varian. Bias nembongkeun sabaraha model geus overfitted dina set data latihan. Panyimpangan nunjukkeun kumaha bédana prediksi antara set data latihan sareng tés. Ideally, duanana bias jeung varian kedah leutik. Ieu dimana regularization datang ka nyalametkeun teh! Aya dua téknik utama:

L1 Regularization - Lasso: Lasso ngahukum beurat modél pikeun ngarobih pentingna pikeun modél sareng malah tiasa ngabatalkeunana (nyaéta ngaleungitkeun variabel-variabel éta tina modél ahir). Ilaharna, Lasso dipaké nalika susunan data ngandung angka nu gede ngarupakeun variabel jeung rék ngaluarkeun sababaraha di antarana pikeun leuwih ngarti kumaha penting fitur mangaruhan model (nyaéta, fitur nu geus dipilih ku Lasso tur geus ditugaskeun pentingna).

Regularisasi L2 - Métode Ridge: Tugas Ridge nyaéta pikeun nyimpen sadaya variabel sareng dina waktos anu sami masihan pentingna pikeun aranjeunna dumasar kana kontribusina pikeun pagelaran modél. Ridge bakal janten pilihan anu saé upami set data ngandung sajumlah variabel sareng sadayana dipikabutuh pikeun napsirkeun papanggihan sareng hasil anu dicandak.

Kusabab Ridge ngajaga sadaya variabel sareng Lasso ngalakukeun padamelan anu langkung saé pikeun netepkeun pentingna, algoritma dikembangkeun anu ngagabungkeun fitur-fitur pangsaéna tina dua régulasi, anu katelah Elastic-Net.

Aya seueur deui cara pikeun milih fitur pikeun diajar mesin, tapi ideu utama tetep sami: nunjukkeun pentingna variabel teras ngaleungitkeun sababaraha di antarana dumasar kana pentingna anu hasilna. Pentingna mangrupikeun istilah anu subjektif, sabab sanés ngan ukur hiji, tapi sakumpulan métrik sareng bagan anu tiasa dianggo pikeun milarian atribut konci.

Hatur nuhun pikeun maca! Wilujeng diajar!

sumber: www.habr.com

Tambahkeun komentar