Pilihan fitur ing machine learning

Hey Habr!

Kita ing Reksoft nerjemahake artikel kasebut menyang basa Rusia Pilihan Fitur ing Machine Learning. Muga-muga bisa migunani kanggo kabeh wong sing kasengsem ing topik kasebut.

Ing jagad nyata, data ora mesthi resik kaya sing dikira pelanggan bisnis. Iki sebabe data mining lan data wrangling dikarepake. Iki mbantu ngenali nilai lan pola sing ilang ing data terstruktur pitakon sing ora bisa dingerteni manungsa. Kanggo nemokake lan nggunakake pola kasebut kanggo prΓ©dhiksi asil nggunakake hubungan sing ditemokake ing data, learning machine migunani.

Kanggo mangerteni algoritma apa wae, sampeyan kudu ndeleng kabeh variabel ing data lan nemtokake apa sing diwakili dening variabel kasebut. Iki kritis amarga alasan ing mburi asil adhedhasar pemahaman data. Yen data ngemot 5 utawa malah 50 variabel, sampeyan bisa mriksa kabeh. Apa yen ana 200? Banjur ora ana cukup wektu kanggo sinau saben variabel. Kajaba iku, sawetara algoritma ora bisa digunakake kanggo data kategoris, banjur sampeyan kudu ngonversi kabeh kolom kategoris menyang variabel kuantitatif (bisa uga katon kuantitatif, nanging metrik bakal nuduhake yen kategoris) kanggo nambah menyang model. Mangkono, jumlah variabel mundhak, lan ana kira-kira 500. Apa sing kudu ditindakake saiki? Siji bisa mikir yen jawabane bakal nyuda dimensi. Algoritma pangurangan dimensi nyuda jumlah paramèter nanging nduwe pengaruh negatif marang interpretasi. Apa yen ana teknik liya sing ngilangi fitur nalika nggawe liyane gampang dingerteni lan diinterpretasikake?

Gumantung apa analisis adhedhasar regresi utawa klasifikasi, algoritma pilihan fitur bisa beda-beda, nanging ide utama implementasine tetep padha.

Variabel Highly Correlated

Variabel sing ana hubungane banget karo siji liyane nyedhiyakake informasi sing padha karo model, mula ora perlu nggunakake kabeh kanggo analisis. Contone, yen dataset ngemot fitur "Wektu Online" lan "Lalu Lintas Digunakake", kita bisa nganggep manawa bakal ana hubungane, lan kita bakal weruh korΓ©lasi sing kuat sanajan kita milih sampel data sing ora bias. Ing kasus iki, mung siji saka variabel iki dibutuhake ing model. Yen sampeyan nggunakake loro, model bakal overfitted lan bias menyang siji fitur tartamtu.

P-nilai

Ing algoritma kaya regresi linier, model statistik awal tansah apik. Iki mbantu nuduhake pentinge fitur liwat nilai-p sing dipikolehi model iki. Sawise nyetel tingkat pinunjul, kita mriksa nilai-p sing diasilake, lan yen ana nilai sing ana ing sangisore tingkat pinunjul sing ditemtokake, fitur iki diarani signifikan, yaiku, owah-owahan ing nilai kasebut bakal nyebabake owah-owahan ing nilai kasebut. target.

Pilihan langsung

Pilihan maju minangka teknik sing nggunakake regresi bertahap. Bangunan model diwiwiti kanthi nul lengkap, yaiku model kosong, banjur saben pengulangan nambahake variabel sing ndadekake perbaikan kanggo model sing dibangun. Variabel endi sing ditambahake ing model ditemtokake dening pinunjul. Iki bisa diwilang nggunakake macem-macem metrik. Cara sing paling umum yaiku nggunakake nilai-p sing dipikolehi ing model statistik asli nggunakake kabeh variabel. Kadhangkala pilihan maju bisa nyebabake model sing overfitting amarga bisa uga ana variabel sing gegayutan banget ing model kasebut, sanajan menehi informasi sing padha karo model kasebut (nanging model kasebut isih nuduhake perbaikan).

Pilihan mbalikke

Pilihan mbalikke uga nyakup penghapusan sifat-sifat langkah-demi-langkah, nanging ing arah ngelawan dibandhingake karo pilihan maju. Ing kasus iki, model wiwitan kalebu kabeh variabel bebas. Variabel banjur diilangi (siji saben iterasi) yen ora menehi kontribusi marang model regresi anyar ing saben pengulangan. Pengecualian fitur adhedhasar nilai-p saka model wiwitan. Cara iki uga duwe kahanan sing durung mesthi nalika ngilangi variabel sing ana hubungane banget.

Eliminasi Fitur Rekursif

RFE minangka teknik/algoritma sing akeh digunakake kanggo milih jumlah fitur sing penting. Kadhangkala cara kasebut digunakake kanggo nerangake sawetara fitur "paling penting" sing mengaruhi asil; lan kadhangkala kanggo ngurangi jumlah banget akeh variabel (bab 200-400), lan mung sing nggawe paling sawetara kontribusi kanggo model disimpen, lan kabeh liyane sing tilar. RFE nggunakake sistem peringkat. Fitur ing set data diwenehi pangkat. Rangking kasebut banjur digunakake kanggo ngilangi fitur kanthi rekursif adhedhasar kolinearitas ing antarane lan pentinge fitur kasebut ing model kasebut. Saliyane fitur peringkat, RFE bisa nuduhake manawa fitur kasebut penting utawa ora kanggo sawetara fitur tartamtu (amarga kemungkinan jumlah fitur sing dipilih bisa uga ora optimal, lan jumlah fitur sing optimal bisa uga luwih akeh. utawa kurang saka nomer sing dipilih).

Diagram Pentinge Fitur

Nalika ngomong babagan interpretasi algoritma pembelajaran mesin, kita biasane ngrembug babagan regresi linier (sing ngidini sampeyan nganalisa pentinge fitur nggunakake nilai-p) lan wit keputusan (secara harfiah nuduhake pentinge fitur ing wangun wit, lan ing wektu sing padha hirarki). Ing sisih liya, algoritma kayata Random Forest, LightGBM lan XG Boost asring nggunakake diagram wigati fitur, yaiku, diagram variabel lan "nomer pentinge" direncanakake. Iki migunani utamane yen sampeyan kudu menehi alasan terstruktur babagan pentinge atribut ing babagan pengaruhe ing bisnis.

Regularisasi

Regularisasi ditindakake kanggo ngontrol keseimbangan antarane bias lan varian. Bias nuduhake sepira model wis overfitted ing set data latihan. Penyimpangan nuduhake sepira bedane prediksi antarane set data latihan lan tes. Saenipun, loro bias lan varian kudu cilik. Iki ngendi regularization teka kanggo ngluwari! Ana rong teknik utama:

Regularisasi L1 - Lasso: Lasso ngukum bobot model kanggo ngganti pentinge kanggo model lan malah bisa ngreset menyang nol (yaiku mbusak variabel kasebut saka model pungkasan). Biasane, Lasso digunakake nalika dataset ngemot nomer akeh variabel lan sampeyan pengin ngilangi sawetara saka wong-wong mau kanggo luwih ngerti carane fitur penting mengaruhi model (yaiku, fitur sing wis dipilih dening Lasso lan wis diutus wigati).

Regularisasi L2 - Metode Ridge: Tugas Ridge yaiku kanggo nyimpen kabeh variabel lan ing wektu sing padha menehi wigatine adhedhasar kontribusi kanggo kinerja model. Ridge bakal dadi pilihan sing apik yen dataset ngemot sawetara variabel lan kabeh mau perlu kanggo napsirake temuan lan asil sing dipikolehi.

Wiwit Ridge nyimpen kabeh variabel lan Lasso nindakake tugas sing luwih apik kanggo netepake pentinge, algoritma dikembangake sing nggabungake fitur paling apik saka loro regularisasi, sing dikenal minangka Elastic-Net.

Ana akeh cara liyane kanggo milih fitur kanggo machine learning, nanging gagasan utama tansah padha: nduduhake pentinge variabel lan banjur ngilangi sawetara saka iku adhedhasar wigati asil. Wigati minangka istilah sing subyektif banget, amarga ora mung siji, nanging kabeh metrik lan grafik sing bisa digunakake kanggo nemokake atribut kunci.

Matur nuwun kanggo maca! Sugeng sinau!

Source: www.habr.com

Add a comment