The Magic saka Ensemble Learning

Hey Habr! Kita ngajak Insinyur Data lan spesialis Pembelajaran Mesin menyang pelajaran Demo gratis "Output model ML menyang lingkungan industri nggunakake conto rekomendasi online". Kita uga nerbitake artikel Luca Monno - Kepala Analisis Keuangan ing CDP SpA.

Salah sawijining cara machine learning sing paling migunani lan prasaja yaiku Ensemble Learning. Ensemble Learning minangka metode ing mburi XGBoost, Bagging, Random Forest lan akeh algoritma liyane.

Ana akeh artikel sing apik babagan Menuju Ilmu Data, nanging aku milih rong crita (pisanan ΠΈ kapindho) sing paling tak senengi. Dadi kenapa nulis artikel liyane babagan EL? Amarga aku pengin nuduhake sampeyan cara kerjane nganggo conto sing gampang, sing nggawe aku ngerti yen ora ana sihir ing kene.

Nalika aku pisanan weruh EL ing tumindak (makarya karo sawetara model regresi banget prasaja) Aku ora bisa pracaya mripatku, lan aku isih elinga profesor sing mulang kula cara iki.

Aku duwe rong model sing beda (loro algoritma latihan sing lemah) kanthi metrik metu saka sampel RΒ² padha karo 0,90 lan 0,93, mungguh. Sadurunge ndeleng asil, aku mikir bakal entuk RΒ² ing endi wae ing antarane rong nilai asli. Ing tembung liyane, aku pitados bilih EL bisa digunakake kanggo nggawe model performa ora minangka miskin minangka model paling awon, nanging ora uga model paling apik bisa nindakake.

Aku kaget banget, mung rata-rata prediksi ngasilake RΒ² 0,95. 

Ing kawitan aku miwiti looking for kesalahan, nanging banjur aku panginten sing ana sawetara Piandel ndhelikake kene!

Apa Ensemble Learning

Kanthi EL, sampeyan bisa nggabungake prediksi saka loro utawa luwih model kanggo ngasilake model sing luwih mantep lan performa. Ana akeh metodologi kanggo nggarap ensemble model. Ing kene aku bakal ndemek loro sing paling migunani kanggo menehi ringkesan.

Kanthi bantuan saka regresi iku bisa kanggo rata-rata kinerja model kasedhiya.

Kanthi bantuan saka klasifikasi Sampeyan bisa menehi model kesempatan kanggo milih label. Label sing paling kerep dipilih yaiku sing bakal dipilih dening model anyar.

Apa EL dianggo luwih

Alesan utama kenapa EL nindakake luwih apik yaiku saben prediksi duwe kesalahan (kita ngerti iki saka teori probabilitas), nggabungake rong prediksi bisa mbantu nyuda kesalahan, lan mulane nambah metrik kinerja (RMSE, RΒ², lsp.). d.).

Diagram ing ngisor iki nuduhake carane loro algoritma sing ora bisa digunakake ing set data. Algoritma pisanan nduweni kemiringan sing luwih gedhe tinimbang sing dibutuhake, dene sing kapindho meh nol (bisa uga amarga over-regularization). Nanging gamelan nuduhake asil sing luwih apik. 

Yen sampeyan ndeleng indikator RΒ², banjur kanggo algoritma latihan pisanan lan kaloro bakal padha karo -0.01ΒΉ, 0.22, lan kanggo gamelan bakal padha karo 0.73.

The Magic saka Ensemble Learning

Ana akeh alasan kenapa algoritma bisa dadi model sing ala sanajan ing conto dhasar kaya iki: bisa uga sampeyan mutusake nggunakake regularisasi supaya ora overfitting, utawa sampeyan mutusake ora ngilangi sawetara anomali, utawa bisa uga sampeyan nggunakake regresi polinomial lan salah. gelar (contone, kita digunakake polynomial saka jurusan kapindho, lan data test nuduhake asimetri cetha sing jurusan katelu bakal luwih cocog).

Nalika EL dianggo luwih

Ayo goleki rong algoritma sinau sing digunakake kanthi data sing padha.

The Magic saka Ensemble Learning

Ing kene sampeyan bisa ndeleng manawa nggabungake rong model kasebut ora nambah kinerja. Kaping pisanan, kanggo loro algoritma latihan, indikator RΒ² padha karo -0,37 lan 0,22, lan kanggo gamelan kasebut dadi -0,04. Tegese, model EL nampa nilai rata-rata indikator.

Nanging, ana prabΓ©dan gedhe ing antarane rong conto kasebut: ing conto pisanan, kesalahan model ana hubungane negatif, lan ing kaloro, hubungane positif (koefisien saka telung model ora dikira, nanging mung dipilih dening penulis minangka conto.)

Mulane, Ensemble Learning bisa digunakake kanggo nambah imbangan bias / varians ing kasus apa wae, nanging nalika Kesalahan model ora ana hubungane positif, nggunakake EL bisa nyebabake kinerja sing luwih apik.

Model homogen lan heterogen

Kerep banget EL digunakake ing model homogen (kaya ing conto iki utawa alas acak), nanging nyatane sampeyan bisa gabungke model beda (regresi linear + jaringan syaraf + XGBoost) karo set beda saka variabel panjelasan. Iki bakal nyebabake kesalahan sing ora ana hubungane lan kinerja sing luwih apik.

Perbandingan karo diversifikasi portofolio

EL kerjane padha karo diversifikasi ing teori portofolio, nanging luwih apik kanggo kita. 

Nalika diversifikasi, sampeyan nyoba nyuda variasi kinerja kanthi nandur modal ing saham sing ora ana hubungane. Portofolio saham sing maneka warna bakal luwih apik tinimbang saham individu sing paling awon, nanging ora bakal luwih apik tinimbang sing paling apik.

Kanggo ngutip Warren Buffett: 

"Diversifikasi minangka pertahanan nglawan kebodohan; kanggo wong sing ora ngerti apa sing ditindakake, [diversifikasi] ora ana gunane."

Ing machine learning, EL mbantu nyuda variasi model sampeyan, nanging bisa nyebabake model kanthi kinerja sakabehe luwih apik tinimbang model asli sing paling apik.

Ayo sumurake asil

Nggabungake pirang-pirang model dadi siji minangka teknik sing relatif prasaja sing bisa mimpin kanggo ngrampungake masalah bias varian lan ningkatake kinerja.

Yen sampeyan duwe loro utawa luwih model sing bisa digunakake, aja milih ing antarane: gunakake kabeh (nanging kanthi ati-ati)!

Tertarik ngembangake arah kasebut? Ndaftar kanggo pawulangan Demo gratis "Output model ML menyang lingkungan industri nggunakake conto rekomendasi online" lan melu ing patemon online karo Andrey Kuznetsov β€” Machine Learning Engineer ing Mail.ru Group.

Source: www.habr.com

Add a comment