Pembelajaran Ensemble Sihir

Hei Habr! Kami mengundang Insinyur Data dan pakar Pembelajaran Mesin ke pelajaran Demo gratis "Pengenalan model ML ke lingkungan industri menggunakan contoh rekomendasi online". Kami juga menerbitkan artikel oleh Luca Monno - Head of Financial Analytics di CDP SpA.

Salah satu metode pembelajaran mesin yang paling berguna dan sederhana adalah Ensemble Learning. Ensemble Learning adalah teknik dasar untuk XGBoost, Bagging, Random Forest, dan banyak algoritme lainnya.

Ada banyak artikel bagus tentang Menuju Ilmu Data, tetapi saya memilih dua cerita (pertama и kedua) yang paling saya sukai. Jadi mengapa menulis artikel lain tentang EL? Karena aku ingin menunjukkannya padamu cara kerjanya pada contoh sederhana, yang membuat saya mengerti bahwa tidak ada keajaiban di sini.

Ketika saya pertama kali melihat EL beraksi (bekerja dengan beberapa model regresi yang sangat sederhana) saya tidak dapat mempercayai mata saya, dan saya masih ingat profesor yang mengajari saya metode ini.

Saya memiliki dua model berbeda (dua algoritma pembelajaran yang lemah) dengan eksponen di luar sampel R² masing-masing sama dengan 0,90 dan 0,93. Sebelum melihat hasilnya, saya pikir saya akan mendapatkan R² di antara dua nilai awal. Dengan kata lain, saya pikir EL dapat digunakan untuk membuat model tidak bekerja seburuk model terburuk, tetapi tidak sebaik model terbaik.

Yang sangat mengejutkan saya, hasil rata-rata sederhana dari prediksi memberikan R² sebesar 0,95. 

Awalnya saya mulai mencari kesalahan, tetapi kemudian saya berpikir mungkin ada keajaiban yang tersembunyi di sini!

Apa itu Pembelajaran Ensemble

Dengan EL, Anda dapat menggabungkan prediksi dari dua model atau lebih untuk mendapatkan model yang lebih andal dan berperforma baik. Ada banyak metodologi untuk bekerja dengan ansambel model. Di sini saya akan menyentuh dua yang paling berguna untuk memberi Anda gambaran.

Dengan regresi Anda dapat merata-ratakan kinerja model yang tersedia.

Dengan klasifikasi Anda dapat membiarkan model memilih label. Label yang paling sering dipilih adalah yang akan dipilih oleh model baru.

Mengapa EL Bekerja Lebih Baik

Alasan utama mengapa EL bekerja lebih baik adalah karena setiap prediksi memiliki kesalahan (kita mengetahuinya dari teori probabilitas), menggabungkan dua prediksi dapat membantu mengurangi kesalahan, dan dengan demikian meningkatkan kinerja indikator (RMSE, R², dll.) d.).

Diagram berikut menunjukkan bagaimana dua algoritma lemah bekerja pada dataset. Algoritme pertama memiliki kemiringan yang lebih besar dari yang diperlukan, sedangkan yang kedua hampir nol (mungkin karena regularisasi yang berlebihan). Tetapi ansambel menunjukkan hasil yang lebih baik. 

Jika Anda melihat R², maka algoritme pelatihan pertama dan kedua akan sama dengan -0.01¹, 0.22, masing-masing, sedangkan untuk ansambel akan sama dengan 0.73.

Pembelajaran Ensemble Sihir

Ada banyak alasan mengapa algoritme bisa menjadi model yang buruk bahkan untuk contoh dasar seperti ini: mungkin Anda memutuskan untuk menggunakan regularisasi untuk menghindari overfitting, atau Anda memutuskan untuk tidak menghilangkan beberapa anomali, atau mungkin Anda menggunakan regresi polinomial dan memilih derajat yang salah (misalnya, menggunakan polinomial derajat kedua, dan data uji menunjukkan asimetri yang jelas, yang mana derajat ketiga lebih cocok).

Saat EL Berfungsi Terbaik

Mari kita lihat dua algoritma pembelajaran yang bekerja pada data yang sama.

Pembelajaran Ensemble Sihir

Di sini Anda dapat melihat bahwa menggabungkan kedua model tidak banyak meningkatkan performa. Awalnya, untuk dua algoritme pelatihan, nilai R² masing-masing adalah -0,37 dan 0,22, dan untuk ansambel ternyata -0,04. Artinya, model EL mendapatkan nilai rata-rata dari indikator-indikator tersebut.

Namun, ada perbedaan besar antara kedua contoh ini: pada contoh pertama, kesalahan model berkorelasi negatif, dan pada contoh kedua - positif (koefisien dari ketiga model tidak diperkirakan, tetapi hanya dipilih oleh penulis sebagai contoh.)

Oleh karena itu, Pembelajaran Ensemble dapat digunakan untuk meningkatkan keseimbangan bias/dispersi dalam semua kasus, tetapi kapan kesalahan model tidak berkorelasi positif, menggunakan EL dapat menghasilkan kinerja yang lebih baik.

Model homogen dan heterogen

Sangat sering EL digunakan pada model homogen (seperti dalam contoh ini atau hutan acak), tetapi sebenarnya Anda dapat menggabungkan model yang berbeda (regresi linier + jaringan saraf + XGBoost) dengan set variabel penjelas yang berbeda. Ini kemungkinan akan menyebabkan kesalahan yang tidak berkorelasi dan meningkatkan kinerja.

Perbandingan dengan diversifikasi portofolio

EL bekerja dengan cara yang mirip dengan diversifikasi dalam teori portofolio, tetapi jauh lebih baik bagi kami. 

Saat Anda melakukan diversifikasi, Anda mencoba mengurangi varian kinerja Anda dengan berinvestasi pada saham yang tidak berkorelasi. Portofolio saham yang terdiversifikasi dengan baik akan berkinerja lebih baik daripada saham tunggal terburuk, tetapi tidak pernah lebih baik dari yang terbaik.

Mengutip Warren Buffett: 

"Diversifikasi adalah pertahanan terhadap ketidaktahuan, bagi seseorang yang tidak tahu apa yang dia lakukan, [diversifikasi] itu sangat tidak masuk akal."

Dalam pembelajaran mesin, EL membantu mengurangi variasi model Anda, tetapi hal ini dapat menghasilkan model dengan performa keseluruhan yang lebih baik daripada model awal terbaik.

Menyimpulkan

Menggabungkan beberapa model menjadi satu adalah teknik yang relatif sederhana yang dapat menghasilkan solusi untuk masalah bias varians dan peningkatan kinerja.

Jika Anda memiliki dua model atau lebih yang bekerja dengan baik, jangan memilih di antara keduanya: gunakan semuanya (namun dengan hati-hati)!

Apakah Anda tertarik untuk mengembangkan ke arah ini? Mendaftar untuk pelajaran demo gratis "Pengenalan model ML ke lingkungan industri menggunakan contoh rekomendasi online" dan berpartisipasi dalam pertemuan online dengan Andrey Kuznetsov — Insinyur Pembelajaran Mesin di Grup Mail.ru.

Sumber: www.habr.com

Tambah komentar