áá±áž áá¬á! áá»áœááºá¯ááºááá¯á·ááẠá¡ááá²á· ááá¯ááºááŒáááºáááºážá á¬ááá¯á· áá±áá¬á¡ááºáá»ááºáá®áá¬áá»á¬ážááŸáá·áº Machine Learning áá»áœááºážáá»ááºáá°áá»á¬ážááᯠááááºáá±á«áºáá«áááºá
"á¡áœááºááá¯ááºáž á¡ááŒá¶ááŒá¯áá»ááºáá»á¬áž ááá°áá¬ááᯠá¡áá¯á¶ážááŒá¯á á ááºááŸá¯áááºáááºážáá»ááºááá¯á· ML áá±á¬áºáááºáá»á¬áž ááááºáááºááŒááºáž" . CDP SpA á០Financial Analytics á¡ááŒá®ážá¡áá² Luca Monno á០áá±á¬ááºážáá«ážáá áºáá¯ááºááá¯áááºáž áá¯ááºáá±áá«áááºá
á¡áá¯á¶ážáááºáá¯á¶ážááŸáá·áº ááá¯ážááŸááºážáá±á¬ á ááºáááºáá°ááŸá¯áááºážáááºážáá»á¬ážáá²ááŸáá áºáá¯ááŸá¬ Ensemble Learning ááŒá áºáááºá Ensemble Learning ááẠXGBoostá Baggingá Random Forest ááŸáá·áº á¡ááŒá¬ážáá±á¬ algorithms áá»á¬ážá áœá¬á¡ááœáẠá¡ááŒá±áá¶áááºážááá¬ááŒá áºáááºá
Towards Data Science áá²á· áááºáááºáá²á· áá±á¬ááºážáá«ážáá±á¬ááºážááœá± á¡áá»á¬ážááŒá®ážááŸááá±ááá·áº áá»áœááºáá±á¬áº áá¬ááºáááºážááŸá
áºáá¯áẠááœá±ážáá²á·ááẠ(
EL áá¯ááºáá±á¬ááºáá»ááºááᯠááááá¯á¶ážááŒááºááá±á¬á¡áá« (á¡ááœááºááá¯ážááŸááºážáá±á¬ áá¯ááºáá¯ááºááŸá¯áá¯á¶á á¶á¡áá»áá¯á·ááŸáá·áº á¡áá¯ááºáá¯ááºáááº) ááẠáá»ááºáá¯á¶ážáá»á¬ážááᯠááá¯á¶ááá¯ááºááŒá áºááŒá®áž á€áááºážáááºážááᯠáááºáá±ážáá±á¬ áá«áá±á¬áá¹áááᯠááŸááºáááá±áá±ážáááºá
áá»áœááºá¯ááºááœáẠáááºááááºážáá»á¬ážáá«áá±á¬ ááá°áá®áá±á¬ áá±á¬áºáááºááŸá áºáᯠ(á¡á¬ážáááºážáá±á¬ áááºáá°ááŸá¯ á¡ááºáááá¯áá®ááẠááŸá áºáá¯) ááŸááá²á·áááºá ááá°áá¬ááŒááºá R² ááẠ0,90 ááŸáá·áº 0,93 á¡áá®ážáá®ážááŸááááºá ááááºááᯠáááŒáá·áºáá®á áááŠážáááºááá¯ážááŸá áºáá¯ááŒá¬ážááœáẠR² ááááºáᯠááœá±ážáá²á·áááºá áá áºáááºážááá¯ááá±á¬áº EL ááᯠá¡ááá¯ážáá¯á¶ážáá±á¬áºáááºáá±á¬áẠáá áœááºážáá±á¬ááºááá¯ááºá á±ááẠEL ááᯠáá¯á¶ážááá¯ááºáááºáᯠáááºáá²á·áá±á¬áºáááºáž á¡áá±á¬ááºážáá¯á¶áž áá±á¬áºáááºá¡ááŒá Ạááááá¯ááºáá«á
áá»áœááºá¯ááºá á¡á¶á·á¡á¬ážááá·áºá áá¬ááŸá¬á ááá¯ážááŸááºážáá±á¬ ááá·áºááŸááºážáá»ááºáá»á¬ážá ááááºáá»á¬ážááẠR² á 0,95 ááŒá áºáááºá
á¡á ááá¯ááºážááŸá¬áá±á¬á· á¡ááŸá¬ážáá áºáá¯ááᯠááŸá¬ááŒáá·áºáá±á¬á·á áá«áá±ááá·áº áá®áá±áá¬ááŸá¬ ááŸá±á¬áºá¡áááºááœá± ááŸááºáá¬ážááá¯ááºáááºááá¯á· áááºáá²á·áááºá
Ensemble Learning ááá¯áá¬áá¬áá²
EL ááŒáá·áºá áááºááẠááá¯ááá¯áá¯á¶ááŒááºá áááºáá»áááŒá®áž á áœááºážáá±á¬ááºáááºááŸááá±á¬ áá±á¬áºáááºááᯠáááŸááááºá¡ááœáẠáá±á¬áºáááºááŸá áºáᯠááá¯á·ááá¯áẠááá¯á·áááºááá¯áá±á¬ ááá·áºááŸááºážáá»ááºáá»á¬ážááᯠáá±á«ááºážá ááºááá¯ááºáá«áááºá áá±á¬áºáááºáá»á¬ážáá¡á á¯á¡áá±ážáá»á¬ážááŸáá·áºá¡áá¯ááºáá¯ááºáááºáááºážáááºážáá»á¬ážá áœá¬ááŸááááºá á€ááœáẠáá»áœááºá¯ááºááẠááá·áºá¡á¬áž á¡ááŒá¶á¥á¬ááºáá áºáá¯áá±ážááẠá¡áá¯á¶ážáááºáá¯á¶áž ááŸá áºáá¯ááᯠááŸáááºááá¯ááºáá«áááºá
ááŸáá·áº áá¯ááºáá¯ááºááŸá¯ áááŸáááá¯ááºáá±á¬ áá±á¬áºáááºáá»á¬ážá á áœááºážáá±á¬ááºáááºááᯠáá»ááºážáá»áŸááá¯ááºáááºá
ááŸáá·áº á¡áá»áá¯ážá¡á á¬ážááœá²ááŒá¬ážááŒááºáž áá±á¬áºáááºáá»á¬ážááᯠá¡ááœáŸááºážáá»á¬áž ááœá±ážáá»ááºááœáá·áºáá±ážááá¯ááºáááºá á¡áá»á¬ážáá¯á¶ážááœá±ážáá»ááºáá¶ááá±á¬áá¶ááááºááẠáá±á¬áºáááºá¡áá áºá០ááœá±ážáá»ááºááá·áºáá¶ááááºááŒá áºáááºá
áá¬ááŒá±á¬áá·áº EL á ááá¯áá±á¬ááºážááá²á
EL ááá¯ááá¯áá±á¬ááºážááœááºá áœá¬á¡áá¯ááºáá¯ááºáááŒááºážá á¡áááá¡ááŒá±á¬ááºážáááºážááŸá¬ ááá·áºááŸááºážáá»ááºáá áºáá¯á á®ááœáẠá¡ááŸá¬ážáá áºáá¯ááŸááá±á¬ááŒá±á¬áá·áºááŒá áºááẠ(ááŒá áºááá¯ááºááŒá±áá®á¡áá¯áá®á០áá»áœááºá¯ááºááá¯á·áááá¬ážáááº)á ááá·áºááŸááºážáá»ááºááŸá áºáá¯ááá¯áá±á«ááºážá ááºááŒááºážááŒáá·áº error ááá¯áá»áŸá±á¬á·áá»ááá¯ááºááŒá®áž á áœááºážáá±á¬ááºáááºá¡ááœáŸááºážáá»á¬áž (RMSEá R² á áááºááŒáá·áº) ááá¯ážáááºáá±á¬ááºážááœááºáá¬áá±á¬ááŒá±á¬áá·áºááŒá áºáááºá d.)á
áá±áá¬á¡ááœá²áá áºáá¯áá±á«áºááœáẠá¡á¬ážáááºážáá±á¬ á¡ááºáááá¯áá®áááºááŸá áºáᯠá¡áá¯ááºáá¯ááºáá¯á¶ááᯠá¡á±á¬ááºáá«áá¯á¶ááœáẠááŒááá¬ážáááºá ááá algorithm ááẠááá¯á¡ááºáááºááẠááá¯ááŒá®ážáá±á¬ slope ááŸáááŒá®ážá áá¯áááááẠáá¯ááá®ážáá«áž (áá¯á¶ááŸááºá¡ááœááºá¡áá»áœá¶ááŒá¯áá¯ááºááŒááºážááŒá±á¬áá·áº ááŒá áºááá¯ááºáááº)á áá«áá±ááá·áº ensemble ááá¯ááá¯áá±á¬ááºážááœááºáá±á¬ááááºáá»á¬ážááá¯ááŒááááºá
R² ááá¯ááŒáá·áºáá»áŸáẠáááááŸáá·áº áá¯ááááá±á·áá»áá·áºáá±áž algorithm ááẠ-0.01¹á 0.22 á¡áá®ážáá®ážááŸááááºááŒá áºááŒá®áž á¡á á¯á¡áá±ážá¡ááœáẠ0.73 ááŸáá·áº áá®áá»áŸáááºááŒá áºáááºá
á¡ááºáááá¯áá®áááºáá áºáá¯ááẠá€áá²á·ááá¯á·áá±á¬ á¡ááŒá±áá¶á¥ááá¬áá áºáá¯á¡ááœááºááẠáá¶á·áá»ááºážáá±á¬á á¶ááá°áá¬ááŒá áºáááá·áº á¡ááŒá±á¬ááºážáááºážáá»á¬ážá áœá¬ááŸááááº- á¡ááœááºá¡áá»áœá¶áááŒá áºá¡á±á¬áẠáá¯á¶ááŸááºááŒá¯áá¯ááºááẠáááºáá¯á¶ážááŒááºáá²á·ááẠááá¯á·ááá¯áẠá¡áá»áá¯á·áá±á¬ááœá²ááœá²áá»ááºáá»á¬ážááᯠááááºááŸá¬ážááẠáá¯á¶ážááŒááºáá²á·áááºá ááá¯á·ááá¯áẠáááºááẠpolynomial regression ááá¯á¡áá¯á¶ážááŒá¯ááŒá®áž ááŸá¬ážááœááºážáá±á¬áá®ááá®ááᯠááœá±ážáá»ááºááá¯ááºááŒááºážááŒá áºááá¯ááºáááºá (á¥ááá¬á áá¯ááááá®ááá®á polynomial ááá¯áá¯á¶ážá á ááºážáááºááŸá¯áá±áá¬ááẠááŸááºážááŸááºážáááºážáááºáž á¡áá»áá¯ážááá®ááŸá¯ááᯠááŒááááºá áááºážá¡ááœáẠáááááá®ááá®ááẠááá¯ááá·áºáá»á±á¬áºáááº)á
EL ááẠá¡áá±á¬ááºážáá¯á¶ážá¡áá¯ááºáá¯ááºáá±á¬á¡áá«
áá°áá®áá±á¬áá±áá¬áá±á«áºááœááºá¡áá¯ááºáá¯ááºáá±á¬áááºáá°ááŸá¯ algorithms ááŸá áºáá¯ááá¯ááŒáá·áºááŒáá«á áá¯á·á
áá±á¬áºáááºááŸá áºáá¯ááᯠáá±á«ááºážá ááºááŒá®áž á áœááºážáá±á¬ááºáááºááᯠáá»á¬ážá áœá¬áááá¯ážáááºááŒá±á¬ááºáž á€áá±áá¬ááœáẠááœá±á·ááŒááºááá¯ááºáááºá á¡á ááá¯ááºážááœááºá áá±á·áá»áá·áºáá±áž á¡ááºáááá¯áá®áááºááŸá áºáá¯á¡ááœáẠR² áááºááá¯ážáá»á¬ážááẠ-0,37 ááŸáá·áº 0,22 á¡áá®ážáá®ážááŒá áºááŒá®áž á¡á á¯á¡áá±ážá¡ááœáẠ-0,04 ááŒá áºáá¬áááºá ááá¯ááá¯áááºááŸá¬ EL áá±á¬áºáááºááẠá¡ááœáŸááºážááááºážáá»á¬ážá áá»ááºážáá»áŸáááºááá¯ážááᯠáááŸááá²á·áááºá
ááá¯á·áá±á¬áºá á€á¥ááá¬ááŸá áºáá¯ááŒá¬ážááœáẠááŒá®ážáá¬ážáá±á¬ááœá¬ááŒá¬ážáá»ááºáá áºáá¯ááŸááááº- áááá¥ááá¬ááœááºá áá±á¬áºáááºáá»á¬ážáá¡ááŸá¬ážáá»á¬ážááẠá¡áá¯ááºááá¹ááá¬áááºááœááºáá±ááŒá®áž áá¯áááááœáẠá¡ááŒá¯ááá±á¬ááŒáá·áº (áá±á¬áºáááºáá¯á¶ážáá»áá¯ážáááááºážááááºážáá»á¬ážááᯠáááá·áºááŸááºážáá¬ážáá±á¬áºáááºáž á á¬áá±ážáá°á ááá¯ážááá¯ážááŸááºážááŸááºážááẠááœá±ážáá»ááºáá²á·ááŒááºážááŒá áºáááºá á¥ááá¬á¡áá±áá²á·á)
ááá¯á·ááŒá±á¬áá·áºá Ensemble Learning ááᯠááá á¹á áááºááá¯ááºážááœáẠáááºááá¯ááºááŸá¯/áá»á¶á·ááŸá¶á·ááŸá¯ áááºáá»ááºáá®ááŸá¯ááᯠááá¯ážáááºá á±áááºá¡ááœáẠá¡áá¯á¶ážááŒá¯ááá¯ááºáááºá áá±á¬áºáááºá¡ááŸá¬ážá¡ááœááºážáá»á¬ážááẠá¡ááŒá¯ááá±á¬áá±á¬ááºáá±á¬áááºá ááºááŸá¯áááŸááá«á EL ááá¯á¡áá¯á¶ážááŒá¯ááŒááºážááŒáá·áº ááá¯ááá¯áá±á¬ááºážááœááºáá±á¬á áœááºážáá±á¬ááºáááºááá¯ááŒá áºáá±á«áºá á±ááá¯ááºáááºá.
áá áºáá¬ážáááºážááŒá áºáá±ááŒááºážááŸáá·áº ááœá²ááŒá¬ážáá±á¬áá¯á¶á á¶áá»á¬áž
áááŒá¬ááááá¯áááᯠEL ááᯠáá áºáá¬ážáááºážáá»áá±á¬ áá±á¬áºáááºáá»á¬ážááœáẠ(á€á¥ááᬠááá¯á·ááá¯áẠáá»áááºážáá áºáá±á¬áá²á·ááá¯á·) ááœááºá¡áá¯á¶ážááŒá¯áá±á¬áºáááºáž á¡ááŸááºááááºááœáẠááá°áá®áá±á¬áá¯á¶á á¶áá»á¬áž (linear regression + neural network + XGBoost) ááᯠááá°áá®áá±á¬ááŸááºážááŒááááºážááŸááºá¡á á¯á¶áá»á¬ážááŒáá·áº áá±á«ááºážá ááºááá¯ááºáááºá áááºážááẠáááºááœáŸááºááŸá¯áááŸááá±á¬ á¡ááŸá¬ážáá»á¬ážááᯠááŒá áºáá±á«áºá á±ááŒá®áž á áœááºážáá±á¬ááºáááºááᯠááŒáŸáá·áºáááºááá¯ááºááœááºááŸááááºá
á¡á á¯á ᯠááœá²ááŒá¬ážááŒááºážááŸáá·áº ááŸáá¯ááºážááŸááºááŒááºážá
EL ááẠá¡á á¯á á¯áá®á¡áá¯áá®ááœáẠááœá²ááŒá¬ážááŒááºážá¡ááœáẠá¡áá¬ážáá°áááºážáááºážááŒáá·áº áá¯ááºáá±á¬ááºáá±á¬áºáááºáž áá»áœááºá¯ááºááá¯á·á¡ááœáẠááá¯áá±á¬ááºážáá«áááºá
ááœá²ááŒá¬ážáá±á¬á¡áá«ááœááºá áááºááœáŸááºááŸá¯áááŸááá±á¬ á áá±á¬á·ááŸááºáá¬áá»á¬ážááœáẠáááºážááŸá®ážááŒáŸá¯ááºááŸá¶ááŒááºážááŒáá·áº ááá·áºá áœááºážáá±á¬ááºáááºááœáẠááœá²ááœá²ááŸá¯ááᯠáá»áŸá±á¬á·áá»ááẠááŒáá¯ážá á¬ážáááºá áá±á¬ááºážá áœá¬ááœá²ááŒá¬ážáá±á¬á áá±á¬á·ááŸááºáá¬á¡á á¯á á¯ááẠá¡ááá¯ážáá¯á¶ážáá±á¬á áá±á¬á·ááŸááºáá¬áá»á¬ážááẠáá¬ááœááºáá±á¬ááºážááœááºáá±á¬áºáááºáž á¡áá±á¬ááºážáá¯á¶ážááẠáááºáá±á¬á·á០ááá¯áá±á¬ááºážáááºááá¯ááºáá«á
Warren Buffett ááá¯ááá¯ážáá¬áž-
"ááœá²ááŒá¬ážááŒááºážááẠáá±á¬áááᯠáá¯áá¶ááŒááºážááŒá áºáááºá áá°áá¬áá¯ááºáá±áááºááᯠááááá±á¬áá°áá áºáŠážá¡ááœááºá áááºážááẠá¡áááá¹áá«ááºá¡áááºážáááºáá¬ááŸááááºá"
á ááºáááºáá°ááŸá¯ááœáẠEL ááẠááá·áºáá±á¬áºáááºáááœá²ááŒá¬ážááŸá¯ááᯠáá»áŸá±á¬á·áá»áá±ážáááºá ááá¯á·áá±á¬áº áááºážááẠá¡áá±á¬ááºážáá¯á¶ážáááŠážáá±á¬áºáááºááẠá¡áá¯á¶ážá á¯á¶á áœááºážáá±á¬ááºáááºááá¯áá±á¬ááºážáá±á¬ áá±á¬áºáááºááᯠááŒá áºáá±á«áºá á±ááá¯ááºáááºá
á¡ááŸá áºáá»á¯ááºáááº
áá±á¬áºáááºáá»á¬ážá áœá¬ááᯠáá áºáá¯áááºážá¡ááŒá Ạáá±á«ááºážá ááºááŒááºážááẠááœá²ááŒá¬ážááŸá¯ áááºááá¯ááºááŸá¯ááŒá¿áá¬ááᯠááŒá±ááŸááºážáá»ááºáá±ážááá¯ááºááá·áº ááá¯ážááŸááºážáá±á¬áááºážáááºážáá áºáá¯ááŒá áºáááºá
ááá·áºááœáẠáá±á¬ááºážááœááºá áœá¬á¡áá¯ááºáá¯ááºááá¯ááºáá±á¬ áá±á¬áºáááºááŸá áºáᯠááá¯á·ááá¯áẠááá¯á·áááºááá¯áá«á áááºážááá¯á·ááŒá¬ážááœáẠáááœá±ážáá»ááºáá«ááŸáá·áº- áááºážááá¯á·á¡á¬ážáá¯á¶ážááᯠá¡áá¯á¶ážááŒá¯áá« (ááá¯á·áá±á¬áºáááºáž áááááŒáá·áº)á
áá®áááºážááŒá±á¬ááºážááᯠááá¯ážáááºá¡á±á¬ááºáá¯ááºááá¯á· á
áááºáááºá
á¬ážáá«ááá¬ážá á¡ááá²á·ááá¯ááºááŒáááºáááºážá
á¬á¡ááœáẠá
á¬áááºážááœááºážáá«á
source: www.habr.com