එන්සෙම්බල් ඉගෙනීමේ මැජික්

හෙලෝ, හබ්ර්! අපි Data Engineers සහ Machine Learning විශේෂඥයින්ට නොමිලේ Demo පාඩමකට ආරාධනා කරමු "අන්තර්ජාල නිර්දේශවල උදාහරණය භාවිතා කරමින් කාර්මික පරිසරයකට ML මාදිලි නිමැවුම". අපි CDP SpA හි මූල්‍ය විශ්ලේෂණ ප්‍රධානියා - Luca Monno ලිපිය ද ප්‍රකාශයට පත් කරමු.

වඩාත් ප්‍රයෝජනවත් සහ සරල යන්ත්‍ර ඉගෙනීමේ ක්‍රමයක් වන්නේ එන්සෙම්බල් ඉගෙනීමයි. Ensemble Learning යනු XGBoost, Bagging, Random Forest සහ තවත් බොහෝ ඇල්ගොරිතම පිටුපස ඇති ක්‍රමයයි.

දත්ත විද්‍යාව දෙසට යන්න පිළිබඳ ඉතා හොඳ ලිපි රාශියක් ඇත, නමුත් මම කථා දෙකක් තෝරා ගත්තෙමි (පළමුව и දෙවැන්න) මම වඩාත්ම කැමති. ඉතින් ඇයි EL ගැන තවත් ලිපියක් ලියන්නේ? මොකද මට ඔයාට පෙන්නන්න ඕන එය සරල උදාහරණයක් සමඟ ක්‍රියා කරන ආකාරය, ඒකෙන් මට තේරුණා මෙතන මැජික් එකක් නෑ කියලා.

මම මුලින්ම EL ක්‍රියා කරන විට (ඉතා සරල ප්‍රතිගාමී මාදිලි කිහිපයක් සමඟ වැඩ කරන විට) මට මගේ ඇස් අදහා ගත නොහැකි විය, මට තවමත් මෙම ක්‍රමය කියා දුන් මහාචාර්යවරයා මතකයි.

මට ප්‍රමිතික සමඟ විවිධ මාදිලි දෙකක් (දුර්වල පුහුණු ඇල්ගොරිතම දෙකක්) තිබුණි සාම්පලයෙන් පිටත R² පිළිවෙලින් 0,90 සහ 0,93 ට සමාන වේ. ප්‍රතිඵලය බලන්න කලින් මම හිතුවා මුල් අගයන් දෙක අතරේ කොහේ හරි R² එකක් ලැබෙයි කියලා. වෙනත් වචන වලින් කිවහොත්, නරකම මාදිලිය තරම් දුර්වල ලෙස නොව, හොඳම මාදිලිය ක්‍රියා කළ නොහැකි තරම් හොඳ ආකෘතියක් ක්‍රියාත්මක කිරීමට EL භාවිතා කළ හැකි බව මම විශ්වාස කළෙමි.

මා පුදුමයට පත් කරමින්, අනාවැකි වල සරල සාමාන්‍යකරණයක ප්‍රතිඵල R² 0,95ක් ලබා දුන්නේය. 

මුලදී මම දෝෂයක් සෙවීමට පටන් ගත්තෙමි, නමුත් පසුව මට සිතුනේ මෙහි කිසියම් මැජික් සැඟවී ඇති බවයි!

Ensemble Learning යනු කුමක්ද?

EL සමඟ, ඔබට වඩාත් විශ්වාසදායක සහ කාර්ය සාධන ආකෘතියක් ලබා ගැනීම සඳහා ආකෘති දෙකක හෝ වැඩි ගණනක අනාවැකි ඒකාබද්ධ කළ හැකිය. ආකෘති කට්ටල සමඟ වැඩ කිරීම සඳහා බොහෝ ක්‍රම තිබේ. මෙන්න මම දළ විශ්ලේෂණයක් ලබා දීමට වඩාත්ම ප්‍රයෝජනවත් ඒවා දෙක ස්පර්ශ කරමි.

සහාය ඇතිව පසුබෑම පවතින මාදිලිවල කාර්ය සාධනය සාමාන්ය කිරීමට හැකි ය.

සහාය ඇතිව වර්ගීකරණය ලේබල් තෝරා ගැනීමට ඔබට ආකෘති වලට අවස්ථාව ලබා දිය හැකිය. බොහෝ විට තෝරා ගන්නා ලද ලේබලය නව මාදිලිය විසින් තෝරා ගනු ලැබේ.

EL වඩා හොඳින් වැඩ කරන්නේ ඇයි?

EL වඩා හොඳින් ක්‍රියා කිරීමට ප්‍රධාන හේතුව වන්නේ සෑම අනාවැකියකටම දෝෂයක් ඇති බැවිනි (මෙය සම්භාවිතා න්‍යායෙන් අපි දනිමු), අනාවැකි දෙකක් ඒකාබද්ධ කිරීම දෝෂය අඩු කිරීමට උපකාරී වන අතර එමඟින් කාර්ය සාධන දර්ශක වැඩි දියුණු කළ හැකිය (RMSE, R², ආදිය) d.).

පහත රූප සටහනෙන් දැක්වෙන්නේ දත්ත කට්ටලයක් මත දුර්වල ඇල්ගොරිතම දෙකක් ක්‍රියා කරන ආකාරයයි. පළමු ඇල්ගොරිතමයට අවශ්‍ය ප්‍රමාණයට වඩා විශාල බෑවුමක් ඇති අතර දෙවැන්න ශුන්‍යයට ආසන්නව ඇත (සමහරවිට අධික ලෙස විධිමත් කිරීම නිසා විය හැක). එහෙත් ඇඳුමේ වඩා හොඳ ප්රතිඵල පෙන්වයි. 

ඔබ R² දර්ශකය දෙස බැලුවහොත්, පළමු සහ දෙවන පුහුණු ඇල්ගොරිතම සඳහා එය පිළිවෙලින් -0.01¹, 0.22 ට සමාන වන අතර සමූහය සඳහා එය 0.73 ට සමාන වේ.

එන්සෙම්බල් ඉගෙනීමේ මැජික්

මෙවැනි මූලික උදාහරණයකට පවා ඇල්ගොරිතමයක් දුර්වල ආකෘතියක් වීමට බොහෝ හේතු තිබේ: සමහර විට ඔබ අධික ලෙස ගැලපීම වැළැක්වීම සඳහා විධිමත් කිරීම භාවිතා කිරීමට තීරණය කර ඇත, නැතහොත් සමහර විෂමතා ඉවත් නොකිරීමට ඔබ තීරණය කර ඇත, නැතහොත් ඔබ බහුපද ප්‍රතිගමනය භාවිතා කර වැරදි උපාධිය තෝරාගෙන ඇත. (උදාහරණයක් ලෙස, දෙවන උපාධියේ බහුපදයක් භාවිතා කරන ලද අතර, පරීක්ෂණ දත්ත පැහැදිලි අසමමිතියක් පෙන්නුම් කරයි, ඒ සඳහා තෙවන උපාධිය වඩාත් සුදුසු වනු ඇත).

EL වඩා හොඳින් වැඩ කරන විට

එකම දත්ත සමඟ වැඩ කරන ඉගෙනුම් ඇල්ගොරිතම දෙකක් දෙස බලමු.

එන්සෙම්බල් ඉගෙනීමේ මැජික්

මාදිලි දෙක ඒකාබද්ධ කිරීමෙන් කාර්ය සාධනය වැඩි දියුණු නොවූ බව මෙහිදී ඔබට පෙනෙනු ඇත. මුලදී, පුහුණු ඇල්ගොරිතම දෙක සඳහා, R² දර්ශක පිළිවෙලින් -0,37 සහ 0,22 ට සමාන වූ අතර, සමූහය සඳහා එය -0,04 බවට පත් විය. එනම්, EL ආකෘතියට දර්ශකවල සාමාන්ය අගය ලැබුණි.

කෙසේ වෙතත්, මෙම උදාහරණ දෙක අතර විශාල වෙනසක් ඇත: පළමු උදාහරණයේදී, ආකෘති දෝෂ ඍණාත්මකව සහසම්බන්ධ වූ අතර, දෙවනුව, ඒවා ධනාත්මකව සහසම්බන්ධ වී ඇත (ආකෘති තුනේ සංගුණක ඇස්තමේන්තු කර නැත, නමුත් සරලව තෝරා ගන්නා ලදී උදාහරණයක් ලෙස කර්තෘ.)

එබැවින්, ඕනෑම අවස්ථාවක පක්ෂග්‍රාහී/විචල්‍ය සමතුලිතතාවය වැඩි දියුණු කිරීම සඳහා Ensemble Learning භාවිතා කළ හැක, නමුත් කවදාද ආකෘති දෝෂ ධනාත්මකව සම්බන්ධ නොවේ, EL භාවිතා කිරීම වඩා හොඳ කාර්ය සාධනයක් ලබා ගත හැක.

සමජාතීය හා විෂමජාතීය ආකෘති

බොහෝ විට EL සමජාතීය ආකෘති මත භාවිතා වේ (මෙම උදාහරණයේ හෝ අහඹු වනාන්තරයේ මෙන්), නමුත් ඇත්ත වශයෙන්ම ඔබට විවිධ පැහැදිලි කිරීමේ විචල්‍ය කට්ටල සමඟ විවිධ මාදිලි (රේඛීය ප්‍රතිගාමී + ස්නායුක ජාලය + XGBoost) ඒකාබද්ධ කළ හැකිය. මෙය අසම්බන්ධිත දෝෂ වලට තුඩු දීමට සහ කාර්ය සාධනය වැඩි දියුණු කිරීමට ඉඩ ඇත.

කළඹ විවිධාංගීකරණය සමඟ සැසඳීම

EL කළඹ න්‍යායේ විවිධාංගීකරණයට සමානව ක්‍රියා කරයි, නමුත් අපට වඩා හොඳය. 

විවිධාංගීකරණය කරන විට, ඔබ සහසම්බන්ධ නොවන කොටස්වල ආයෝජනය කිරීමෙන් ඔබේ කාර්ය සාධනයේ විචලනය අඩු කිරීමට උත්සාහ කරයි. හොඳින් විවිධාංගීකරණය වූ කොටස් කළඹක් නරකම තනි කොටස් වලට වඩා හොඳින් ක්‍රියා කරයි, නමුත් කිසි විටෙකත් හොඳම ඒවාට වඩා හොඳ නොවේ.

වොරන් බෆට් උපුටා දැක්වීමට: 

"විවිධකරණය යනු නොදැනුවත්කමට එරෙහි ආරක්ෂාවකි, ඔහු කරන්නේ කුමක්දැයි නොදන්නා කෙනෙකුට, එය [විවිධකරණය] ඉතා සුළු තේරුමක් ඇත."

යන්ත්‍ර ඉගෙනීමේදී, EL ඔබේ ආකෘතියේ විචලනය අඩු කිරීමට උපකාරී වේ, නමුත් එය හොඳම මුල් ආකෘතියට වඩා හොඳ සමස්ත කාර්ය සාධනයක් සහිත ආකෘතියක් ඇති කරයි.

ප්රතිඵල සාරාංශ කරමු

බහු මාදිලි එකකට ඒකාබද්ධ කිරීම සාපේක්ෂ සරල තාක්ෂණයක් වන අතර එය විචල්‍ය පක්ෂග්‍රාහී ගැටලුව විසඳීමට සහ කාර්ය සාධනය වැඩි දියුණු කිරීමට හේතු වේ.

ඔබට හොඳින් ක්‍රියා කරන මාදිලි දෙකක් හෝ වැඩි ගණනක් තිබේ නම්, ඒවා අතර තෝරා නොගන්න: ඒවා සියල්ලම භාවිතා කරන්න (නමුත් ප්‍රවේශමෙන්)!

මෙම දිශාවට සංවර්ධනය කිරීමට කැමතිද? නොමිලේ Demo පාඩමක් සඳහා ලියාපදිංචි වන්න "අන්තර්ජාල නිර්දේශවල උදාහරණය භාවිතා කරමින් කාර්මික පරිසරයකට ML මාදිලි නිමැවුම" සහ සහභාගී වේ Andrey Kuznetsov සමඟ සබැඳි රැස්වීම - Mail.ru සමූහයේ යන්ත්‍ර ඉගෙනුම් ඉංජිනේරු.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න