යන්ත්‍ර ඉගෙනීමේදී විශේෂාංග තේරීම

හෙලෝ, හබ්ර්!

Reksoft හි අපි ලිපිය රුසියානු භාෂාවට පරිවර්තනය කළෙමු යන්ත්‍ර ඉගෙනීමේ විශේෂාංග තේරීම. මාතෘකාව ගැන උනන්දුවක් දක්වන සෑම කෙනෙකුටම එය ප්රයෝජනවත් වනු ඇතැයි අපි බලාපොරොත්තු වෙනවා.

සැබෑ ලෝකයේ, ව්‍යාපාරික ගනුදෙනුකරුවන් සමහර විට සිතන තරම් දත්ත සෑම විටම පිරිසිදු නොවේ. දත්ත කැණීම සහ දත්ත පොරබැදීම සඳහා ඉල්ලුමක් ඇත්තේ එබැවිනි. එය මිනිසුන්ට හඳුනාගත නොහැකි විමසුම්-ව්‍යුහගත දත්තවල නැතිවූ අගයන් සහ රටා හඳුනා ගැනීමට උපකාරී වේ. දත්තවල සොයාගත් සම්බන්ධතා භාවිතයෙන් ප්‍රතිඵල පුරෝකථනය කිරීමට මෙම රටා සොයා ගැනීමට සහ භාවිතා කිරීමට, යන්ත්‍ර ඉගෙනීම ප්‍රයෝජනවත් වේ.

ඕනෑම ඇල්ගොරිතමයක් තේරුම් ගැනීමට, ඔබ දත්තවල ඇති සියලුම විචල්‍යයන් දෙස බලා එම විචල්‍යයන් නියෝජනය කරන්නේ කුමක්දැයි සොයා බැලිය යුතුය. මෙය ඉතා වැදගත් වන්නේ ප්‍රතිඵල පිටුපස ඇති තාර්කිකත්වය පදනම් වී ඇත්තේ දත්ත අවබෝධ කර ගැනීම මත බැවිනි. දත්තවල විචල්‍ය 5ක් හෝ 50ක් තිබේ නම්, ඔබට ඒවා සියල්ල පරීක්ෂා කළ හැක. ඔවුන්ගෙන් 200 ක් ඇත්නම් කුමක් කළ යුතුද? එවිට සෑම විචල්‍යයක්ම අධ්‍යයනය කිරීමට ප්‍රමාණවත් කාලයක් නොමැත. එපමනක් නොව, සමහර ඇල්ගොරිතම වර්ගීකරණ දත්ත සඳහා ක්‍රියා නොකරයි, එවිට ඔබට සියලුම වර්ගීකරණ තීරු ප්‍රමාණාත්මක විචල්‍යයන් බවට පරිවර්තනය කිරීමට සිදුවනු ඇත (ඒවා ප්‍රමාණාත්මක ලෙස පෙනෙනු ඇත, නමුත් ප්‍රමිතික ඒවා වර්ගීකරණයෙන් පෙන්වනු ඇත) ඒවා ආකෘතියට එක් කිරීමට. මේ අනුව, විචල්ය සංඛ්යාව වැඩි වන අතර, ඒවායින් 500 ක් පමණ ඇත, දැන් කුමක් කළ යුතුද? පිළිතුර මානය අඩු කිරීම යැයි කෙනෙකුට සිතිය හැකිය. Dimensionality අඩු කිරීමේ ඇල්ගොරිතම පරාමිති ගණන අඩු කරන නමුත් අර්ථකථනය කෙරෙහි ඍණාත්මක බලපෑමක් ඇති කරයි. ඉතිරි ඒවා තේරුම් ගැනීමට සහ අර්ථ නිරූපණය කිරීමට පහසු වන අතරම විශේෂාංග ඉවත් කරන වෙනත් ශිල්පීය ක්‍රම තිබේ නම් කුමක් කළ යුතුද?

විශ්ලේෂණය පදනම් වන්නේ ප්‍රතිගමනය හෝ වර්ගීකරණය මතද යන්න මත පදනම්ව, විශේෂාංග තේරීමේ ඇල්ගොරිතම වෙනස් විය හැක, නමුත් ඒවා ක්‍රියාත්මක කිරීමේ ප්‍රධාන අදහස එලෙසම පවතී.

ඉහළ සහසම්බන්ධ විචල්‍යයන්

එකිනෙකට බෙහෙවින් සහසම්බන්ධ වන විචල්‍යයන් ආකෘතියට එකම තොරතුරු සපයයි, එබැවින් විශ්ලේෂණය සඳහා ඒවා සියල්ලම භාවිතා කිරීම අවශ්‍ය නොවේ. උදාහරණයක් ලෙස, දත්ත කට්ටලයක "Online Time" සහ "Traffic Used" යන විශේෂාංග තිබේ නම්, ඒවා තරමක් සහසම්බන්ධ වනු ඇතැයි අපට උපකල්පනය කළ හැකි අතර, අප අපක්ෂපාතී දත්ත නියැදියක් තෝරා ගත්තද අපට ශක්තිමත් සහසම්බන්ධයක් පෙනෙනු ඇත. මෙම අවස්ථාවේදී, මෙම විචල්යයන්ගෙන් එකක් පමණක් ආකෘතියේ අවශ්ය වේ. ඔබ දෙකම භාවිතා කරන්නේ නම්, ආකෘතිය අධික ලෙස සවි කර එක් විශේෂිත අංගයකට පක්ෂග්‍රාහී වනු ඇත.

P අගයන්

රේඛීය ප්‍රතිගමනය වැනි ඇල්ගොරිතම වල, ආරම්භක සංඛ්‍යාන ආකෘතියක් සෑම විටම හොඳ අදහසකි. මෙම ආකෘතිය මගින් ලබාගත් ඒවායේ p-අගය හරහා විශේෂාංගවල වැදගත්කම පෙන්වීමට එය උපකාරී වේ. වැදගත්කමේ මට්ටම සැකසීමෙන් පසු, අපි එහි ප්‍රති result ලය වන p-අගයන් පරීක්ෂා කර, කිසියම් අගයක් නිශ්චිත වැදගත්කම මට්ටමට වඩා අඩු නම්, මෙම විශේෂාංගය සැලකිය යුතු ලෙස ප්‍රකාශ කරනු ලැබේ, එනම්, එහි අගයෙහි වෙනසක් බොහෝ විට අගයෙහි වෙනසක් ඇති කරයි. ඉලක්කය.

සෘජු තේරීම

ඉදිරි තේරීම යනු පියවරෙන් පියවර ප්‍රතිගමනය යෙදීම ඇතුළත් තාක්‍ෂණයකි. ආකෘති ගොඩනැගීම සම්පූර්ණ ශුන්‍යයකින් ආරම්භ වේ, එනම් හිස් ආකෘතියකින්, ඉන්පසු සෑම පුනරාවර්තනයක්ම ගොඩනගන ආකෘතියට වැඩි දියුණුවක් ඇති කරන විචල්‍යයක් එක් කරයි. ආකෘතියට එකතු කරන විචල්‍යය එහි වැදගත්කම අනුව තීරණය වේ. මෙය විවිධ දර්ශක භාවිතයෙන් ගණනය කළ හැක. වඩාත්ම පොදු ක්‍රමය නම් සියලුම විචල්‍යයන් භාවිතා කරමින් මුල් සංඛ්‍යාන ආකෘතියෙන් ලබාගත් p අගයන් භාවිතා කිරීමයි. සමහර විට ඉදිරි තේරීම මඟින් ආකෘතියක් වැඩිපුර ගැළපීමට හේතු විය හැක, මන්ද ඒවා ආකෘතියට එකම තොරතුරු ලබා දුන්නද (නමුත් ආකෘතිය තවමත් වැඩිදියුණු කිරීම් පෙන්වයි).

ප්‍රතිලෝම තේරීම

ප්‍රතිලෝම තෝරාගැනීමේදී ගතිලක්ෂණ පියවරෙන් පියවර ඉවත් කිරීම ද ඇතුළත් වේ, නමුත් ඉදිරි තේරීමට සාපේක්ෂව ප්‍රතිවිරුද්ධ දිශාවට. මෙම අවස්ථාවෙහිදී, ආරම්භක ආකෘතිය සියලු ස්වාධීන විචල්යයන් ඇතුළත් වේ. විචල්‍යයන් එක් එක් පුනරාවර්තනය තුළ නව ප්‍රතිගාමී ආකෘතියට වටිනාකමක් ලබා නොදෙන්නේ නම් (එක් පුනරාවර්තනයකට එකක්) ඉවත් කරනු ලැබේ. විශේෂාංග බැහැර කිරීම ආරම්භක ආකෘතියේ p-අගය මත පදනම් වේ. ඉතා සහසම්බන්ධ විචල්‍යයන් ඉවත් කිරීමේදී මෙම ක්‍රමය අවිනිශ්චිතතාවයක් ද ඇත.

පුනරාවර්තන විශේෂාංග ඉවත් කිරීම

RFE යනු සැලකිය යුතු විශේෂාංග නිශ්චිත සංඛ්‍යාවක් තෝරාගැනීම සඳහා බහුලව භාවිතා වන තාක්‍ෂණය/ඇල්ගොරිතමයකි. සමහර අවස්ථාවලදී ප්රතිඵලවලට බලපාන "වඩාත්ම වැදගත්" ලක්ෂණ ගණනාවක් පැහැදිලි කිරීමට මෙම ක්රමය භාවිතා කරයි; සහ සමහර විට ඉතා විශාල විචල්‍ය සංඛ්‍යාවක් අඩු කිරීමට (200-400 පමණ), සහ ආකෘතියට අවම වශයෙන් යම් දායකත්වයක් සපයන ඒවා පමණක් රඳවා තබා ඇති අතර අනෙක් සියල්ල බැහැර කරනු ලැබේ. RFE ශ්‍රේණිගත කිරීමේ ක්‍රමයක් භාවිතා කරයි. දත්ත කට්ටලයේ ඇති විශේෂාංගවලට ශ්‍රේණි ලබා දී ඇත. මෙම ශ්‍රේණිගත කිරීම් පසුව ඒවා අතර සහසම්බන්ධතාවය සහ ආකෘතියේ එම විශේෂාංගවල වැදගත්කම මත පදනම්ව පුනරාවර්තන ලෙස විශේෂාංග ඉවත් කිරීමට භාවිතා කරයි. ශ්‍රේණිගත කිරීමේ විශේෂාංග වලට අමතරව, ලබා දී ඇති විශේෂාංග ගණනකට පවා මෙම විශේෂාංග වැදගත්ද නැද්ද යන්න RFE හට පෙන්විය හැක (තෝරාගත් විශේෂාංග සංඛ්‍යාව ප්‍රශස්ත නොවිය හැකි අතර ප්‍රශස්ත විශේෂාංග සංඛ්‍යාව තවත් වැඩි විය හැකි බැවිනි. හෝ තෝරාගත් සංඛ්යාවට වඩා අඩු).

විශේෂාංග වැදගත්කම රූප සටහන

යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතමවල අර්ථකථනය ගැන කතා කරන විට, අපි සාමාන්‍යයෙන් සාකච්ඡා කරන්නේ රේඛීය ප්‍රතිගමන (p-අගය භාවිතා කරමින් විශේෂාංගවල වැදගත්කම විශ්ලේෂණය කිරීමට ඔබට ඉඩ සලසයි) සහ තීරණ ගස් (වචනාර්ථයෙන් ගසක ස්වරූපයෙන් විශේෂාංගවල වැදගත්කම පෙන්වයි, සහ ඒ සමගම ඔවුන්ගේ ධුරාවලිය). අනෙක් අතට, Random Forest, LightGBM සහ XG Boost වැනි ඇල්ගොරිතම බොහෝ විට විශේෂාංග වැදගත් සටහනක් භාවිතා කරයි, එනම් විචල්‍යවල රූප සටහනක් සහ “ඒවායේ වැදගත් සංඛ්‍යා” සැලසුම් කර ඇත. ව්‍යාපාරයට ඒවායේ බලපෑම අනුව ගුණාංගවල වැදගත්කම සඳහා ව්‍යුහාත්මක තාර්කිකත්වයක් සැපයිය යුතු විට මෙය විශේෂයෙන් ප්‍රයෝජනවත් වේ.

විධිමත් කිරීම

පක්ෂග්‍රාහීත්වය සහ විචලනය අතර සමතුලිතතාවය පාලනය කිරීම සඳහා විධිමත් කිරීම සිදු කෙරේ. Bias මඟින් පුහුණු දත්ත කට්ටලය මත ආකෘතිය කොපමණ ප්‍රමාණයක් වැඩිපුර සවි කර ඇත්දැයි පෙන්වයි. පුහුණුවීම් සහ පරීක්ෂණ දත්ත කට්ටල අතර අනාවැකි කෙතරම් වෙනස් දැයි අපගමනය පෙන්වයි. ඉතා මැනවින්, පක්ෂග්රාහී සහ විචලනය යන දෙකම කුඩා විය යුතුය. විධිමත් කිරීම ගලවා ගැනීමට පැමිණෙන්නේ මෙහිදීය! ප්රධාන තාක්ෂණික ක්රම දෙකක් තිබේ:

L1 නියාමනය - Lasso: Lasso ආදර්ශ බර ආකෘතියට ඒවායේ වැදගත්කම වෙනස් කිරීමට දඬුවම් කරන අතර ඒවා ශුන්‍ය කිරීමට පවා හැකිය (එනම් එම විචල්‍යයන් අවසාන ආකෘතියෙන් ඉවත් කරන්න). සාමාන්‍යයෙන්, දත්ත කට්ටලයක විචල්‍ය විශාල සංඛ්‍යාවක් අඩංගු වන විට Lasso භාවිතා වන අතර ඔබට වැදගත් විශේෂාංග ආකෘතියට බලපාන්නේ කෙසේද යන්න වඩා හොඳින් අවබෝධ කර ගැනීම සඳහා ඒවායින් සමහරක් බැහැර කිරීමට අවශ්‍ය වේ (එනම්, Lasso විසින් තෝරාගෙන ඇති සහ වැදගත්කමක් ලබා දී ඇති විශේෂාංග).

L2 නියාමනය - රිජ් ක්‍රමය: රිජ්ගේ කාර්යය වන්නේ සියලුම විචල්‍යයන් ගබඩා කිරීම සහ ඒ සමඟම ආකෘතියේ ක්‍රියාකාරිත්වයට ඔවුන්ගේ දායකත්වය මත පදනම්ව ඒවාට වැදගත්කමක් ලබා දීමයි. දත්ත කට්ටලයේ කුඩා විචල්‍ය සංඛ්‍යාවක් අඩංගු නම් සහ ඒවා සියල්ලම ලබා ගත් සොයාගැනීම් සහ ප්‍රතිඵල අර්ථ නිරූපණය කිරීමට අවශ්‍ය නම් රිජ් හොඳ තේරීමක් වනු ඇත.

Ridge සියළුම විචල්‍යයන් තබා ගන්නා නිසාත්, Lasso ඒවායේ වැදගත්කම තහවුරු කිරීමට වඩා හොඳ කාර්යයක් ඉටු කරන නිසාත්, Elastic-Net ලෙස හැඳින්වෙන විධිමත් කිරීම් දෙකෙහිම හොඳම විශේෂාංග ඒකාබද්ධ කරන ඇල්ගොරිතමයක් නිර්මාණය කරන ලදී.

යන්ත්‍ර ඉගෙනීම සඳහා විශේෂාංග තෝරා ගැනීමට තවත් බොහෝ ක්‍රම තිබේ, නමුත් ප්‍රධාන අදහස සෑම විටම එක හා සමානයි: විචල්‍යවල වැදගත්කම නිරූපණය කර පසුව ලැබෙන වැදගත්කම මත පදනම්ව ඒවායින් සමහරක් ඉවත් කරන්න. වැදගත්කම යනු ඉතා ආත්මීය යෙදුමකි, එය එකක් පමණක් නොව, ප්‍රධාන ගුණාංග සොයා ගැනීමට භාවිතා කළ හැකි සමස්ත ප්‍රමිතික සහ ප්‍රස්ථාර සමූහයකි.

කියවීමට ස්තූතියි! ප්‍රීතිමත් ඉගෙනීමක්!

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න