இயந்திர கற்றலில் அம்சத் தேர்வு

ஹே ஹப்ர்!

Reksoft இல் நாங்கள் கட்டுரையை ரஷ்ய மொழியில் மொழிபெயர்த்தோம் இயந்திர கற்றலில் அம்சம் தேர்வு. தலைப்பில் ஆர்வமுள்ள அனைவருக்கும் இது பயனுள்ளதாக இருக்கும் என்று நம்புகிறோம்.

நிஜ உலகில், வணிக வாடிக்கையாளர்கள் சில நேரங்களில் நினைப்பது போல் தரவு எப்போதும் சுத்தமாக இருக்காது. இதனால்தான் டேட்டா மைனிங் மற்றும் டேட்டா கிராக்கிங் தேவைப்படுகின்றன. மனிதர்களால் அடையாளம் காண முடியாத வினவல்-கட்டமைக்கப்பட்ட தரவுகளில் விடுபட்ட மதிப்புகள் மற்றும் வடிவங்களை அடையாளம் காண இது உதவுகிறது. தரவுகளில் கண்டுபிடிக்கப்பட்ட உறவுகளைப் பயன்படுத்தி முடிவுகளைக் கணிக்க இந்த வடிவங்களைக் கண்டறிந்து பயன்படுத்த, இயந்திரக் கற்றல் கைக்கு வரும்.

எந்த அல்காரிதத்தையும் புரிந்து கொள்ள, நீங்கள் தரவுகளில் உள்ள அனைத்து மாறிகளையும் பார்த்து அந்த மாறிகள் எதைக் குறிக்கின்றன என்பதைக் கண்டுபிடிக்க வேண்டும். இது மிகவும் முக்கியமானது, ஏனெனில் முடிவுகளுக்குப் பின்னால் உள்ள நியாயமானது தரவைப் புரிந்துகொள்வதை அடிப்படையாகக் கொண்டது. தரவு 5 அல்லது 50 மாறிகள் இருந்தால், நீங்கள் அனைத்தையும் ஆய்வு செய்யலாம். அவர்களில் 200 பேர் இருந்தால் என்ன செய்வது? ஒவ்வொரு மாறியையும் படிக்க போதுமான நேரம் இருக்காது. மேலும், சில அல்காரிதம்கள் வகைப்படுத்தப்பட்ட தரவுகளுக்கு வேலை செய்யாது, பின்னர் நீங்கள் அனைத்து வகைப்படுத்தப்பட்ட நெடுவரிசைகளையும் அளவு மாறிகளாக மாற்ற வேண்டும் (அவை அளவுகளாகத் தோன்றலாம், ஆனால் அளவீடுகள் அவை வகைப்படுத்தப்பட்டவை என்பதைக் காண்பிக்கும்) மாதிரியில் சேர்க்க வேண்டும். இதனால், மாறிகளின் எண்ணிக்கை அதிகரிக்கிறது, அவற்றில் சுமார் 500 உள்ளன, இப்போது என்ன செய்வது? பரிமாணத்தைக் குறைப்பதே இதற்குப் பதில் என்று ஒருவர் நினைக்கலாம். பரிமாணக் குறைப்பு வழிமுறைகள் அளவுருக்களின் எண்ணிக்கையைக் குறைக்கின்றன, ஆனால் விளக்கத்தில் எதிர்மறையான தாக்கத்தை ஏற்படுத்துகின்றன. மற்ற நுட்பங்கள் இருந்தால், எஞ்சியவற்றைப் புரிந்துகொள்வதற்கும் விளக்குவதற்கும் எளிதாக்குகிறது.

பகுப்பாய்வு பின்னடைவு அல்லது வகைப்பாட்டின் அடிப்படையில் உள்ளதா என்பதைப் பொறுத்து, அம்சத் தேர்வு வழிமுறைகள் வேறுபடலாம், ஆனால் அவற்றின் செயல்பாட்டின் முக்கிய யோசனை அப்படியே உள்ளது.

அதிக தொடர்புள்ள மாறிகள்

ஒன்றுக்கொன்று அதிக தொடர்புள்ள மாறிகள் மாதிரிக்கு ஒரே தகவலை வழங்குகின்றன, எனவே அவை அனைத்தையும் பகுப்பாய்வு செய்ய பயன்படுத்த வேண்டிய அவசியமில்லை. எடுத்துக்காட்டாக, ஒரு தரவுத்தொகுப்பில் "ஆன்லைன் நேரம்" மற்றும் "போக்குவரத்து பயன்படுத்தப்பட்டது" ஆகிய அம்சங்கள் இருந்தால், அவை ஓரளவு தொடர்புடையதாக இருக்கும் என்று நாம் ஊகிக்க முடியும், மேலும் பக்கச்சார்பற்ற தரவு மாதிரியைத் தேர்ந்தெடுத்தாலும் வலுவான தொடர்பைக் காண்போம். இந்த வழக்கில், மாதிரியில் இந்த மாறிகளில் ஒன்று மட்டுமே தேவைப்படுகிறது. நீங்கள் இரண்டையும் பயன்படுத்தினால், மாடல் மிகையாக பொருத்தப்பட்டு ஒரு குறிப்பிட்ட அம்சத்திற்கு சார்பானதாக இருக்கும்.

பி-மதிப்புகள்

நேரியல் பின்னடைவு போன்ற அல்காரிதங்களில், ஆரம்ப புள்ளியியல் மாதிரி எப்போதும் நல்ல யோசனையாக இருக்கும். இந்த மாதிரியால் பெறப்பட்ட அவற்றின் p-மதிப்புகள் மூலம் அம்சங்களின் முக்கியத்துவத்தைக் காட்ட இது உதவுகிறது. முக்கியத்துவ அளவை அமைத்த பிறகு, அதன் விளைவாக வரும் பி-மதிப்புகளைச் சரிபார்க்கிறோம், மேலும் ஏதேனும் மதிப்பு குறிப்பிடப்பட்ட முக்கியத்துவ நிலைக்குக் கீழே இருந்தால், இந்த அம்சம் குறிப்பிடத்தக்கதாக அறிவிக்கப்படுகிறது, அதாவது, அதன் மதிப்பில் ஏற்படும் மாற்றம் மதிப்பில் மாற்றத்திற்கு வழிவகுக்கும். இலக்கு.

நேரடி தேர்வு

முன்னோக்கித் தேர்வு என்பது படிப்படியான பின்னடைவைப் பயன்படுத்துவதை உள்ளடக்கிய ஒரு நுட்பமாகும். மாதிரி கட்டிடம் ஒரு முழுமையான பூஜ்ஜியத்துடன் தொடங்குகிறது, அதாவது ஒரு வெற்று மாதிரி, பின்னர் ஒவ்வொரு மறு செய்கையும் ஒரு மாறியைச் சேர்க்கிறது, இது கட்டமைக்கப்பட்ட மாதிரியை மேம்படுத்துகிறது. மாதிரியில் எந்த மாறி சேர்க்கப்படுகிறது என்பது அதன் முக்கியத்துவத்தால் தீர்மானிக்கப்படுகிறது. இதை பல்வேறு அளவுகோல்களைப் பயன்படுத்தி கணக்கிடலாம். அனைத்து மாறிகளையும் பயன்படுத்தி அசல் புள்ளிவிவர மாதிரியில் பெறப்பட்ட பி-மதிப்புகளைப் பயன்படுத்துவது மிகவும் பொதுவான வழி. சில நேரங்களில் முன்னோக்கித் தேர்வு ஒரு மாதிரியை மிகைப்படுத்துவதற்கு வழிவகுக்கும், ஏனெனில் மாதிரியில் அதிக தொடர்புள்ள மாறிகள் இருக்கலாம், அவை மாதிரிக்கு அதே தகவலை வழங்கினாலும் (ஆனால் மாதிரி இன்னும் முன்னேற்றத்தைக் காட்டுகிறது).

தலைகீழ் தேர்வு

தலைகீழ் தேர்வு பண்புகளை படிப்படியாக நீக்குவதையும் உள்ளடக்கியது, ஆனால் முன்னோக்கி தேர்வுடன் ஒப்பிடும்போது எதிர் திசையில். இந்த வழக்கில், ஆரம்ப மாதிரி அனைத்து சுயாதீன மாறிகளையும் உள்ளடக்கியது. ஒவ்வொரு மறு செய்கையிலும் புதிய பின்னடைவு மாதிரிக்கு மதிப்பை பங்களிக்கவில்லை என்றால், மாறிகள் நீக்கப்படும் (ஒரு மறு செய்கைக்கு ஒன்று). அம்ச விலக்கு ஆரம்ப மாதிரியின் p-மதிப்புகளை அடிப்படையாகக் கொண்டது. அதிக தொடர்புள்ள மாறிகளை அகற்றும்போது இந்த முறை நிச்சயமற்ற தன்மையையும் கொண்டுள்ளது.

சுழல்நிலை அம்சம் நீக்குதல்

RFE என்பது குறிப்பிடத்தக்க அம்சங்களின் சரியான எண்ணிக்கையைத் தேர்ந்தெடுப்பதற்கான பரவலாகப் பயன்படுத்தப்படும் நுட்பம்/அல்காரிதம் ஆகும். சில நேரங்களில் இந்த முறையானது முடிவுகளை பாதிக்கும் பல "மிக முக்கியமான" அம்சங்களை விளக்க பயன்படுகிறது; மற்றும் சில நேரங்களில் மிக அதிக எண்ணிக்கையிலான மாறிகளைக் குறைக்க (சுமார் 200-400), மற்றும் மாதிரியில் குறைந்தபட்சம் சில பங்களிப்பை வழங்குபவர்கள் மட்டுமே தக்கவைக்கப்படுகிறார்கள், மற்ற அனைத்தும் விலக்கப்படுகின்றன. RFE ஒரு தரவரிசை முறையைப் பயன்படுத்துகிறது. தரவுத் தொகுப்பில் உள்ள அம்சங்கள் தரவரிசைகள் ஒதுக்கப்பட்டுள்ளன. இந்த ரேங்க்கள், அவற்றுக்கிடையேயான கோலினரிட்டி மற்றும் மாதிரியில் அந்த அம்சங்களின் முக்கியத்துவத்தின் அடிப்படையில் அம்சங்களை மீண்டும் மீண்டும் நீக்குவதற்குப் பயன்படுத்தப்படுகின்றன. தரவரிசை அம்சங்களுடன் கூடுதலாக, RFE இந்த அம்சங்கள் முக்கியமா அல்லது குறிப்பிட்ட எண்ணிக்கையிலான அம்சங்களுக்கு முக்கியமா இல்லையா என்பதைக் காட்ட முடியும் (ஏனென்றால் தேர்ந்தெடுக்கப்பட்ட எண்ணிக்கையிலான அம்சங்கள் உகந்ததாக இருக்காது, மேலும் உகந்த எண்ணிக்கையிலான அம்சங்கள் அதிகமாக இருக்கலாம். அல்லது தேர்ந்தெடுக்கப்பட்ட எண்ணை விட குறைவாக).

அம்ச முக்கியத்துவ வரைபடம்

இயந்திர கற்றல் வழிமுறைகளின் விளக்கத்தைப் பற்றி பேசும்போது, ​​நாங்கள் வழக்கமாக நேரியல் பின்னடைவுகள் (பி-மதிப்புகளைப் பயன்படுத்தி அம்சங்களின் முக்கியத்துவத்தை பகுப்பாய்வு செய்ய அனுமதிக்கும்) மற்றும் தீர்மான மரங்கள் (அதாவது மரத்தின் வடிவில் உள்ள அம்சங்களின் முக்கியத்துவத்தைக் காட்டுகிறது. அதே நேரத்தில் அவர்களின் படிநிலை). மறுபுறம், ரேண்டம் ஃபாரஸ்ட், லைட்ஜிபிஎம் மற்றும் எக்ஸ்ஜி பூஸ்ட் போன்ற வழிமுறைகள் பெரும்பாலும் அம்ச முக்கியத்துவ வரைபடத்தைப் பயன்படுத்துகின்றன, அதாவது மாறிகளின் வரைபடம் மற்றும் “அவற்றின் முக்கியத்துவம் எண்கள்” திட்டமிடப்பட்டுள்ளது. வணிகத்தில் அவற்றின் தாக்கத்தின் அடிப்படையில் பண்புக்கூறுகளின் முக்கியத்துவத்திற்கான கட்டமைக்கப்பட்ட பகுத்தறிவை நீங்கள் வழங்க வேண்டியிருக்கும் போது இது மிகவும் பயனுள்ளதாக இருக்கும்.

முறைப்படுத்தல்

சார்பு மற்றும் மாறுபாட்டிற்கு இடையிலான சமநிலையைக் கட்டுப்படுத்த ஒழுங்குபடுத்துதல் செய்யப்படுகிறது. பயிற்சி தரவுத் தொகுப்பில் மாடல் எவ்வளவு அதிகமாக பொருத்தப்பட்டுள்ளது என்பதை சார்பு காட்டுகிறது. பயிற்சி மற்றும் சோதனை தரவுத்தொகுப்புகளுக்கு இடையே கணிப்புகள் எவ்வளவு வித்தியாசமாக இருந்தன என்பதை விலகல் காட்டுகிறது. வெறுமனே, சார்பு மற்றும் மாறுபாடு இரண்டும் சிறியதாக இருக்க வேண்டும். இங்குதான் முறைப்படுத்துதல் மீட்புக்கு வருகிறது! இரண்டு முக்கிய நுட்பங்கள் உள்ளன:

எல்1 ஒழுங்குபடுத்துதல் - லாஸ்ஸோ: மாடலின் முக்கியத்துவத்தை மாற்ற மாடல் எடைகளை லாஸ்ஸோ தண்டிக்கிறார் மேலும் அவற்றை ரத்து செய்யலாம் (அதாவது இறுதி மாதிரியிலிருந்து அந்த மாறிகளை அகற்றலாம்). பொதுவாக, தரவுத்தொகுப்பில் அதிக எண்ணிக்கையிலான மாறிகள் இருக்கும்போது லாஸ்ஸோ பயன்படுத்தப்படுகிறது, மேலும் முக்கியமான அம்சங்கள் மாடலை எவ்வாறு பாதிக்கின்றன என்பதை நன்கு புரிந்துகொள்ள அவற்றில் சிலவற்றை நீங்கள் விலக்க வேண்டும் (அதாவது, லாஸ்ஸோவால் தேர்ந்தெடுக்கப்பட்ட மற்றும் முக்கியத்துவம் கொடுக்கப்பட்ட அம்சங்கள்).

எல்2 ஒழுங்குபடுத்துதல் - ரிட்ஜ் முறை: ரிட்ஜின் வேலை அனைத்து மாறிகளையும் சேமித்து, அதே நேரத்தில் மாதிரியின் செயல்திறனில் அவற்றின் பங்களிப்பின் அடிப்படையில் அவற்றுக்கு முக்கியத்துவத்தை வழங்குவதாகும். தரவுத்தொகுப்பில் குறைந்த எண்ணிக்கையிலான மாறிகள் இருந்தால் ரிட்ஜ் ஒரு நல்ல தேர்வாக இருக்கும், மேலும் அவை அனைத்தும் பெறப்பட்ட கண்டுபிடிப்புகள் மற்றும் முடிவுகளை விளக்குவதற்கு அவசியம்.

ரிட்ஜ் அனைத்து மாறிகளையும் வைத்திருப்பதாலும், அவற்றின் முக்கியத்துவத்தை நிலைநிறுத்துவதில் லாஸ்ஸோ சிறப்பாகச் செயல்படுவதாலும், எலாஸ்டிக்-நெட் எனப்படும் இரண்டு முறைப்படுத்தல்களின் சிறந்த அம்சங்களை ஒருங்கிணைக்கும் ஒரு அல்காரிதம் உருவாக்கப்பட்டது.

இயந்திர கற்றலுக்கான அம்சங்களைத் தேர்ந்தெடுக்க இன்னும் பல வழிகள் உள்ளன, ஆனால் முக்கிய யோசனை எப்போதும் ஒரே மாதிரியாக இருக்கும்: மாறிகளின் முக்கியத்துவத்தை நிரூபிக்கவும், அதன் விளைவாக வரும் முக்கியத்துவத்தின் அடிப்படையில் அவற்றில் சிலவற்றை அகற்றவும். முக்கியத்துவம் என்பது மிகவும் அகநிலைச் சொல்லாகும், ஏனெனில் இது ஒன்று மட்டுமல்ல, முக்கிய பண்புக்கூறுகளைக் கண்டறியப் பயன்படுத்தக்கூடிய அளவீடுகள் மற்றும் விளக்கப்படங்களின் முழு தொகுப்பு.

படித்ததற்கு நன்றி! மகிழ்ச்சியான கற்றல்!

ஆதாரம்: www.habr.com

கருத்தைச் சேர்