மேஜிக் குழும கற்றல்

ஹே ஹப்ர்! இலவச டெமோ பாடத்திற்கு தரவு பொறியாளர்கள் மற்றும் இயந்திர கற்றல் நிபுணர்களை அழைக்கிறோம் "ஆன்லைன் பரிந்துரைகளின் உதாரணத்தைப் பயன்படுத்தி தொழில்துறை சூழலில் எம்எல் மாடல்களின் வெளியீடு". லூகா மோன்னோ - சிடிபி ஸ்பாவில் நிதிப் பகுப்பாய்வுத் தலைவர் என்ற கட்டுரையையும் நாங்கள் வெளியிடுகிறோம்.

மிகவும் பயனுள்ள மற்றும் எளிமையான இயந்திர கற்றல் முறைகளில் ஒன்று குழும கற்றல் ஆகும். குழும கற்றல் என்பது XGBoost, Bagging, Random Forest மற்றும் பல அல்காரிதம்களுக்குப் பின்னால் உள்ள முறையாகும்.

தரவு அறிவியலை நோக்கி நிறைய கட்டுரைகள் உள்ளன, ஆனால் நான் இரண்டு கதைகளைத் தேர்ந்தெடுத்தேன் (முதல் и இரண்டாவது) எனக்கு மிகவும் பிடித்தது. எனவே EL பற்றி ஏன் மற்றொரு கட்டுரை எழுத வேண்டும்? ஏனென்றால் நான் உங்களுக்குக் காட்ட விரும்புகிறேன் ஒரு எளிய உதாரணத்துடன் இது எவ்வாறு செயல்படுகிறது, இங்கு மந்திரம் இல்லை என்பதை எனக்கு புரிய வைத்தது.

நான் முதன்முதலில் EL ஐ செயல்பாட்டில் பார்த்தபோது (சில எளிய பின்னடைவு மாதிரிகளுடன் வேலை செய்வது) என் கண்களை என்னால் நம்ப முடியவில்லை, மேலும் இந்த முறையை எனக்குக் கற்றுக் கொடுத்த பேராசிரியரை நான் இன்னும் நினைவில் வைத்திருக்கிறேன்.

என்னிடம் இரண்டு வெவ்வேறு மாதிரிகள் (இரண்டு பலவீனமான பயிற்சி அல்காரிதம்கள்) அளவீடுகளுடன் இருந்தன மாதிரிக்கு வெளியே R² முறையே 0,90 மற்றும் 0,93. முடிவைப் பார்ப்பதற்கு முன், இரண்டு அசல் மதிப்புகளுக்கு இடையில் எங்காவது R² கிடைக்கும் என்று நினைத்தேன். வேறு வார்த்தைகளில் கூறுவதானால், ஒரு மாடலை மோசமான மாடலைப் போல மோசமாகச் செய்யாமல், சிறந்த மாடலைச் செயல்பட வைக்க EL பயன்படுத்தப்படலாம் என்று நான் நம்பினேன்.

எனக்கு மிகவும் ஆச்சரியமாக, கணிப்புகளின் சராசரியாக 0,95 R² கிடைத்தது. 

முதலில் நான் பிழையைத் தேட ஆரம்பித்தேன், ஆனால் இங்கே ஏதோ மந்திரம் மறைந்திருக்கலாம் என்று நினைத்தேன்!

குழும கற்றல் என்றால் என்ன

EL உடன், நீங்கள் இரண்டு அல்லது அதற்கு மேற்பட்ட மாடல்களின் கணிப்புகளை ஒருங்கிணைத்து மிகவும் உறுதியான மற்றும் செயல்திறன் கொண்ட மாதிரியை உருவாக்கலாம். மாதிரி குழுமங்களுடன் பணிபுரிய பல முறைகள் உள்ளன. ஒரு மேலோட்டத்தை கொடுக்க மிகவும் பயனுள்ள இரண்டை இங்கே தொடுகிறேன்.

உதவியுடன் பின்னடைவு கிடைக்கக்கூடிய மாதிரிகளின் செயல்திறனை சராசரியாகக் கணக்கிட முடியும்.

உதவியுடன் வகைப்பாடு லேபிள்களைத் தேர்ந்தெடுக்க மாதிரிகளுக்கு நீங்கள் வாய்ப்பளிக்கலாம். பெரும்பாலும் தேர்ந்தெடுக்கப்பட்ட லேபிளே புதிய மாடலால் தேர்ந்தெடுக்கப்படும்.

EL ஏன் சிறப்பாக செயல்படுகிறது

EL சிறப்பாகச் செயல்படுவதற்கான முக்கியக் காரணம், ஒவ்வொரு கணிப்புக்கும் ஒரு பிழை உள்ளது (நிகழ்தகவுக் கோட்பாட்டிலிருந்து இதை நாங்கள் அறிவோம்), இரண்டு கணிப்புகளை இணைப்பது பிழையைக் குறைக்க உதவும், எனவே செயல்திறன் அளவீடுகளை மேம்படுத்தலாம் (RMSE, R², முதலியன) d.).

தரவுத் தொகுப்பில் இரண்டு பலவீனமான அல்காரிதம்கள் எவ்வாறு செயல்படுகின்றன என்பதை பின்வரும் வரைபடம் காட்டுகிறது. முதல் அல்காரிதம் தேவையானதை விட பெரிய சாய்வைக் கொண்டுள்ளது, இரண்டாவது கிட்டத்தட்ட பூஜ்ஜியத்தைக் கொண்டுள்ளது (அதிக முறைப்படுத்தல் காரணமாக இருக்கலாம்). ஆனாலும் ஒன்றாக சிறந்த முடிவுகளைக் காட்டுகிறது. 

நீங்கள் R² காட்டியைப் பார்த்தால், முதல் மற்றும் இரண்டாவது பயிற்சி அல்காரிதம் முறையே -0.01¹, 0.22 க்கு சமமாக இருக்கும், அதே சமயம் குழுமத்திற்கு 0.73 க்கு சமமாக இருக்கும்.

மேஜிக் குழும கற்றல்

இது போன்ற அடிப்படை எடுத்துக்காட்டில் கூட அல்காரிதம் மோசமான மாதிரியாக இருப்பதற்குப் பல காரணங்கள் உள்ளன: அதிகப்படியான பொருத்தத்தைத் தவிர்ப்பதற்காக ஒழுங்குபடுத்தலைப் பயன்படுத்த நீங்கள் முடிவு செய்திருக்கலாம் அல்லது சில முரண்பாடுகளை நிராகரிக்க வேண்டாம் என்று முடிவு செய்திருக்கலாம் அல்லது பல்லுறுப்புக்கோவை பின்னடைவைப் பயன்படுத்தி தவறாகப் புரிந்துகொண்டிருக்கலாம். பட்டம் (உதாரணமாக, நாங்கள் இரண்டாம் பட்டத்தின் பல்லுறுப்புக்கோவையைப் பயன்படுத்தினோம், மேலும் சோதனைத் தரவு தெளிவான சமச்சீரற்ற தன்மையைக் காட்டுகிறது, இதற்கு மூன்றாவது பட்டம் மிகவும் பொருத்தமானது).

EL சிறப்பாக செயல்படும் போது

ஒரே தரவுகளுடன் செயல்படும் இரண்டு கற்றல் அல்காரிதம்களைப் பார்ப்போம்.

மேஜிக் குழும கற்றல்

இரண்டு மாடல்களையும் இணைப்பது செயல்திறனை மேம்படுத்தவில்லை என்பதை இங்கே காணலாம். ஆரம்பத்தில், இரண்டு பயிற்சி வழிமுறைகளுக்கு, R² குறிகாட்டிகள் முறையே -0,37 மற்றும் 0,22 க்கு சமமாக இருந்தன, மேலும் குழுமத்திற்கு இது -0,04 ஆக மாறியது. அதாவது, EL மாதிரி குறிகாட்டிகளின் சராசரி மதிப்பைப் பெற்றது.

இருப்பினும், இந்த இரண்டு எடுத்துக்காட்டுகளுக்கும் இடையே ஒரு பெரிய வித்தியாசம் உள்ளது: முதல் எடுத்துக்காட்டில், மாதிரி பிழைகள் எதிர்மறையாக தொடர்புபடுத்தப்பட்டன, இரண்டாவதாக, அவை நேர்மறையாக தொடர்புபடுத்தப்பட்டன (மூன்று மாதிரிகளின் குணகங்கள் மதிப்பிடப்படவில்லை, ஆனால் அவை வெறுமனே தேர்ந்தெடுக்கப்பட்டன. ஆசிரியர் ஒரு உதாரணம்.)

எனவே, குழுமக் கற்றல் எந்தச் சந்தர்ப்பத்திலும் சார்பு/மாறுபாடு சமநிலையை மேம்படுத்த பயன்படுத்தப்படலாம், ஆனால் எப்போது மாதிரி பிழைகள் நேர்மறையான தொடர்பு இல்லை, EL ஐப் பயன்படுத்துவது மேம்பட்ட செயல்திறனுக்கு வழிவகுக்கும்.

ஒரே மாதிரியான மற்றும் பன்முக மாதிரிகள்

பெரும்பாலும் ஒரே மாதிரியான மாதிரிகளில் EL பயன்படுத்தப்படுகிறது (இந்த உதாரணம் அல்லது சீரற்ற காட்டில் உள்ளது), ஆனால் உண்மையில் நீங்கள் வெவ்வேறு மாதிரிகளை (நேரியல் பின்னடைவு + நரம்பியல் நெட்வொர்க் + XGBoost) வெவ்வேறு விளக்க மாறிகளுடன் இணைக்கலாம். இது தொடர்பில்லாத பிழைகள் மற்றும் மேம்பட்ட செயல்திறன் ஆகியவற்றிற்கு வழிவகுக்கும்.

போர்ட்ஃபோலியோ பல்வகைப்படுத்தலுடன் ஒப்பீடு

போர்ட்ஃபோலியோ கோட்பாட்டின் பல்வகைப்படுத்தலைப் போலவே EL வேலை செய்கிறது, ஆனால் எங்களுக்கு மிகவும் சிறந்தது. 

பல்வகைப்படுத்தும்போது, ​​தொடர்பற்ற பங்குகளில் முதலீடு செய்வதன் மூலம் உங்கள் செயல்திறனின் மாறுபாட்டைக் குறைக்க முயற்சிக்கிறீர்கள். பங்குகளின் நன்கு பன்முகப்படுத்தப்பட்ட போர்ட்ஃபோலியோ மோசமான தனிப்பட்ட பங்குகளை விட சிறப்பாக செயல்படும், ஆனால் சிறந்ததை விட சிறந்ததாக இருக்காது.

வாரன் பஃபெட்டை மேற்கோள் காட்ட: 

"பல்வகைப்படுத்தல் என்பது அறியாமைக்கு எதிரான ஒரு தற்காப்பு; அவர் என்ன செய்கிறார் என்று தெரியாத ஒருவருக்கு, அது [பல்வகைப்படுத்துதல்] மிகவும் சிறிய அர்த்தத்தை அளிக்கிறது."

மெஷின் லேர்னிங்கில், உங்கள் மாதிரியின் மாறுபாட்டைக் குறைக்க EL உதவுகிறது, ஆனால் இது சிறந்த அசல் மாதிரியை விட ஒட்டுமொத்த செயல்திறன் கொண்ட மாதிரியை உருவாக்கலாம்.

முடிவுகளை முடிப்போம்

பல மாதிரிகளை ஒன்றாக இணைப்பது ஒப்பீட்டளவில் எளிமையான நுட்பமாகும், இது மாறுபாடு சார்பு சிக்கலைத் தீர்ப்பதற்கும் செயல்திறனை மேம்படுத்துவதற்கும் வழிவகுக்கும்.

உங்களிடம் இரண்டு அல்லது அதற்கு மேற்பட்ட மாதிரிகள் நன்றாக வேலை செய்தால், அவற்றுக்கு இடையே தேர்வு செய்ய வேண்டாம்: அனைத்தையும் பயன்படுத்தவும் (ஆனால் எச்சரிக்கையுடன்)!

இந்த திசையில் வளர ஆர்வமாக உள்ளீர்களா? இலவச டெமோ பாடத்திற்கு பதிவு செய்யவும் "ஆன்லைன் பரிந்துரைகளின் உதாரணத்தைப் பயன்படுத்தி தொழில்துறை சூழலில் எம்எல் மாடல்களின் வெளியீடு" மற்றும் பங்கேற்க Andrey Kuznetsov உடனான ஆன்லைன் சந்திப்பு - Mail.ru குழுமத்தில் இயந்திர கற்றல் பொறியாளர்.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்