வலுவூட்டல் கற்றல் அல்லது பரிணாம உத்திகள்? - இரண்டும்

ஹே ஹப்ர்!

இரண்டு வருடங்கள் பழமையான, குறியீடு இல்லாமல் மற்றும் தெளிவாக கல்வித் தன்மை கொண்ட நூல்களின் மொழிபெயர்ப்புகளை இங்கே இடுகையிட நாங்கள் அடிக்கடி முடிவு செய்வதில்லை - ஆனால் இன்று நாங்கள் விதிவிலக்கு செய்வோம். கட்டுரையின் தலைப்பில் உள்ள குழப்பம் எங்கள் வாசகர்களில் பலரைக் கவலையடையச் செய்கிறது என்று நம்புகிறோம், மேலும் இந்த இடுகையின் மூலத்தில் வாதிடும் பரிணாம உத்திகள் குறித்த அடிப்படைப் பணியை நீங்கள் ஏற்கனவே படித்திருக்கிறீர்கள் அல்லது இப்போது அதைப் படிப்பீர்கள். பூனைக்கு வருக!

வலுவூட்டல் கற்றல் அல்லது பரிணாம உத்திகள்? - இரண்டும்

மார்ச் 2017 இல், ஓபன்ஏஐ "ஆழ்ந்த கற்றல் சமூகத்தில் அலைகளை உருவாக்கியது"வலுவூட்டல் கற்றலுக்கு அளவிடக்கூடிய மாற்றாக பரிணாம உத்திகள்" வலுவூட்டல் கற்றல் (RL) ஒரு ஆப்பு ஆகவில்லை என்பதற்கு ஆதரவாக ஈர்க்கக்கூடிய முடிவுகளை இந்த வேலை விவரித்தது, மேலும் சிக்கலான நரம்பியல் நெட்வொர்க்குகளைப் பயிற்றுவிக்கும் போது, ​​மற்ற முறைகளை முயற்சி செய்வது நல்லது. வலுவூட்டல் கற்றலின் முக்கியத்துவம் மற்றும் சிக்கலைத் தீர்ப்பதற்கான கற்பித்தல் "இருக்க வேண்டிய" தொழில்நுட்பம் என்ற அந்தஸ்துக்கு எவ்வாறு தகுதியானது என்பது குறித்து ஒரு விவாதம் வெடித்தது. இந்த இரண்டு தொழில்நுட்பங்களும் போட்டியாகக் கருதப்படக்கூடாது என்று இங்கே நான் கூற விரும்புகிறேன், அவற்றில் ஒன்று மற்றதை விட தெளிவாக சிறந்தது; மாறாக, அவை இறுதியில் ஒன்றையொன்று பூர்த்தி செய்கின்றன. உண்மையில், நீங்கள் எதை உருவாக்க வேண்டும் என்பதைப் பற்றி கொஞ்சம் யோசித்தால் பொது AI மற்றும் அத்தகைய அமைப்புகள், அவற்றின் இருப்பு முழுவதும் கற்றல், தீர்ப்பு மற்றும் திட்டமிடல் திறன் கொண்டதாக இருக்கும், பின்னர் இந்த அல்லது அந்த ஒருங்கிணைந்த தீர்வு தேவைப்படும் என்ற முடிவுக்கு நாம் நிச்சயமாக வருவோம். மூலம், துல்லியமாக இந்த ஒருங்கிணைந்த தீர்வுதான் இயற்கைக்கு வந்தது, இது பரிணாம வளர்ச்சியின் போது சிக்கலான நுண்ணறிவுடன் பாலூட்டிகள் மற்றும் பிற உயர் விலங்குகளை வழங்கியது.

பரிணாம உத்திகள்

ஓபன்ஏஐ தாளின் முக்கிய ஆய்வறிக்கை என்னவென்றால், பாரம்பரிய பேக் ப்ரோபேகேஷனுடன் இணைந்த வலுவூட்டல் கற்றலைப் பயன்படுத்துவதற்குப் பதிலாக, அவர்கள் "பரிணாம உத்தி" (ES) என்று அழைத்ததைப் பயன்படுத்தி சிக்கலான சிக்கல்களைத் தீர்க்க ஒரு நரம்பியல் வலையமைப்பை வெற்றிகரமாகப் பயிற்றுவித்தனர். இந்த ES அணுகுமுறையானது, பிணைய அளவிலான எடைகளின் விநியோகத்தை பராமரித்தல், பல முகவர்கள் இணையாக பணிபுரிவது மற்றும் இந்த விநியோகத்திலிருந்து தேர்ந்தெடுக்கப்பட்ட அளவுருக்களைப் பயன்படுத்துதல் ஆகியவற்றைக் கொண்டுள்ளது. ஒவ்வொரு முகவரும் அதன் சொந்த சூழலில் இயங்குகிறது, மேலும் குறிப்பிட்ட எண்ணிக்கையிலான எபிசோடுகள் அல்லது ஒரு அத்தியாயத்தின் நிலைகளை முடித்தவுடன், அல்காரிதம் ஒரு ஒட்டுமொத்த வெகுமதியை வழங்குகிறது, இது உடற்பயிற்சி மதிப்பெண்ணாக வெளிப்படுத்தப்படுகிறது. இந்த மதிப்பை கணக்கில் எடுத்துக்கொண்டால், அளவுருக்களின் விநியோகம் மிகவும் வெற்றிகரமான முகவர்களை நோக்கி மாற்றப்படலாம், இது குறைவான வெற்றிகரமானவற்றை இழக்கிறது. நூற்றுக்கணக்கான முகவர்களின் பங்கேற்புடன் இதுபோன்ற ஒரு செயல்பாட்டை மில்லியன் கணக்கான முறை மீண்டும் செய்வதன் மூலம், எடைகளின் விநியோகத்தை ஒரு இடத்திற்கு நகர்த்த முடியும், இது முகவர்கள் தங்களுக்கு ஒதுக்கப்பட்ட பணியைத் தீர்ப்பதற்கான உயர்தர கொள்கையை உருவாக்க அனுமதிக்கும். உண்மையில், கட்டுரையில் வழங்கப்பட்ட முடிவுகள் சுவாரஸ்யமாக உள்ளன: நீங்கள் ஆயிரம் முகவர்களை இணையாக இயக்கினால், இரண்டு கால்களில் மானுடவியல் லோகோமோஷனை அரை மணி நேரத்திற்குள் கற்றுக் கொள்ளலாம் (அதிக மேம்பட்ட RL முறைகள் கூட அதிக செலவு செய்ய வேண்டும். இதில் ஒரு மணி நேரத்திற்கு மேல்). மேலும் விரிவான தகவலுக்கு, சிறந்ததைப் படிக்க பரிந்துரைக்கிறேன் பதவியை பரிசோதனையின் ஆசிரியர்களிடமிருந்து, அத்துடன் அறிவியல் கட்டுரை.

வலுவூட்டல் கற்றல் அல்லது பரிணாம உத்திகள்? - இரண்டும்

மானுடவியல் நிமிர்ந்து நடைபயிற்சி கற்பிப்பதற்கான வெவ்வேறு உத்திகள், OpenAI இலிருந்து ES முறையைப் பயன்படுத்தி ஆய்வு செய்யப்பட்டது.

கருப்பு பெட்டி

இந்த முறையின் பெரிய நன்மை என்னவென்றால், அதை எளிதாக இணைத்துக்கொள்ள முடியும். A3C போன்ற RL முறைகளுக்கு, பணியாளர் த்ரெட்கள் மற்றும் ஒரு அளவுரு சேவையகத்திற்கு இடையே தகவல் பரிமாற்றம் செய்யப்பட வேண்டும் என்றாலும், ES க்கு உடற்பயிற்சி மதிப்பீடுகள் மற்றும் பொதுவான அளவுரு விநியோக தகவல் மட்டுமே தேவை. இந்த எளிமையின் காரணமாக இந்த முறை நவீன RL முறைகளை விட அளவிடுதல் திறன்களின் அடிப்படையில் மிகவும் முன்னால் உள்ளது. இருப்பினும், இவை அனைத்தும் வீணாக வராது: கருப்பு பெட்டியின் கொள்கையின்படி நீங்கள் பிணையத்தை மேம்படுத்த வேண்டும். இந்த வழக்கில், "கருப்பு பெட்டி" என்பது பயிற்சியின் போது நெட்வொர்க்கின் உள் அமைப்பு முற்றிலும் புறக்கணிக்கப்படுகிறது, மேலும் ஒட்டுமொத்த முடிவு (எபிசோடிற்கான வெகுமதி) மட்டுமே பயன்படுத்தப்படுகிறது, மேலும் இது ஒரு குறிப்பிட்ட நெட்வொர்க்கின் எடையை சார்ந்தது. அடுத்த தலைமுறையினரால் பெறப்படும். சுற்றுச்சூழலில் இருந்து அதிக கருத்துக்களைப் பெறாத சூழ்நிலைகளில் - மற்றும் பல பாரம்பரிய RL சிக்கல்களில் வெகுமதிகளின் ஓட்டம் மிகவும் குறைவாக உள்ளது - பிரச்சனை "ஓரளவு கருப்பு பெட்டி" என்பதிலிருந்து "முழுமையான கருப்பு பெட்டி" வரை செல்கிறது. இந்த வழக்கில், நீங்கள் உற்பத்தித்திறனை கணிசமாக அதிகரிக்க முடியும், எனவே, நிச்சயமாக, அத்தகைய சமரசம் நியாயமானது. "எப்படியும் நம்பிக்கையின்றி சத்தமாக இருந்தால் சாய்வு யாருக்கு தேவை?" - இது பொதுவான கருத்து.

இருப்பினும், கருத்து மிகவும் செயலில் இருக்கும் சூழ்நிலைகளில், ES க்கு விஷயங்கள் தவறாகத் தொடங்குகின்றன. ES ஐப் பயன்படுத்தி ஒரு எளிய MNIST வகைப்பாடு நெட்வொர்க் எவ்வாறு பயிற்சியளிக்கப்பட்டது என்பதை OpenAI குழு விவரிக்கிறது, மேலும் இந்த முறை பயிற்சி 1000 மடங்கு மெதுவாக இருந்தது. உண்மை என்னவென்றால், பட வகைப்பாட்டில் உள்ள சாய்வு சமிக்ஞை நெட்வொர்க்கை எவ்வாறு சிறந்த வகைப்படுத்தலைக் கற்பிப்பது என்பது குறித்து மிகவும் தகவலறிந்ததாகும். எனவே, RL நுட்பத்தில் சிக்கல் குறைவாக உள்ளது மற்றும் சத்தமில்லாத சாய்வுகளை உருவாக்கும் சூழல்களில் அரிதான வெகுமதிகளுடன் அதிகமாக உள்ளது.

இயற்கையின் தீர்வு

இயற்கையின் உதாரணத்திலிருந்து நாம் கற்றுக்கொள்ள முயற்சித்தால், செயற்கை நுண்ணறிவை உருவாக்குவதற்கான வழிகளைப் பற்றி சிந்தித்துப் பார்த்தால், சில சமயங்களில் AI ஐ இவ்வாறு கருதலாம். பிரச்சனை சார்ந்த அணுகுமுறை. எல்லாவற்றிற்கும் மேலாக, கணினி விஞ்ஞானிகளுக்கு இல்லாத கட்டுப்பாடுகளுக்குள் இயற்கை செயல்படுகிறது. ஒரு குறிப்பிட்ட சிக்கலைத் தீர்ப்பதற்கான முற்றிலும் தத்துவார்த்த அணுகுமுறை அனுபவ மாற்றுகளை விட மிகவும் பயனுள்ள தீர்வுகளை வழங்க முடியும் என்று ஒரு கருத்து உள்ளது. இருப்பினும், சில கட்டுப்பாடுகளின் கீழ் இயங்கும் ஒரு மாறும் அமைப்பு (பூமி) எவ்வாறு நெகிழ்வான மற்றும் சிக்கலான நடத்தை திறன் கொண்ட முகவர்களை (விலங்குகள், குறிப்பாக பாலூட்டிகள்) உருவாக்கியுள்ளது என்பதைச் சோதிப்பது பயனுள்ளது என்று நான் இன்னும் நினைக்கிறேன். இந்த கட்டுப்பாடுகளில் சில உருவகப்படுத்தப்பட்ட தரவு அறிவியல் உலகில் பொருந்தாது, மற்றவை நன்றாக உள்ளன.

பாலூட்டிகளின் அறிவார்ந்த நடத்தையை ஆராய்ந்த பின்னர், இரண்டு நெருங்கிய தொடர்புடைய செயல்முறைகளின் சிக்கலான பரஸ்பர செல்வாக்கின் விளைவாக இது உருவாகிறது என்பதைக் காண்கிறோம்: மற்றவர்களின் அனுபவங்களிலிருந்து கற்றுக்கொள்வது и செயல்வழி கற்றல். முந்தையது பெரும்பாலும் இயற்கையான தேர்வால் இயக்கப்படும் பரிணாம வளர்ச்சியுடன் சமன் செய்யப்படுகிறது, ஆனால் இங்கே நான் எபிஜெனெடிக்ஸ், நுண்ணுயிரிகள் மற்றும் மரபணு ரீதியாக தொடர்பில்லாத உயிரினங்களுக்கிடையில் அனுபவங்களைப் பகிர்ந்து கொள்ள உதவும் பிற வழிமுறைகளை கணக்கில் எடுத்துக்கொள்ள ஒரு பரந்த சொல்லைப் பயன்படுத்துகிறேன். இரண்டாவது செயல்முறை, அனுபவத்திலிருந்து கற்றுக்கொள்வது, ஒரு விலங்கு அதன் வாழ்நாள் முழுவதும் கற்றுக் கொள்ளும் அனைத்து தகவல்களும் ஆகும், மேலும் இந்த தகவல் வெளி உலகத்துடன் இந்த விலங்குகளின் தொடர்பு மூலம் நேரடியாக தீர்மானிக்கப்படுகிறது. கற்றல் செயல்பாட்டில் உள்ளார்ந்த தகவல்தொடர்புகளில் தேர்ச்சி பெறுவது முதல் பொருட்களை அடையாளம் காண்பது வரை அனைத்தையும் இந்த வகை உள்ளடக்கியது.

தோராயமாகச் சொன்னால், இயற்கையில் நிகழும் இந்த இரண்டு செயல்முறைகளையும் நரம்பியல் நெட்வொர்க்குகளை மேம்படுத்துவதற்கான இரண்டு விருப்பங்களுடன் ஒப்பிடலாம். பரிணாம உத்திகள், உயிரினத்தைப் பற்றிய தகவல்களைப் புதுப்பிக்க, சாய்வுகளைப் பற்றிய தகவல்கள் பயன்படுத்தப்படுகின்றன, மற்றவர்களின் அனுபவத்திலிருந்து கற்றுக்கொள்வதற்கு நெருக்கமாக வருகின்றன. இதேபோல், சாய்வு முறைகள், ஒன்று அல்லது மற்றொரு அனுபவத்தைப் பெறுவது முகவரின் நடத்தையில் ஒன்று அல்லது மற்றொரு மாற்றத்திற்கு வழிவகுக்கும், ஒருவரின் சொந்த அனுபவத்திலிருந்து கற்றுக்கொள்வதற்கு ஒப்பிடலாம். இந்த இரண்டு அணுகுமுறைகள் ஒவ்வொன்றும் விலங்குகளில் உருவாகும் அறிவார்ந்த நடத்தை அல்லது திறன்களைப் பற்றி நாம் சிந்தித்தால், ஒப்பீடு மிகவும் உச்சரிக்கப்படுகிறது. இரண்டு சந்தர்ப்பங்களிலும், "பரிணாம முறைகள்" ஒரு குறிப்பிட்ட உடற்தகுதியை (உயிருடன் இருக்க போதுமானது) உருவாக்க அனுமதிக்கும் எதிர்வினை நடத்தைகள் பற்றிய ஆய்வை ஊக்குவிக்கிறது. நடக்க அல்லது சிறையிலிருந்து தப்பிக்க கற்றுக்கொள்வது பல சந்தர்ப்பங்களில் மரபணு மட்டத்தில் பல விலங்குகளில் "கடினமான" நடத்தைக்கு சமமான "உள்ளுணர்வு" ஆகும். கூடுதலாக, வெகுமதி சமிக்ஞை மிகவும் அரிதாக இருக்கும் சந்தர்ப்பங்களில் பரிணாம முறைகள் பொருந்தும் என்பதை இந்த எடுத்துக்காட்டு உறுதிப்படுத்துகிறது (எடுத்துக்காட்டாக, ஒரு குழந்தையை வெற்றிகரமாக வளர்ப்பது). அத்தகைய சூழ்நிலையில், இந்த உண்மை ஏற்படுவதற்கு பல ஆண்டுகளுக்கு முன்பு செய்யப்பட்ட எந்தவொரு குறிப்பிட்ட செயல்களுடனும் வெகுமதியை தொடர்புபடுத்துவது சாத்தியமில்லை. மறுபுறம், ES தோல்வியுற்றால், அதாவது பட வகைப்பாடு, 100-க்கும் மேற்பட்ட ஆண்டுகளில் நடத்தப்பட்ட எண்ணற்ற நடத்தை உளவியல் சோதனைகளில் அடையப்பட்ட விலங்கு கற்றலின் முடிவுகளுடன் ஒப்பிடக்கூடிய முடிவுகள் குறிப்பிடத்தக்கவை.

விலங்குகளிடமிருந்து கற்றல்

வலுவூட்டல் கற்றலில் பயன்படுத்தப்படும் முறைகள் பல சந்தர்ப்பங்களில் உளவியல் இலக்கியத்திலிருந்து நேரடியாக எடுக்கப்படுகின்றன செயல்பாட்டு சீரமைப்பு, மற்றும் செயல்பாட்டு கண்டிஷனிங் விலங்கு உளவியலைப் பயன்படுத்தி ஆய்வு செய்யப்பட்டது. மூலம், வலுவூட்டல் கற்றலின் இரு நிறுவனர்களில் ஒருவரான ரிச்சர்ட் சுட்டன் உளவியலில் இளங்கலைப் பட்டம் பெற்றவர். செயல்பாட்டு கண்டிஷனிங் சூழலில், விலங்குகள் குறிப்பிட்ட நடத்தை முறைகளுடன் வெகுமதி அல்லது தண்டனையை இணைக்க கற்றுக்கொள்கின்றன. பயிற்சியாளர்கள் மற்றும் ஆராய்ச்சியாளர்கள் இந்த வெகுமதி சங்கத்தை ஏதோ ஒரு வகையில் கையாளலாம், இது விலங்குகளை அறிவுத்திறன் அல்லது சில நடத்தைகளை வெளிப்படுத்த தூண்டுகிறது. இருப்பினும், விலங்கு ஆராய்ச்சியில் பயன்படுத்தப்படும் செயல்பாட்டு கண்டிஷனிங், விலங்குகள் தங்கள் வாழ்நாள் முழுவதும் கற்றுக் கொள்ளும் அதே கண்டிஷனிங்கின் மிகவும் உச்சரிக்கப்படும் வடிவத்தைத் தவிர வேறில்லை. சுற்றுச்சூழலில் இருந்து நேர்மறையான வலுவூட்டலின் சமிக்ஞைகளை நாங்கள் தொடர்ந்து பெறுகிறோம் மற்றும் அதற்கேற்ப நமது நடத்தையை சரிசெய்கிறோம். உண்மையில், பல நரம்பியல் விஞ்ஞானிகள் மற்றும் அறிவாற்றல் விஞ்ஞானிகள் மனிதர்களும் பிற விலங்குகளும் உண்மையில் இன்னும் உயர்ந்த மட்டத்தில் செயல்படுவதாக நம்புகிறார்கள் மற்றும் சாத்தியமான வெகுமதிகளின் அடிப்படையில் எதிர்கால சூழ்நிலைகளில் அவர்களின் நடத்தையின் விளைவைக் கணிக்க தொடர்ந்து கற்றுக்கொள்கிறார்கள்.

அனுபவத்திலிருந்து கற்றுக்கொள்வதில் கணிப்பின் மையப் பங்கு மேலே விவரிக்கப்பட்ட இயக்கவியலை குறிப்பிடத்தக்க வழிகளில் மாற்றுகிறது. முன்னர் மிகவும் அரிதாகக் கருதப்பட்ட சமிக்ஞை (எபிசோடிக் வெகுமதி) மிகவும் அடர்த்தியானது. கோட்பாட்டளவில், நிலைமை இது போன்றது: எந்த நேரத்திலும், பாலூட்டியின் மூளை உணர்ச்சித் தூண்டுதல்கள் மற்றும் செயல்களின் சிக்கலான நீரோட்டத்தின் அடிப்படையில் விளைவுகளைக் கணக்கிடுகிறது, அதே நேரத்தில் விலங்கு இந்த நீரோட்டத்தில் மூழ்கியுள்ளது. இந்த வழக்கில், விலங்கின் இறுதி நடத்தை ஒரு வலுவான சமிக்ஞையை அளிக்கிறது, இது முன்னறிவிப்புகளின் சரிசெய்தல் மற்றும் நடத்தையின் வளர்ச்சிக்கு வழிகாட்ட பயன்படுத்தப்பட வேண்டும். எதிர்காலத்தில் முன்னறிவிப்புகளை (மற்றும், அதன்படி, எடுக்கப்பட்ட செயல்களின் தரம்) மேம்படுத்த மூளை இந்த அனைத்து சமிக்ஞைகளையும் பயன்படுத்துகிறது. இந்த அணுகுமுறையின் கண்ணோட்டம் சிறந்த புத்தகத்தில் கொடுக்கப்பட்டுள்ளது "சர்ஃபிங் நிச்சயமற்ற தன்மை"அறிவாற்றல் விஞ்ஞானி மற்றும் தத்துவவாதி ஆண்டி கிளார்க். செயற்கை முகவர்களைப் பயிற்றுவிப்பதற்கான இத்தகைய காரணங்களை நாம் விரிவுபடுத்தினால், வலுவூட்டல் கற்றலில் ஒரு அடிப்படை குறைபாடு வெளிப்படுகிறது: இந்த முன்னுதாரணத்தில் பயன்படுத்தப்படும் சமிக்ஞை, அது என்னவாக இருக்க முடியும் (அல்லது இருக்க வேண்டும்) ஒப்பிடுகையில் நம்பிக்கையற்ற முறையில் பலவீனமாக உள்ளது. சமிக்ஞை செறிவூட்டலை அதிகரிக்க முடியாத சந்தர்ப்பங்களில் (ஒருவேளை அது இயல்பாகவே பலவீனமாக அல்லது குறைந்த-நிலை வினைத்திறனுடன் தொடர்புடையதாக இருக்கலாம்), எடுத்துக்காட்டாக, ES போன்ற நன்கு இணையான பயிற்சி முறையை விரும்புவது நல்லது.

நரம்பியல் நெட்வொர்க்குகளின் உயர் பயிற்சி

பாலூட்டிகளின் மூளையில் உள்ளார்ந்த உயர் நரம்பியல் செயல்பாட்டின் கொள்கைகளை உருவாக்கி, தொடர்ந்து கணிப்புகளைச் செய்வதில், சமீபத்திய முன்னேற்றங்கள் வலுவூட்டல் கற்றலில் செய்யப்பட்டுள்ளன, இது இப்போது அத்தகைய கணிப்புகளின் முக்கியத்துவத்தை கணக்கில் எடுத்துக்கொள்கிறது. உங்களுக்கு ஒத்த இரண்டு படைப்புகளை நான் உடனடியாக பரிந்துரைக்க முடியும்:

இந்த இரண்டு ஆவணங்களிலும், ஆசிரியர்கள் தங்கள் நரம்பியல் நெட்வொர்க்குகளின் வழக்கமான இயல்புநிலைக் கொள்கையை எதிர்காலத்தில் சுற்றுச்சூழலின் நிலை குறித்த கணிப்பு முடிவுகளுடன் கூடுதலாக வழங்குகிறார்கள். முதல் கட்டுரையில், முன்னறிவிப்பு என்பது பல்வேறு அளவீட்டு மாறிகளுக்குப் பயன்படுத்தப்படுகிறது, இரண்டாவதாக, சுற்றுச்சூழலில் ஏற்படும் மாற்றங்கள் மற்றும் முகவரின் நடத்தைக்கு முன்னறிவிப்பு பயன்படுத்தப்படுகிறது. இரண்டு சந்தர்ப்பங்களிலும், நேர்மறை வலுவூட்டலுடன் தொடர்புடைய ஸ்பேர்ஸ் சிக்னல் மிகவும் வளமானதாகவும் மேலும் தகவலறிந்ததாகவும் மாறும், இது விரைவான கற்றல் மற்றும் மிகவும் சிக்கலான நடத்தைகளைப் பெறுவதற்கு அனுமதிக்கிறது. இத்தகைய மேம்பாடுகள் சாய்வு சிக்னலைப் பயன்படுத்தும் முறைகளில் மட்டுமே கிடைக்கும், ஆனால் ES போன்ற "கருப்பு பெட்டி" கொள்கையில் செயல்படும் முறைகளில் அல்ல.

கூடுதலாக, அனுபவத்திலிருந்து கற்றல் மற்றும் சாய்வு முறைகள் மிகவும் பயனுள்ளதாக இருக்கும். வலுவூட்டல் கற்றலைப் பயன்படுத்துவதை விட ES முறையைப் பயன்படுத்தி ஒரு குறிப்பிட்ட சிக்கலை விரைவாகப் படிக்க முடிந்த சந்தர்ப்பங்களில் கூட, ES மூலோபாயம் RL ஐ விட பல மடங்கு அதிகமான தரவை உள்ளடக்கியதால் ஆதாயம் அடையப்பட்டது. விலங்குகளில் கற்கும் கொள்கைகளைப் பற்றி இந்த விஷயத்தில் பிரதிபலிக்கும் போது, ​​​​வேறொருவரின் உதாரணத்திலிருந்து கற்றதன் விளைவு பல தலைமுறைகளுக்குப் பிறகு வெளிப்படுகிறது என்பதை நாங்கள் கவனிக்கிறோம், அதே நேரத்தில் விலங்கு எப்போதும் பாடம் கற்க சில நேரங்களில் ஒரு நிகழ்வு போதுமானது. பிடிக்கும் போது எடுத்துக்காட்டுகள் இல்லாமல் பயிற்சி இது பாரம்பரிய சாய்வு முறைகளுடன் பொருந்தவில்லை என்றாலும், இது ES ஐ விட மிகவும் புரிந்துகொள்ளக்கூடியது. எடுத்துக்காட்டாக, போன்ற அணுகுமுறைகள் உள்ளன நரம்பியல் எபிசோடிக் கட்டுப்பாடு, பயிற்சியின் போது Q- மதிப்புகள் சேமிக்கப்படும், அதன் பிறகு செயல்களை எடுப்பதற்கு முன் நிரல் அவற்றைச் சரிபார்க்கிறது. இதன் விளைவாக ஒரு சாய்வு முறையாகும், இது முன்பை விட மிக விரைவாக சிக்கல்களை எவ்வாறு தீர்ப்பது என்பதை அறிய உங்களை அனுமதிக்கிறது. நரம்பியல் எபிசோடிக் கட்டுப்பாடு பற்றிய ஒரு கட்டுரையில், ஆசிரியர்கள் மனித ஹிப்போகாம்பஸைக் குறிப்பிடுகிறார்கள், இது ஒரு நிகழ்வைப் பற்றிய தகவல்களை ஒரு அனுபவத்திற்குப் பிறகும் தக்கவைத்துக்கொள்ளும் திறன் கொண்டது. முக்கிய பங்கு நினைவில் கொள்ளும் செயல்பாட்டில். இத்தகைய வழிமுறைகளுக்கு முகவரின் உள் அமைப்புக்கான அணுகல் தேவைப்படுகிறது, இது வரையறையின்படி, ES முன்னுதாரணத்தில் சாத்தியமற்றது.

எனவே, அவற்றை ஏன் இணைக்கக்கூடாது?

இந்த கட்டுரையின் பெரும்பகுதி நான் RL முறைகளை ஆதரிக்கிறேன் என்ற எண்ணத்தை விட்டுவிடக்கூடும். இருப்பினும், நீண்ட காலத்திற்கு இரண்டு முறைகளையும் இணைப்பதே சிறந்த தீர்வாக இருக்கும் என்று நான் உண்மையில் நினைக்கிறேன், இதனால் ஒவ்வொன்றும் மிகவும் பொருத்தமான சூழ்நிலைகளில் பயன்படுத்தப்படுகின்றன. வெளிப்படையாக, பல வினைத்திறன் கொள்கைகள் அல்லது நேர்மறை வலுவூட்டலின் மிகக் குறைவான சிக்னல்கள் உள்ள சூழ்நிலைகளில், ES வெற்றி பெறுகிறது, குறிப்பாக உங்கள் வசம் கம்ப்யூட்டிங் சக்தி இருந்தால், அதில் நீங்கள் மிகப்பெரிய இணையான பயிற்சியை இயக்க முடியும். மறுபுறம், வலுவூட்டல் கற்றல் அல்லது மேற்பார்வையிடப்பட்ட கற்றலைப் பயன்படுத்தும் சாய்வு முறைகள் நமக்கு விரிவான பின்னூட்டங்களை அணுகும் போது பயனுள்ளதாக இருக்கும், மேலும் ஒரு சிக்கலை விரைவாகவும் குறைந்த தரவும் எவ்வாறு தீர்ப்பது என்பதைக் கற்றுக்கொள்ள வேண்டும்.

இயற்கைக்கு திரும்பினால், முதல் முறை, சாராம்சத்தில், இரண்டாவது அடித்தளத்தை அமைக்கிறது என்பதைக் காண்கிறோம். அதனால்தான், பரிணாம வளர்ச்சியின் போது, ​​பாலூட்டிகள் மூளையை உருவாக்கியுள்ளன, அவை சுற்றுச்சூழலில் இருந்து வரும் சிக்கலான சமிக்ஞைகளிலிருந்து மிகவும் திறம்பட கற்றுக்கொள்ள அனுமதிக்கின்றன. எனவே, கேள்வி திறந்தே உள்ளது. ஒருவேளை பரிணாம உத்திகள், சாய்வு கற்றல் முறைகளுக்கும் பயனுள்ளதாக இருக்கும் பயனுள்ள கற்றல் கட்டமைப்புகளை கண்டுபிடிக்க உதவும். எல்லாவற்றிற்கும் மேலாக, இயற்கையால் கண்டுபிடிக்கப்பட்ட தீர்வு உண்மையில் மிகவும் வெற்றிகரமானது.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்