ශක්තිමත් කිරීමේ ඉගෙනීම හෝ පරිණාමීය උපාය මාර්ග? - දෙකම

හෙලෝ, හබ්ර්!

වසර දෙකක් පැරණි, කේතයක් නොමැතිව සහ පැහැදිලිව ශාස්ත්‍රීය ස්වභාවයක් ඇති පෙළ පරිවර්තන මෙහි පළ කිරීමට අපි බොහෝ විට තීරණය නොකරමු - නමුත් අද අපි ව්‍යතිරේකයක් කරන්නෙමු. ලිපියේ මාතෘකාවේ ඇති උභතෝකෝටිකය අපගේ බොහෝ පාඨකයින් කනස්සල්ලට පත් කරනු ඇතැයි අපි බලාපොරොත්තු වන අතර, මෙම ලිපිය මුල් පිටපතේ තර්ක කරන පරිණාමීය උපාය මාර්ග පිළිබඳ මූලික වැඩ ඔබ දැනටමත් කියවා ඇත හෝ එය දැන් කියවනු ඇත. බළලාට සාදරයෙන් පිළිගනිමු!

ශක්තිමත් කිරීමේ ඉගෙනීම හෝ පරිණාමීය උපාය මාර්ග? - දෙකම

2017 මාර්තු මාසයේදී, OpenAI ගැඹුරු ඉගෙනුම් ප්‍රජාව තුළ රැල්ලක් ඇති කළේ ""Reinforcement Learning සඳහා පරිමාණය කළ හැකි විකල්පයක් ලෙස Evolution Strategies" මෙම කාර්යය ශක්තිමත් කිරීමේ ඉගෙනීම (RL) කුඤ්ඤයක් බවට පත් නොවී ඇති අතර, සංකීර්ණ ස්නායුක ජාල පුහුණු කිරීමේදී වෙනත් ක්‍රම අත්හදා බැලීම යෝග්‍ය වන බව සනාථ කරන ආකර්ෂණීය ප්‍රතිඵල විස්තර කළේය. ශක්තිමත් කිරීමේ ඉගෙනීමේ වැදගත්කම සහ ගැටළු විසඳීම සඳහා ඉගැන්වීමේ “අනිවාර්‍යයෙන්ම තිබිය යුතු” තාක්‍ෂණයක් ලෙස එහි තත්ත්වයට සුදුසු වන්නේ කෙසේද යන්න පිළිබඳව විවාදයක් පසුව පුපුරා ගියේය. මෙහිදී මට කියන්නට අවශ්‍ය වන්නේ මෙම තාක්ෂණයන් දෙක තරඟකාරී ලෙස නොසැලකිය යුතු බවයි, ඉන් එකක් පැහැදිලිවම අනෙකට වඩා හොඳ ය; ඊට පටහැනිව, ඔවුන් අවසානයේ එකිනෙකාට අනුපූරක වේ. ඇත්ත වශයෙන්ම, ඔබ නිර්මාණය කිරීමට ගත යුතු දේ ගැන ටිකක් සිතන්නේ නම් සාමාන්ය AI සහ එවැනි පද්ධති, ඔවුන්ගේ පැවැත්ම පුරාවට ඉගෙනීමට, විනිශ්චය කිරීමට සහ සැලසුම් කිරීමට හැකි වනු ඇත, එවිට අපි මෙම හෝ එම ඒකාබද්ධ විසඳුම අවශ්‍ය වනු ඇති බවට නිසැකව ම නිගමනයකට එළඹෙනු ඇත. මාර්ගය වන විට, පරිණාමය අතරතුර ක්ෂීරපායින් සහ අනෙකුත් ඉහළ සතුන්ට සංකීර්ණ බුද්ධියක් ලබා දුන් සොබාදහම පැමිණියේ හරියටම මෙම ඒකාබද්ධ විසඳුමයි.

පරිණාමීය උපාය මාර්ග

OpenAI පත්‍රිකාවේ ප්‍රධාන නිබන්ධනය වූයේ සාම්ප්‍රදායික පසුබිම් ප්‍රචාරණය සමඟ ඒකාබද්ධ වූ ශක්තිමත් කිරීමේ ඉගෙනීම වෙනුවට ඔවුන් "පරිණාමීය උපාය මාර්ගයක්" (ES) ලෙස හැඳින්වූ දෙය භාවිතා කර සංකීර්ණ ගැටළු විසඳීමට ස්නායුක ජාලයක් සාර්ථකව පුහුණු කළ බවයි. මෙම ES ප්‍රවේශය සමන්විත වන්නේ ජාලය පුරා බර බෙදා හැරීමක් පවත්වා ගැනීම, සමාන්තරව වැඩ කරන බහු නියෝජිතයන් සම්බන්ධ කිරීම සහ මෙම බෙදා හැරීමෙන් තෝරාගත් පරාමිති භාවිතා කිරීමයි. සෑම නියෝජිතයෙක්ම තමන්ගේම පරිසරයක ක්‍රියාත්මක වන අතර, කථාංගයක නිශ්චිත කථාංග හෝ අදියර ගණනක් සම්පූර්ණ කිරීමෙන් පසු, ඇල්ගොරිතම යෝග්‍යතා ලකුණු ලෙස ප්‍රකාශිත සමුච්චිත ත්‍යාගයක් ලබා දෙයි. මෙම අගය සැලකිල්ලට ගනිමින්, පරාමිති බෙදා හැරීම වඩා සාර්ථක නියෝජිතයන් වෙත මාරු කළ හැකි අතර, අඩු සාර්ථක ඒවා අහිමි වේ. නියෝජිතයින් සිය ගණනකගේ සහභාගීත්වයෙන් එවැනි මෙහෙයුමක් මිලියන ගණනක් පුනරාවර්තනය කිරීමෙන්, බර බෙදා හැරීම අවකාශයකට ගෙන යා හැකි අතර එමඟින් නියෝජිතයින්ට පවරා ඇති කාර්යය විසඳීම සඳහා උසස් තත්ත්වයේ ප්‍රතිපත්තියක් සැකසීමට ඉඩ සලසයි. ඇත්ත වශයෙන්ම, ලිපියේ ඉදිරිපත් කර ඇති ප්‍රති results ල සිත් ඇදගන්නා සුළු ය: ඔබ සමාන්තරව නියෝජිතයන් දහසක් ධාවනය කරන්නේ නම්, කකුල් දෙකේ මානව චලනයන් පැය භාගයකට අඩු කාලයකින් ඉගෙන ගත හැකි බව පෙන්නුම් කරයි (වඩාත් දියුණු RL ක්‍රමවලට පවා වැඩි මුදලක් වැය කිරීමට අවශ්‍ය වේ. මේ සඳහා පැයකට වඩා). වඩාත් සවිස්තරාත්මක තොරතුරු සඳහා, මම විශිෂ්ට කියවීමට නිර්දේශ කරමි තනතුර අත්හදා බැලීමේ කතුවරුන්ගෙන් මෙන්ම විද්යාත්මක ලිපිය.

ශක්තිමත් කිරීමේ ඉගෙනීම හෝ පරිණාමීය උපාය මාර්ග? - දෙකම

OpenAI වෙතින් ES ක්‍රමය භාවිතයෙන් අධ්‍යයනය කරන ලද මානවරූපී සෘජු ඇවිදීම ඉගැන්වීම සඳහා විවිධ උපාය මාර්ග.

කළු පෙට්ටිය

මෙම ක්‍රමයේ ඇති විශාල වාසිය නම් එය පහසුවෙන් සමාන්තරගත කළ හැකි වීමයි. A3C වැනි RL ක්‍රමවලට සේවක නූල් සහ පරාමිති සේවාදායකයක් අතර තොරතුරු හුවමාරු කිරීම අවශ්‍ය වන අතර, ES හට අවශ්‍ය වන්නේ යෝග්‍යතා ඇස්තමේන්තු සහ සාමාන්‍යකරණය කළ පරාමිති බෙදා හැරීමේ තොරතුරු පමණි. මෙම ක්‍රමය විශාලනය කිරීමේ හැකියාව අතින් නවීන RL ක්‍රමවලට වඩා බොහෝ ඉදිරියෙන් සිටින්නේ මෙම සරල බව නිසාය. කෙසේ වෙතත්, මේ සියල්ල නිෂ්ඵල නොවේ: ඔබ කළු පෙට්ටියේ මූලධර්මය අනුව ජාලය ප්රශස්තකරණය කළ යුතුය. මෙම අවස්ථාවෙහිදී, "කළු පෙට්ටිය" යන්නෙන් අදහස් කරන්නේ පුහුණු කිරීමේදී ජාලයේ අභ්‍යන්තර ව්‍යුහය සම්පූර්ණයෙන්ම නොසලකා හරින අතර, සමස්ත ප්‍රති result ලය (කථාංගය සඳහා ත්‍යාගය) පමණක් භාවිතා වන අතර, එය යම් ජාලයක බර රඳා පවතීද යන්න මත රඳා පවතී. පසු පරම්පරාවන්ට උරුම වේ. පරිසරයෙන් අපට වැඩි ප්‍රතිපෝෂණ නොලැබෙන අවස්ථා වලදී - සහ බොහෝ සාම්ප්‍රදායික RL ගැටළු වලදී ප්‍රතිලාභ ගලායාම ඉතා විරල වේ - ගැටළුව "අර්ධ වශයෙන් කළු පෙට්ටියක්" සිට "සම්පූර්ණයෙන්ම කළු පෙට්ටියක්" දක්වා ගමන් කරයි. මෙම අවස්ථාවේදී, ඔබට ඵලදායිතාව සැලකිය යුතු ලෙස වැඩි කළ හැකිය, එබැවින්, ඇත්ත වශයෙන්ම, එවැනි සම්මුතියක් යුක්ති සහගත ය. "කොහොමත් බලාපොරොත්තු රහිතව ඝෝෂාකාරී නම් අනුක්‍රමික අවශ්‍ය කාටද?" - මෙය පොදු මතයයි.

කෙසේ වෙතත්, ප්‍රතිපෝෂණ වඩාත් ක්‍රියාකාරී වන අවස්ථා වලදී, ES සඳහා දේවල් වැරදි වීමට පටන් ගනී. OpenAI කණ්ඩායම ES භාවිතයෙන් සරල MNIST වර්ගීකරණ ජාලයක් පුහුණු කළ ආකාරය විස්තර කරන අතර මෙවර පුහුණුව 1000 ගුණයකින් මන්දගාමී විය. කාරණය නම්, රූප වර්ගීකරණයේ අනුක්‍රමණ සංඥාව ජාලයට වඩා හොඳ වර්ගීකරණයක් උගන්වන ආකාරය පිළිබඳව අතිශයින් තොරතුරු සපයයි. මේ අනුව, RL තාක්ෂණය සමඟ ගැටළුව අඩු වන අතර ඝෝෂාකාරී අනුක්‍රමණයන් නිපදවන පරිසරවල විරල විපාක සමඟ වැඩි වේ.

සොබාදහමේ විසඳුම

අපි ස්වභාවධර්මයේ ආදර්ශයෙන් ඉගෙන ගැනීමට උත්සාහ කරනවා නම්, AI සංවර්ධනය කිරීමේ ක්රම ගැන සිතීම, සමහර අවස්ථාවලදී AI ලෙස සැලකිය හැකිය. ගැටළු-නැඹුරු ප්රවේශය. සියල්ලට පසු, ස්වභාවධර්මය ක්‍රියාත්මක වන්නේ පරිගණක විද්‍යාඥයින්ට සරලවම නොමැති සීමාවන් තුළ ය. යම් ගැටලුවක් විසඳීම සඳහා තනිකරම න්‍යායික ප්‍රවේශයක් ආනුභවික විකල්පවලට වඩා ඵලදායී විසඳුම් සැපයිය හැකි බවට මතයක් තිබේ. කෙසේ වෙතත්, යම් යම් සීමාවන් (පෘථිවිය) යටතේ ක්‍රියාත්මක වන ගතික පද්ධතියක් නම්‍යශීලී සහ සංකීර්ණ හැසිරීම් වලට හැකියාව ඇති නියෝජිතයන් (සතුන්, විශේෂයෙන් ක්ෂීරපායින්) උත්පාදනය කර ඇති ආකාරය පරීක්ෂා කිරීම වටී යැයි මම තවමත් සිතමි. මෙම සීමාවන් සමහරක් අනුකරණය කරන ලද දත්ත විද්‍යා ලෝකවල අදාළ නොවන අතර අනෙක් ඒවා ඉතා හොඳයි.

ක්ෂීරපායීන්ගේ බුද්ධිමය හැසිරීම පරීක්ෂා කිරීමෙන් පසු, එය එකිනෙකට සමීපව සම්බන්ධිත ක්‍රියාවලීන් දෙකක සංකීර්ණ අන්‍යෝන්‍ය බලපෑමේ ප්‍රති result ලයක් ලෙස සෑදී ඇති බව අපට පෙනේ: අන් අයගේ අත්දැකීම් වලින් ඉගෙන ගැනීම и කිරීමෙන් ඉගෙනීම. පළමුවැන්න බොහෝ විට ස්වාභාවික වරණය මගින් මෙහෙයවනු ලබන පරිණාමයට සමාන වේ, නමුත් මෙහිදී මම ජානමය වශයෙන් සම්බන්ධ නොවූ ජීවීන් අතර අත්දැකීම් හුවමාරු කර ගැනීමට හැකි වන පරිදි අපිජෙනටික්, ක්ෂුද්‍ර ජීවින් සහ වෙනත් යාන්ත්‍රණ සැලකිල්ලට ගැනීමට පුළුල් යෙදුමක් භාවිතා කරමි. දෙවන ක්‍රියාවලිය, අත්දැකීම් වලින් ඉගෙනීම, සතෙකු තම ජීවිත කාලය පුරාම ඉගෙන ගැනීමට කළමනාකරණය කරන සියලුම තොරතුරු වන අතර, මෙම තොරතුරු කෙලින්ම තීරණය වන්නේ මෙම සත්වයාගේ බාහිර ලෝකය සමඟ අන්තර්ක්‍රියා කිරීමෙනි. මෙම කාණ්ඩයට ඉගෙනීමේ සිට වස්තු හඳුනාගැනීමේ සිට ඉගෙනුම් ක්‍රියාවලියට ආවේනික සන්නිවේදනය ප්‍රගුණ කිරීම දක්වා සියල්ල ඇතුළත් වේ.

දළ වශයෙන් කිවහොත්, ස්වභාවධර්මයේ සිදුවන මෙම ක්‍රියාවලි දෙක ස්නායුක ජාල ප්‍රශස්ත කිරීම සඳහා විකල්ප දෙකක් සමඟ සැසඳිය හැකිය. ජීවියා පිළිබඳ තොරතුරු යාවත්කාලීන කිරීම සඳහා අනුක්‍රමණය පිළිබඳ තොරතුරු භාවිතා කරන පරිණාමීය ක්‍රමෝපායන්, අන් අයගේ අත්දැකීම් වලින් ඉගෙනීමට ආසන්න වේ. ඒ හා සමානව, එක් හෝ තවත් අත්දැකීමක් ලබා ගැනීම නියෝජිතයාගේ හැසිරීමේ එක් හෝ තවත් වෙනසක් සඳහා තුඩු දෙන අනුක්‍රමණ ක්‍රම, තමන්ගේම අත්දැකීමෙන් ඉගෙන ගැනීම හා සැසඳිය හැකිය. මෙම ප්‍රවේශ දෙකෙන් එක් එක් ප්‍රවේශයන් සතුන් තුළ වර්ධනය වන බුද්ධිමත් හැසිරීම් හෝ හැකියාවන් ගැන අප සිතන්නේ නම්, සංසන්දනය වඩාත් කැපී පෙනේ. අවස්ථා දෙකේදීම, “පරිණාමීය ක්‍රම” මගින් කෙනෙකුට යම් යෝග්‍යතාවක් (ජීවත්වීමට ප්‍රමාණවත්) වර්ධනය කිරීමට ඉඩ සලසන ප්‍රතික්‍රියාශීලී හැසිරීම් අධ්‍යයනය ප්‍රවර්ධනය කරයි. ඇවිදීමට හෝ වහල්භාවයෙන් පැන යාමට ඉගෙන ගැනීම බොහෝ අවස්ථාවලදී ජානමය මට්ටමින් බොහෝ සතුන් තුළ "දැඩි රැහැන් සහිත" වඩාත් "සහජ" හැසිරීම් වලට සමාන වේ. මීට අමතරව, විපාක සංඥාව අතිශයින් දුර්ලභ අවස්ථාවන්හිදී පරිණාමීය ක්රම අදාළ වන බව මෙම උදාහරණය තහවුරු කරයි (උදාහරණයක් ලෙස, ළදරුවෙකු සාර්ථකව ඇති දැඩි කිරීමේ කාරනය). එවැනි අවස්ථාවක, මෙම කරුණ සිදුවීමට වසර ගණනාවකට පෙර සිදු කළ හැකි කිසියම් නිශ්චිත ක්‍රියාවක් සමඟ විපාකය සහසම්බන්ධ කළ නොහැක. අනෙක් අතට, අපි ES අසමත් වන අවස්ථාවක් සලකා බැලුවහොත්, එනම් රූප වර්ගීකරණය, වසර 100කට වැඩි කාලයක් පුරා සිදු කරන ලද අසංඛ්‍යාත චර්යාත්මක මනෝවිද්‍යාත්මක අත්හදා බැලීම් වලින් ලබා ගත් සත්ව ඉගෙනීමේ ප්‍රතිඵල හා සැසඳිය හැක.

සතුන්ගෙන් ඉගෙනීම

ශක්තිමත් කිරීමේ ඉගෙනීමේදී භාවිතා කරන ක්‍රම බොහෝ අවස්ථාවලදී මනෝවිද්‍යාත්මක සාහිත්‍යයෙන් සෘජුවම ලබාගෙන ඇත මෙහෙයුම් සමීකරණය, සහ සත්ව මනෝවිද්‍යාව භාවිතයෙන් ක්‍රියාකාරී සමීකරණය අධ්‍යයනය කරන ලදී. මාර්ගය වන විට, ශක්තිමත් කිරීමේ ඉගෙනීමේ ආරම්භකයින් දෙදෙනාගෙන් එක් අයෙකු වන රිචඩ් සට්ටන් මනෝවිද්‍යාව පිළිබඳ උපාධියක් ඇත. ක්‍රියාකාරී සමීකරණයේ සන්දර්භය තුළ, සතුන් විශේෂිත හැසිරීම් රටා සමඟ විපාක හෝ දඬුවම් සම්බන්ධ කිරීමට ඉගෙන ගනී. පුහුණුකරුවන්ට සහ පර්යේෂකයන්ට මෙම ත්‍යාග සංගමය එක් ආකාරයකින් හෝ වෙනත් ආකාරයකින් හැසිරවිය හැකි අතර, බුද්ධිය හෝ ඇතැම් හැසිරීම් ප්‍රදර්ශනය කිරීමට සතුන් පොළඹවයි. කෙසේ වෙතත්, සත්ව පර්යේෂණවල භාවිතා වන පරිදි ක්‍රියාකාරී සමීකරණය, සතුන් ඔවුන්ගේ ජීවිත කාලය පුරාම ඉගෙන ගන්නා පදනම මත එකම සමීකරණයේ වඩාත් ප්‍රකාශිත ආකාරයකට වඩා වැඩි දෙයක් නොවේ. අපට පරිසරයෙන් ධනාත්මක ශක්තිමත් කිරීමේ සංඥා නිරන්තරයෙන් ලැබෙන අතර ඒ අනුව අපගේ හැසිරීම සකස් කර ගනී. ඇත්ත වශයෙන්ම, බොහෝ ස්නායු විද්‍යාඥයින් සහ සංජානන විද්‍යාඥයින් විශ්වාස කරන්නේ මිනිසුන් සහ අනෙකුත් සතුන් ඇත්ත වශයෙන්ම ඊටත් වඩා ඉහළ මට්ටමක ක්‍රියාත්මක වන අතර විභව විපාක මත පදනම්ව අනාගත තත්වයන් තුළ ඔවුන්ගේ හැසිරීමේ ප්‍රතිඵලය පුරෝකථනය කිරීමට අඛණ්ඩව ඉගෙන ගන්නා බවයි.

අත්දැකීම් වලින් ඉගෙනීමේදී පුරෝකථනයේ කේන්ද්‍රීය කාර්යභාරය ඉහත විස්තර කර ඇති ගතිකත්වය සැලකිය යුතු ආකාරයෙන් වෙනස් කරයි. කලින් ඉතා විරල ලෙස සලකනු ලැබූ සංඥාව (එපිසෝඩික් විපාකය) ඉතා ඝන බවට හැරේ. න්‍යායාත්මකව, තත්වය මෙවැන්නකි: ඕනෑම අවස්ථාවක, ක්ෂීරපායීගේ මොළය සංවේදී උත්තේජක සහ ක්‍රියාවන්හි සංකීර්ණ ප්‍රවාහයක් මත පදනම්ව ප්‍රතිඵල ගණනය කරයි, සත්වයා මෙම ප්‍රවාහයේ සරලව ගිලී ඇත. මෙම අවස්ථාවෙහිදී, සත්වයාගේ අවසාන හැසිරීම අනාවැකි ගැලපීම සහ හැසිරීම් වර්ධනය සඳහා මඟ පෙන්වීම සඳහා භාවිතා කළ යුතු ශක්තිමත් සංඥාවක් ලබා දෙයි. අනාගතයේදී අනාවැකි (සහ, ඒ අනුව, ගනු ලබන ක්‍රියාවන්හි ගුණාත්මකභාවය) ප්‍රශස්ත කිරීම සඳහා මොළය මෙම සියලු සංඥා භාවිතා කරයි. මෙම ප්රවේශය පිළිබඳ දළ විශ්ලේෂණයක් විශිෂ්ට පොතෙහි දක්වා ඇත.සර්ෆින් අවිනිශ්චිතතාවය” සංජානන විද්‍යාඥ සහ දාර්ශනික ඇන්ඩි ක්ලාක්. අපි කෘත්‍රිම කාරකයන් පුහුණු කිරීම සඳහා එවැනි තර්කයක් උපුටා දක්වන්නේ නම්, ශක්තිමත් කිරීමේ ඉගෙනීමේ මූලික දෝෂයක් අනාවරණය වේ: මෙම සුසමාදර්ශයේ භාවිතා කරන සංඥාව එය විය හැකි (හෝ විය යුතු) හා සසඳන විට බලාපොරොත්තු රහිත ලෙස දුර්වල ය. සංඥා සන්තෘප්තිය වැඩි කිරීමට නොහැකි අවස්ථාවන්හිදී (සමහර විට එය නෛසර්ගිකව දුර්වල හෝ අඩු මට්ටමේ ප්රතික්රියාශීලීත්වය සමඟ සම්බන්ධ වී ඇති නිසා), එය හොඳින් සමාන්තරගත කරන ලද පුහුණු ක්රමයකට වැඩි කැමැත්තක් දැක්වීම වඩා හොඳය, උදාහරණයක් ලෙස, ES.

ස්නායු ජාල වල පොහොසත් පුහුණුව

අනාවැකි කීමේ නිරතුරුවම කාර්යබහුල වන ක්ෂීරපායී මොළයට ආවේණික වූ ඉහළ ස්නායු ක්‍රියාකාරීත්වයේ මූලධර්ම මත ගොඩනැඟීම, ශක්තිමත් කිරීමේ ඉගෙනීමෙහි මෑත කාලීන දියුණුවක් ලබා ඇති අතර, එය දැන් එවැනි අනාවැකිවල වැදගත්කම සැලකිල්ලට ගනී. මට ඔබට සමාන කෘති දෙකක් වහාම නිර්දේශ කළ හැකිය:

මෙම පත්‍රිකා දෙකෙහිම, කතුවරුන් ඔවුන්ගේ ස්නායු ජාලයේ සාමාන්‍ය පෙරනිමි ප්‍රතිපත්තිය අනාගතයේ පරිසරයේ තත්ත්වය පිළිබඳ අනාවැකි ප්‍රතිඵල සමඟ අතිරේක කරයි. පළමු ලිපියෙහි, විවිධ මිනුම් විචල්‍යයන් සඳහා පුරෝකථනය යෙදෙන අතර, දෙවැන්නෙහි, පුරෝකථනය පරිසරයේ වෙනස්වීම් සහ නියෝජිතයාගේ හැසිරීම් වලට අදාළ වේ. අවස්ථා දෙකේදීම, ධනාත්මක ශක්තිමත් කිරීම හා සම්බන්ධ විරල සංඥාව වඩාත් පොහොසත් සහ වඩාත් තොරතුරු සපයන අතර, වේගවත් ඉගෙනීම සහ වඩාත් සංකීර්ණ හැසිරීම් අත්පත් කර ගැනීම යන දෙකටම ඉඩ සලසයි. එවැනි වැඩිදියුණු කිරීම් ලබා ගත හැක්කේ අනුක්‍රමණ සංඥාවක් භාවිතා කරන ක්‍රම සමඟ මිස ES වැනි "කළු පෙට්ටිය" මූලධර්මය මත ක්‍රියාත්මක වන ක්‍රම සමඟ නොවේ.

මීට අමතරව, අත්දැකීම් සහ අනුක්‍රම ක්‍රම වලින් ඉගෙනීම වඩාත් ඵලදායී වේ. ශක්තිමත් කිරීමේ ඉගෙනීම භාවිතා කරනවාට වඩා වේගයෙන් ES ක්‍රමය භාවිතයෙන් විශේෂිත ගැටළුවක් අධ්‍යයනය කිරීමට හැකි වූ අවස්ථා වලදී පවා, ES උපාය මාර්ගය RL සමඟ වඩා බොහෝ ගුණයකින් වැඩි දත්ත ඇතුළත් කර තිබීම හේතුවෙන් ලාභය ලබා ගත හැකි විය. සතුන් තුළ ඉගෙනීමේ මූලධර්ම පිළිබඳව මෙම අවස්ථාවෙහිදී ආවර්ජනය කරමින්, වෙනත් කෙනෙකුගේ ආදර්ශයෙන් ඉගෙනීමේ ප්‍රති result ලය පරම්පරා ගණනාවකට පසුව ප්‍රකාශ වන බව අපි සටහන් කරමු, සමහර විට තමන් විසින්ම අත්විඳින ලද එක් සිදුවීමක් සත්වයාට සදහටම පාඩම ඉගෙන ගැනීමට ප්‍රමාණවත් වේ. කැමති අතරේ උදාහරණ නොමැතිව පුහුණුව එය සාම්ප්‍රදායික අනුක්‍රම ක්‍රම වලට නොගැලපෙන නමුත්, එය ES වලට වඩා බොහෝ සෙයින් තේරුම් ගත හැකිය. උදාහරණයක් ලෙස, වැනි ප්රවේශයන් ඇත ස්නායු එපිසෝඩික් පාලනය, පුහුණුව අතරතුර Q-අගය ගබඩා කර ඇති අතර, ක්‍රියාමාර්ග ගැනීමට පෙර වැඩසටහන ඒවා පරීක්ෂා කරයි. ප්‍රති result ලය වන්නේ පෙරට වඩා වේගයෙන් ගැටළු විසඳන්නේ කෙසේදැයි ඉගෙන ගැනීමට ඔබට ඉඩ සලසන අනුක්‍රමය ක්‍රමයකි. ස්නායු එපිසෝඩික් පාලනය පිළිබඳ ලිපියක, කතුවරුන් මානව හිපොකැම්පස් ගැන සඳහන් කරයි, එය එක් අත්දැකීමකින් පසුව පවා සිදුවීමක් පිළිබඳ තොරතුරු රඳවා තබා ගැනීමට සමත් වන අතර, එබැවින් නාට්‍ය කරයි. විවේචනාත්මක භූමිකාව මතක තබා ගැනීමේ ක්රියාවලිය තුළ. එවැනි යාන්ත්‍රණයන්ට නියෝජිතයාගේ අභ්‍යන්තර සංවිධානයට ප්‍රවේශය අවශ්‍ය වන අතර එය අර්ථ දැක්වීම අනුව ES සුසමාදර්ශය තුළ කළ නොහැක.

ඉතින්, ඇයි ඒවා ඒකාබද්ධ නොකරන්නේ?

මෙම ලිපියේ බොහෝමයක් මා RL ක්‍රම වෙනුවෙන් පෙනී සිටින බවට හැඟීමක් ඇති වීමට ඉඩ ඇත. කෙසේ වෙතත්, මම ඇත්ත වශයෙන්ම සිතන්නේ දිගු කාලීනව හොඳම විසඳුම වන්නේ ක්‍රම දෙකම ඒකාබද්ධ කිරීමයි, එවිට එක් එක් ඒවා වඩාත් සුදුසු අවස්ථාවන්හිදී භාවිතා වේ. නිසැකවම, බොහෝ ප්‍රතික්‍රියාශීලී ප්‍රතිපත්ති සම්බන්ධයෙන් හෝ ධනාත්මක ශක්තිමත් කිරීමේ ඉතා විරල සංඥා සහිත අවස්ථාවන්හිදී, ES ජයග්‍රහණය කරයි, විශේෂයෙන් ඔබට දැවැන්ත සමාන්තර පුහුණුවක් ක්‍රියාත්මක කළ හැකි පරිගණක බලය ඔබ සතුව තිබේ නම්. අනෙක් අතට, අපට පුළුල් ප්‍රතිපෝෂණ සඳහා ප්‍රවේශය ඇති විට සහ ඉක්මනින් සහ අඩු දත්ත සමඟ ගැටලුවක් විසඳන ආකාරය ඉගෙන ගැනීමට අවශ්‍ය වූ විට ශක්තිමත් කිරීමේ ඉගෙනීම හෝ අධීක්ෂණ ඉගෙනීම භාවිතා කරන අනුක්‍රමණ ක්‍රම ප්‍රයෝජනවත් වනු ඇත.

ස්වභාවධර්මය වෙත හැරෙමින්, පළමු ක්රමය, සාරාංශයක් ලෙස, දෙවැන්න සඳහා පදනම සකසන බව අපට පෙනී යයි. පරිණාමය අතරතුර, ක්ෂීරපායීන් පරිසරයෙන් එන සංකීර්ණ සංඥා වලින් අතිශයින් ඵලදායී ලෙස ඉගෙන ගැනීමට ඉඩ සලසන මොළය වර්ධනය කර ඇත්තේ එබැවිනි. එබැවින්, ප්රශ්නය විවෘතව පවතී. සමහර විට පරිණාමීය උපාය මාර්ග අපට ඵලදායී ඉගෙනුම් ගෘහ නිර්මාණ ශිල්පය සොයා ගැනීමට උපකාර වනු ඇති අතර එය අනුක්‍රමික ඉගෙනුම් ක්‍රම සඳහාද ප්‍රයෝජනවත් වනු ඇත. සියල්ලට පසු, ස්වභාවධර්මය විසින් සොයාගත් විසඳුම ඇත්තෙන්ම ඉතා සාර්ථකයි.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න