ఉపబల అభ్యాసం లేదా పరిణామ వ్యూహాలు? - రెండు

హే హబ్ర్!

రెండు సంవత్సరాల నాటి, కోడ్ లేకుండా మరియు స్పష్టంగా అకడమిక్ స్వభావం ఉన్న టెక్స్ట్‌ల అనువాదాలను ఇక్కడ పోస్ట్ చేయాలని మేము తరచుగా నిర్ణయించుకోము - కానీ ఈ రోజు మేము మినహాయింపు ఇస్తాము. వ్యాసం శీర్షికలో తలెత్తిన గందరగోళం మా పాఠకులలో చాలా మందిని ఆందోళనకు గురిచేస్తుందని మేము ఆశిస్తున్నాము మరియు ఈ పోస్ట్ అసలైనదానిలో వాదించే లేదా ఇప్పుడు చదవగల పరిణామ వ్యూహాలపై ప్రాథమిక పనిని మీరు ఇప్పటికే చదివారు. పిల్లికి స్వాగతం!

ఉపబల అభ్యాసం లేదా పరిణామ వ్యూహాలు? - రెండు

మార్చి 2017లో, OpenAI పేపర్ "డీప్ లెర్నింగ్ కమ్యూనిటీలో తరంగాలను సృష్టించింది.ఉపబల అభ్యాసానికి స్కేలబుల్ ప్రత్యామ్నాయంగా ఎవల్యూషన్ స్ట్రాటజీస్" ఈ పని ఉపబల అభ్యాసం (RL) ఒక చీలికగా మారలేదు మరియు సంక్లిష్టమైన నాడీ నెట్‌వర్క్‌లకు శిక్షణ ఇస్తున్నప్పుడు, ఇతర పద్ధతులను ప్రయత్నించడం మంచిది అనే వాస్తవం అనుకూలంగా ఆకట్టుకునే ఫలితాలను వివరించింది. ఉపబల అభ్యాసం యొక్క ప్రాముఖ్యత మరియు సమస్య పరిష్కారాన్ని బోధించడానికి "తప్పక-కలిగి ఉండవలసిన" ​​సాంకేతికతగా దాని స్థితికి ఎంత యోగ్యమైనది అనే దాని గురించి చర్చ జరిగింది. ఇక్కడ నేను ఈ రెండు సాంకేతికతలను పోటీగా పరిగణించరాదని చెప్పాలనుకుంటున్నాను, వాటిలో ఒకటి స్పష్టంగా మరొకదాని కంటే మెరుగైనది; దీనికి విరుద్ధంగా, అవి చివరికి ఒకదానికొకటి సంపూర్ణంగా ఉంటాయి. నిజానికి, మీరు సృష్టించడానికి ఏమి అవసరమో కొంచెం ఆలోచిస్తే సాధారణ AI మరియు అటువంటి వ్యవస్థలు, వారి ఉనికి అంతటా నేర్చుకోవడం, తీర్పు మరియు ప్రణాళిక చేయగల సామర్థ్యాన్ని కలిగి ఉంటాయి, అప్పుడు మేము దాదాపుగా ఈ లేదా ఆ మిశ్రమ పరిష్కారం అవసరమని నిర్ధారణకు వస్తాము. మార్గం ద్వారా, ప్రకృతికి వచ్చిన ఈ మిశ్రమ పరిష్కారం ఖచ్చితంగా ఉంది, ఇది పరిణామ సమయంలో సంక్లిష్ట మేధస్సుతో క్షీరదాలు మరియు ఇతర ఉన్నత జంతువులను ఇచ్చింది.

పరిణామ వ్యూహాలు

OpenAI పేపర్ యొక్క ప్రధాన థీసిస్ ఏమిటంటే, సాంప్రదాయ బ్యాక్‌ప్రొపగేషన్‌తో కలిపి ఉపబల అభ్యాసాన్ని ఉపయోగించకుండా, వారు "పరిణామ వ్యూహం" (ES) అని పిలిచే సంక్లిష్ట సమస్యలను పరిష్కరించడానికి ఒక న్యూరల్ నెట్‌వర్క్‌కు విజయవంతంగా శిక్షణ ఇచ్చారు. ఈ ES విధానం నెట్‌వర్క్-వ్యాప్త బరువుల పంపిణీని నిర్వహించడం, సమాంతరంగా పనిచేసే బహుళ ఏజెంట్‌లను కలిగి ఉండటం మరియు ఈ పంపిణీ నుండి ఎంచుకున్న పారామితులను ఉపయోగించడం. ప్రతి ఏజెంట్ దాని స్వంత వాతావరణంలో పనిచేస్తుంది మరియు ఎపిసోడ్ యొక్క నిర్దిష్ట సంఖ్యలో ఎపిసోడ్‌లు లేదా దశలను పూర్తి చేసిన తర్వాత, అల్గోరిథం ఫిట్‌నెస్ స్కోర్‌గా వ్యక్తీకరించబడిన సంచిత రివార్డ్‌ను అందిస్తుంది. ఈ విలువను పరిగణనలోకి తీసుకుంటే, పారామితుల పంపిణీని మరింత విజయవంతమైన ఏజెంట్ల వైపుకు మార్చవచ్చు, తక్కువ విజయవంతమైన వాటిని కోల్పోతుంది. వందలాది ఏజెంట్ల భాగస్వామ్యంతో ఇటువంటి ఆపరేషన్ మిలియన్ల సార్లు పునరావృతం చేయడం ద్వారా, వారికి కేటాయించిన పనిని పరిష్కరించడానికి ఏజెంట్లు అధిక-నాణ్యత విధానాన్ని రూపొందించడానికి అనుమతించే స్థలానికి బరువుల పంపిణీని తరలించడం సాధ్యమవుతుంది. వాస్తవానికి, వ్యాసంలో అందించిన ఫలితాలు ఆకట్టుకున్నాయి: మీరు వెయ్యి ఏజెంట్లను సమాంతరంగా నడుపుతుంటే, రెండు కాళ్లపై మానవరూప లోకోమోషన్ అరగంట కంటే తక్కువ వ్యవధిలో నేర్చుకోవచ్చని చూపబడింది (అత్యంత అధునాతన RL పద్ధతులకు కూడా ఎక్కువ ఖర్చు అవసరం. దీనిపై ఒక గంట కంటే ఎక్కువ). మరింత వివరణాత్మక సమాచారం కోసం, నేను అద్భుతమైన చదవమని సిఫార్సు చేస్తున్నాను పోస్ట్ ప్రయోగం యొక్క రచయితల నుండి, అలాగే శాస్త్రీయ వ్యాసం.

ఉపబల అభ్యాసం లేదా పరిణామ వ్యూహాలు? - రెండు

ఆంత్రోపోమోర్ఫిక్ నిటారుగా నడవడం బోధించడానికి వివిధ వ్యూహాలు, OpenAI నుండి ES పద్ధతిని ఉపయోగించి అధ్యయనం చేయబడ్డాయి.

నల్ల పెట్టి

ఈ పద్ధతి యొక్క గొప్ప ప్రయోజనం ఏమిటంటే ఇది సులభంగా సమాంతరంగా ఉంటుంది. A3C వంటి RL పద్ధతులకు వర్కర్ థ్రెడ్‌లు మరియు పారామీటర్ సర్వర్ మధ్య సమాచారం మార్పిడి అవసరం అయితే, ESకి ఫిట్‌నెస్ అంచనాలు మరియు సాధారణీకరించిన పారామీటర్ పంపిణీ సమాచారం మాత్రమే అవసరం. ఈ సరళత కారణంగా స్కేలింగ్ సామర్థ్యాల పరంగా ఈ పద్ధతి ఆధునిక RL పద్ధతుల కంటే చాలా ముందుంది. అయితే, ఇవన్నీ ఫలించవు: బ్లాక్ బాక్స్ సూత్రం ప్రకారం మీరు నెట్‌వర్క్‌ను ఆప్టిమైజ్ చేయాలి. ఈ సందర్భంలో, “బ్లాక్ బాక్స్” అంటే శిక్షణ సమయంలో నెట్‌వర్క్ యొక్క అంతర్గత నిర్మాణం పూర్తిగా విస్మరించబడుతుంది మరియు మొత్తం ఫలితం (ఎపిసోడ్‌కు రివార్డ్) మాత్రమే ఉపయోగించబడుతుంది మరియు నిర్దిష్ట నెట్‌వర్క్ యొక్క బరువులు ఎలా ఉంటాయో దానిపై ఆధారపడి ఉంటుంది. తరువాతి తరాలకు వారసత్వంగా వస్తుంది. మేము పర్యావరణం నుండి ఎక్కువ అభిప్రాయాన్ని పొందని పరిస్థితుల్లో-మరియు అనేక సాంప్రదాయ RL సమస్యలలో బహుమతుల ప్రవాహం చాలా తక్కువగా ఉంటుంది-సమస్య "పాక్షికంగా బ్లాక్ బాక్స్" నుండి "పూర్తిగా బ్లాక్ బాక్స్"కి వెళుతుంది. ఈ సందర్భంలో, మీరు ఉత్పాదకతను గణనీయంగా పెంచుకోవచ్చు, కాబట్టి, వాస్తవానికి, అటువంటి రాజీ సమర్థించబడుతోంది. "ఏమైనప్పటికీ నిస్సహాయంగా శబ్దం ఉంటే ప్రవణతలు ఎవరికి అవసరం?" - ఇది సాధారణ అభిప్రాయం.

అయితే, ఫీడ్‌బ్యాక్ మరింత యాక్టివ్‌గా ఉన్న పరిస్థితుల్లో, ES కోసం విషయాలు తప్పుగా మారడం ప్రారంభమవుతుంది. OpenAI బృందం ES ఉపయోగించి ఒక సాధారణ MNIST వర్గీకరణ నెట్‌వర్క్ ఎలా శిక్షణ పొందిందో వివరిస్తుంది మరియు ఈసారి శిక్షణ 1000 రెట్లు నెమ్మదిగా ఉంది. వాస్తవం ఏమిటంటే, ఇమేజ్ వర్గీకరణలోని గ్రేడియంట్ సిగ్నల్ నెట్‌వర్క్‌కు మెరుగైన వర్గీకరణను ఎలా నేర్పించాలనే దాని గురించి చాలా సమాచారం ఇస్తుంది. అందువల్ల, RL టెక్నిక్‌తో సమస్య తక్కువగా ఉంటుంది మరియు ధ్వనించే ప్రవణతలను ఉత్పత్తి చేసే పరిసరాలలో తక్కువ రివార్డ్‌లతో ఎక్కువగా ఉంటుంది.

ప్రకృతి యొక్క పరిష్కారం

AIని అభివృద్ధి చేసే మార్గాల గురించి ఆలోచిస్తూ, ప్రకృతి ఉదాహరణ నుండి నేర్చుకోవడానికి ప్రయత్నిస్తే, కొన్ని సందర్భాల్లో AIని ఇలా భావించవచ్చు. సమస్య-ఆధారిత విధానం. అన్నింటికంటే, కంప్యూటర్ శాస్త్రవేత్తలకు లేని పరిమితులలో ప్రకృతి పనిచేస్తుంది. ఒక నిర్దిష్ట సమస్యను పరిష్కరించడానికి పూర్తిగా సైద్ధాంతిక విధానం అనుభావిక ప్రత్యామ్నాయాల కంటే మరింత ప్రభావవంతమైన పరిష్కారాలను అందించగలదని ఒక అభిప్రాయం ఉంది. అయినప్పటికీ, కొన్ని పరిమితుల (భూమి) క్రింద పనిచేసే ఒక డైనమిక్ సిస్టమ్ అనువైన మరియు సంక్లిష్టమైన ప్రవర్తన గల ఏజెంట్‌లను (జంతువులు, ముఖ్యంగా క్షీరదాలు) ఎలా ఉత్పత్తి చేసిందో పరీక్షించడం విలువైనదని నేను ఇప్పటికీ భావిస్తున్నాను. ఈ పరిమితుల్లో కొన్ని అనుకరణ డేటా సైన్స్ ప్రపంచాల్లో వర్తించవు, మరికొన్ని బాగానే ఉన్నాయి.

క్షీరదాల యొక్క మేధో ప్రవర్తనను పరిశీలించిన తరువాత, రెండు దగ్గరి పరస్పర సంబంధం ఉన్న ప్రక్రియల సంక్లిష్ట పరస్పర ప్రభావం ఫలితంగా ఇది ఏర్పడిందని మేము చూస్తాము: ఇతరుల అనుభవాల నుండి నేర్చుకోవడం и ఆచరిస్తూ నేర్చుకోవడం. మునుపటిది తరచుగా సహజ ఎంపిక ద్వారా నడిచే పరిణామంతో సమానంగా ఉంటుంది, కానీ ఇక్కడ నేను ఎపిజెనెటిక్స్, మైక్రోబయోమ్‌లు మరియు జన్యుపరంగా సంబంధం లేని జీవుల మధ్య అనుభవాలను పంచుకోవడానికి వీలు కల్పించే ఇతర యంత్రాంగాలను పరిగణనలోకి తీసుకోవడానికి విస్తృత పదాన్ని ఉపయోగిస్తాను. రెండవ ప్రక్రియ, అనుభవం నుండి నేర్చుకోవడం, జంతువు తన జీవితాంతం నేర్చుకునే మొత్తం సమాచారం, మరియు ఈ సమాచారం బయటి ప్రపంచంతో ఈ జంతువు యొక్క పరస్పర చర్య ద్వారా నేరుగా నిర్ణయించబడుతుంది. ఈ వర్గంలో వస్తువులను గుర్తించడం నేర్చుకోవడం నుండి అభ్యాస ప్రక్రియలో అంతర్లీనంగా ఉన్న కమ్యూనికేషన్‌లో నైపుణ్యం సాధించడం వరకు ప్రతిదీ ఉంటుంది.

స్థూలంగా చెప్పాలంటే, ప్రకృతిలో సంభవించే ఈ రెండు ప్రక్రియలను న్యూరల్ నెట్‌వర్క్‌లను ఆప్టిమైజ్ చేయడానికి రెండు ఎంపికలతో పోల్చవచ్చు. జీవి గురించిన సమాచారాన్ని నవీకరించడానికి ప్రవణతల గురించిన సమాచారం ఉపయోగించబడే పరిణామాత్మక వ్యూహాలు, ఇతరుల అనుభవం నుండి నేర్చుకునేందుకు దగ్గరగా ఉంటాయి. అదేవిధంగా, గ్రేడియంట్ పద్ధతులు, ఒకటి లేదా మరొక అనుభవాన్ని పొందడం ఏజెంట్ యొక్క ప్రవర్తనలో ఒకటి లేదా మరొక మార్పుకు దారి తీస్తుంది, ఒకరి స్వంత అనుభవం నుండి నేర్చుకోవడంతో పోల్చవచ్చు. ఈ రెండు విధానాలలో ప్రతి ఒక్కటి జంతువులలో అభివృద్ధి చెందే తెలివైన ప్రవర్తన లేదా సామర్థ్యాల గురించి ఆలోచిస్తే, పోలిక మరింత స్పష్టంగా కనిపిస్తుంది. రెండు సందర్భాల్లో, "పరిణామ పద్ధతులు" రియాక్టివ్ ప్రవర్తనల అధ్యయనాన్ని ప్రోత్సహిస్తాయి, ఇది ఒక నిర్దిష్ట ఫిట్‌నెస్‌ను అభివృద్ధి చేయడానికి అనుమతిస్తుంది (సజీవంగా ఉండటానికి సరిపోతుంది). నడవడం లేదా బందిఖానా నుండి తప్పించుకోవడం నేర్చుకోవడం అనేది చాలా సందర్భాలలో జన్యు స్థాయిలో అనేక జంతువులలో "కఠినమైన" ప్రవర్తనలతో సమానం. అదనంగా, రివార్డ్ సిగ్నల్ చాలా అరుదుగా ఉన్న సందర్భాలలో (ఉదాహరణకు, శిశువును విజయవంతంగా పెంచే వాస్తవం) పరిణామ పద్ధతులు వర్తిస్తాయని ఈ ఉదాహరణ నిర్ధారిస్తుంది. అటువంటి సందర్భంలో, ఈ వాస్తవం సంభవించడానికి చాలా సంవత్సరాల ముందు చేసిన ఏదైనా నిర్దిష్ట చర్యలతో రివార్డ్‌ను పరస్పరం అనుసంధానించడం అసాధ్యం. మరోవైపు, మేము ES విఫలమయ్యే సందర్భాన్ని పరిశీలిస్తే, అవి ఇమేజ్ వర్గీకరణ, ఫలితాలు 100-ప్లస్ సంవత్సరాలలో నిర్వహించిన లెక్కలేనన్ని ప్రవర్తనా మానసిక ప్రయోగాలలో సాధించిన జంతు అభ్యాస ఫలితాలతో పోల్చదగినవి.

జంతువుల నుండి నేర్చుకోవడం

ఉపబల అభ్యాసంలో ఉపయోగించే పద్ధతులు చాలా సందర్భాలలో మానసిక సాహిత్యం నుండి నేరుగా తీసుకోబడ్డాయి ఆపరేటింగ్ కండిషనింగ్, మరియు జంతు మనస్తత్వ శాస్త్రాన్ని ఉపయోగించి ఆపరేటింగ్ కండిషనింగ్ అధ్యయనం చేయబడింది. మార్గం ద్వారా, ఉపబల అభ్యాసం యొక్క ఇద్దరు వ్యవస్థాపకులలో ఒకరైన రిచర్డ్ సుట్టన్ మనస్తత్వశాస్త్రంలో బ్యాచిలర్ డిగ్రీని కలిగి ఉన్నారు. ఆపరేటింగ్ కండిషనింగ్ సందర్భంలో, జంతువులు నిర్దిష్ట ప్రవర్తనా విధానాలతో బహుమతి లేదా శిక్షను అనుబంధించడం నేర్చుకుంటాయి. శిక్షకులు మరియు పరిశోధకులు ఈ రివార్డ్ అసోసియేషన్‌ను ఒక విధంగా లేదా మరొక విధంగా మార్చవచ్చు, తెలివితేటలు లేదా కొన్ని ప్రవర్తనలను ప్రదర్శించడానికి జంతువులను రెచ్చగొట్టవచ్చు. అయినప్పటికీ, జంతు పరిశోధనలో ఉపయోగించినట్లుగా, ఆపరేటింగ్ కండిషనింగ్, జంతువులు తమ జీవితమంతా నేర్చుకునే ప్రాతిపదికన అదే కండిషనింగ్ యొక్క మరింత స్పష్టమైన రూపం తప్ప మరేమీ కాదు. మేము పర్యావరణం నుండి సానుకూల ఉపబల సంకేతాలను నిరంతరం స్వీకరిస్తాము మరియు తదనుగుణంగా మా ప్రవర్తనను సర్దుబాటు చేస్తాము. వాస్తవానికి, చాలా మంది న్యూరో సైంటిస్టులు మరియు అభిజ్ఞా శాస్త్రవేత్తలు మానవులు మరియు ఇతర జంతువులు వాస్తవానికి మరింత ఉన్నత స్థాయిలో పనిచేస్తాయని నమ్ముతారు మరియు సంభావ్య బహుమతుల ఆధారంగా భవిష్యత్ పరిస్థితులలో వారి ప్రవర్తన యొక్క ఫలితాలను అంచనా వేయడం నిరంతరం నేర్చుకుంటారు.

అనుభవం నుండి నేర్చుకోవడంలో ప్రిడిక్షన్ యొక్క ప్రధాన పాత్ర పైన వివరించిన డైనమిక్స్‌ను ముఖ్యమైన మార్గాల్లో మారుస్తుంది. గతంలో చాలా తక్కువగా (ఎపిసోడిక్ రివార్డ్) పరిగణించబడిన సిగ్నల్ చాలా దట్టమైనదిగా మారుతుంది. సిద్ధాంతపరంగా, పరిస్థితి ఇలా ఉంటుంది: ఏ సమయంలోనైనా, క్షీరదం యొక్క మెదడు ఇంద్రియ ఉద్దీపనలు మరియు చర్యల యొక్క సంక్లిష్ట ప్రవాహం ఆధారంగా ఫలితాలను గణిస్తుంది, అయితే జంతువు ఈ ప్రవాహంలో మునిగిపోతుంది. ఈ సందర్భంలో, జంతువు యొక్క తుది ప్రవర్తన సూచనల సర్దుబాటు మరియు ప్రవర్తన యొక్క అభివృద్ధికి మార్గనిర్దేశం చేయడానికి తప్పనిసరిగా ఉపయోగించాల్సిన బలమైన సంకేతాన్ని ఇస్తుంది. భవిష్యత్తులో అంచనాలను (మరియు, తదనుగుణంగా, తీసుకున్న చర్యల నాణ్యత) ఆప్టిమైజ్ చేయడానికి మెదడు ఈ సంకేతాలన్నింటినీ ఉపయోగిస్తుంది. ఈ విధానం యొక్క అవలోకనం అద్భుతమైన పుస్తకంలో ఇవ్వబడింది "సర్ఫింగ్ అనిశ్చితి” అభిజ్ఞా శాస్త్రవేత్త మరియు తత్వవేత్త ఆండీ క్లార్క్. మేము కృత్రిమ ఏజెంట్ల శిక్షణకు అటువంటి తార్కికతను వివరించినట్లయితే, ఉపబల అభ్యాసంలో ఒక ప్రాథమిక లోపం వెల్లడైంది: ఈ నమూనాలో ఉపయోగించిన సిగ్నల్ అది ఏది కావచ్చు (లేదా ఉండాలి) దానితో పోలిస్తే నిరాశాజనకంగా బలహీనంగా ఉంది. సిగ్నల్ సంతృప్తతను పెంచడం అసాధ్యమైన సందర్భాలలో (బహుశా అది అంతర్లీనంగా బలహీనంగా లేదా తక్కువ-స్థాయి రియాక్టివిటీతో అనుబంధించబడినందున), బాగా సమాంతరంగా ఉండే శిక్షణా పద్ధతిని ఇష్టపడటం మంచిది, ఉదాహరణకు, ES.

న్యూరల్ నెట్‌వర్క్‌ల యొక్క గొప్ప శిక్షణ

క్షీరదాల మెదడులో అంతర్లీనంగా ఉన్న అధిక నాడీ కార్యకలాపాల సూత్రాలపై ఆధారపడి ఉంటుంది, ఇది నిరంతరం అంచనాలు వేయడంలో బిజీగా ఉంది, రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌లో ఇటీవలి పురోగతులు జరిగాయి, ఇది ఇప్పుడు అటువంటి అంచనాల ప్రాముఖ్యతను పరిగణనలోకి తీసుకుంటుంది. నేను మీకు రెండు సారూప్య రచనలను వెంటనే సిఫార్సు చేయగలను:

ఈ రెండు పేపర్లలో, రచయితలు తమ నాడీ నెట్‌వర్క్‌ల యొక్క సాధారణ డిఫాల్ట్ విధానాన్ని భవిష్యత్తులో పర్యావరణ స్థితి గురించి అంచనా ఫలితాలతో భర్తీ చేస్తారు. మొదటి ఆర్టికల్‌లో, వివిధ రకాల కొలత వేరియబుల్స్‌కు ఫోర్‌కాస్టింగ్ వర్తించబడుతుంది మరియు రెండవది, వాతావరణంలో మార్పులు మరియు ఏజెంట్ యొక్క ప్రవర్తనపై అంచనా వేయబడుతుంది. రెండు సందర్భాల్లో, సానుకూల ఉపబలంతో అనుబంధించబడిన స్పేర్స్ సిగ్నల్ చాలా ధనికమైనది మరియు మరింత సమాచారంగా మారుతుంది, ఇది వేగంగా నేర్చుకోవడం మరియు మరింత సంక్లిష్టమైన ప్రవర్తనలను పొందడం రెండింటినీ అనుమతిస్తుంది. ఇటువంటి మెరుగుదలలు గ్రేడియంట్ సిగ్నల్‌ని ఉపయోగించే పద్ధతులతో మాత్రమే అందుబాటులో ఉంటాయి మరియు ES వంటి "బ్లాక్ బాక్స్" సూత్రంపై పనిచేసే పద్ధతులతో కాదు.

అదనంగా, అనుభవం మరియు గ్రేడియంట్ పద్ధతుల నుండి నేర్చుకోవడం మరింత ప్రభావవంతంగా ఉంటుంది. ఉపబల అభ్యాసాన్ని ఉపయోగించడం కంటే ES పద్ధతిని ఉపయోగించి నిర్దిష్ట సమస్యను వేగంగా అధ్యయనం చేయడం సాధ్యమైన సందర్భాల్లో కూడా, ES వ్యూహం RL కంటే చాలా రెట్లు ఎక్కువ డేటాను కలిగి ఉన్నందున లాభం సాధించబడింది. జంతువులలో నేర్చుకునే సూత్రాలపై ఈ సందర్భంలో ప్రతిబింబిస్తూ, వేరొకరి ఉదాహరణ నుండి నేర్చుకునే ఫలితం చాలా తరాల తర్వాత వ్యక్తమవుతుందని మేము గమనించాము, కొన్నిసార్లు జంతువు ఎప్పటికీ పాఠం నేర్చుకోవడానికి స్వయంగా అనుభవించిన ఒక సంఘటన సరిపోతుంది. ఇష్టం ఉండగానే ఉదాహరణలు లేకుండా శిక్షణ ఇది సాంప్రదాయ గ్రేడియంట్ పద్ధతులకు సరిపోనప్పటికీ, ఇది ES కంటే చాలా తెలివిగా ఉంటుంది. ఉదాహరణకు, వంటి విధానాలు ఉన్నాయి నాడీ ఎపిసోడిక్ నియంత్రణ, Q- విలువలు శిక్షణ సమయంలో నిల్వ చేయబడతాయి, ఆ తర్వాత ప్రోగ్రామ్ చర్యలు తీసుకునే ముందు వాటిని తనిఖీ చేస్తుంది. ఫలితం గ్రేడియంట్ పద్ధతి, ఇది మునుపటి కంటే చాలా వేగంగా సమస్యలను ఎలా పరిష్కరించాలో తెలుసుకోవడానికి మిమ్మల్ని అనుమతిస్తుంది. న్యూరల్ ఎపిసోడిక్ కంట్రోల్‌పై ఒక కథనంలో, రచయితలు హ్యూమన్ హిప్పోకాంపస్ గురించి ప్రస్తావించారు, ఇది ఒకే అనుభవం తర్వాత కూడా ఒక సంఘటన గురించి సమాచారాన్ని నిలుపుకునే సామర్థ్యాన్ని కలిగి ఉంటుంది మరియు అందువలన, ప్లే చేస్తుంది కీలక పాత్ర గుర్తుంచుకోవడం ప్రక్రియలో. ఇటువంటి మెకానిజమ్‌లకు ఏజెంట్ యొక్క అంతర్గత సంస్థకు ప్రాప్యత అవసరం, ఇది నిర్వచనం ప్రకారం, ES నమూనాలో అసాధ్యం.

కాబట్టి, వాటిని ఎందుకు కలపకూడదు?

ఈ కథనంలో ఎక్కువ భాగం నేను RL పద్ధతులను సమర్థిస్తున్నాననే అభిప్రాయాన్ని కలిగించే అవకాశం ఉంది. అయినప్పటికీ, దీర్ఘకాలంలో రెండు పద్ధతులను కలపడం ఉత్తమ పరిష్కారం అని నేను నిజంగా అనుకుంటున్నాను, తద్వారా ప్రతి ఒక్కటి ఉత్తమంగా సరిపోయే పరిస్థితులలో ఉపయోగించబడుతుంది. సహజంగానే, అనేక రియాక్టివ్ విధానాల విషయంలో లేదా సానుకూల ఉపబలానికి సంబంధించిన చాలా తక్కువ సంకేతాలు ఉన్న పరిస్థితుల్లో, ES గెలుస్తుంది, ప్రత్యేకించి మీరు మీ వద్ద కంప్యూటింగ్ శక్తిని కలిగి ఉంటే, మీరు భారీ సమాంతర శిక్షణను అమలు చేయవచ్చు. మరోవైపు, మేము విస్తృతమైన అభిప్రాయానికి ప్రాప్యత కలిగి ఉన్నప్పుడు మరియు సమస్యను త్వరగా మరియు తక్కువ డేటాతో ఎలా పరిష్కరించాలో నేర్చుకోవాల్సిన అవసరం ఉన్నప్పుడు ఉపబల అభ్యాసం లేదా పర్యవేక్షించబడిన అభ్యాసాన్ని ఉపయోగించే గ్రేడియంట్ పద్ధతులు ఉపయోగకరంగా ఉంటాయి.

ప్రకృతి వైపు తిరగడం, మొదటి పద్ధతి, సారాంశంలో, రెండవదానికి పునాది వేస్తుందని మేము కనుగొన్నాము. అందుకే, పరిణామ క్రమంలో, క్షీరదాలు పర్యావరణం నుండి వచ్చే సంక్లిష్ట సంకేతాల నుండి చాలా ప్రభావవంతంగా నేర్చుకునేలా మెదడులను అభివృద్ధి చేశాయి. కాబట్టి, ప్రశ్న తెరిచి ఉంది. గ్రేడియంట్ లెర్నింగ్ పద్ధతులకు కూడా ఉపయోగపడే ప్రభావవంతమైన లెర్నింగ్ ఆర్కిటెక్చర్‌లను కనిపెట్టడంలో బహుశా పరిణామ వ్యూహాలు మాకు సహాయపడతాయి. అన్నింటికంటే, ప్రకృతి ద్వారా కనుగొనబడిన పరిష్కారం నిజంగా చాలా విజయవంతమైంది.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి