హే హబ్ర్!
రెండు సంవత్సరాల నాటి, కోడ్ లేకుండా మరియు స్పష్టంగా అకడమిక్ స్వభావం ఉన్న టెక్స్ట్ల అనువాదాలను ఇక్కడ పోస్ట్ చేయాలని మేము తరచుగా నిర్ణయించుకోము - కానీ ఈ రోజు మేము మినహాయింపు ఇస్తాము. వ్యాసం శీర్షికలో తలెత్తిన గందరగోళం మా పాఠకులలో చాలా మందిని ఆందోళనకు గురిచేస్తుందని మేము ఆశిస్తున్నాము మరియు ఈ పోస్ట్ అసలైనదానిలో వాదించే లేదా ఇప్పుడు చదవగల పరిణామ వ్యూహాలపై ప్రాథమిక పనిని మీరు ఇప్పటికే చదివారు. పిల్లికి స్వాగతం!
మార్చి 2017లో, OpenAI పేపర్ "డీప్ లెర్నింగ్ కమ్యూనిటీలో తరంగాలను సృష్టించింది.
పరిణామ వ్యూహాలు
OpenAI పేపర్ యొక్క ప్రధాన థీసిస్ ఏమిటంటే, సాంప్రదాయ బ్యాక్ప్రొపగేషన్తో కలిపి ఉపబల అభ్యాసాన్ని ఉపయోగించకుండా, వారు "పరిణామ వ్యూహం" (ES) అని పిలిచే సంక్లిష్ట సమస్యలను పరిష్కరించడానికి ఒక న్యూరల్ నెట్వర్క్కు విజయవంతంగా శిక్షణ ఇచ్చారు. ఈ ES విధానం నెట్వర్క్-వ్యాప్త బరువుల పంపిణీని నిర్వహించడం, సమాంతరంగా పనిచేసే బహుళ ఏజెంట్లను కలిగి ఉండటం మరియు ఈ పంపిణీ నుండి ఎంచుకున్న పారామితులను ఉపయోగించడం. ప్రతి ఏజెంట్ దాని స్వంత వాతావరణంలో పనిచేస్తుంది మరియు ఎపిసోడ్ యొక్క నిర్దిష్ట సంఖ్యలో ఎపిసోడ్లు లేదా దశలను పూర్తి చేసిన తర్వాత, అల్గోరిథం ఫిట్నెస్ స్కోర్గా వ్యక్తీకరించబడిన సంచిత రివార్డ్ను అందిస్తుంది. ఈ విలువను పరిగణనలోకి తీసుకుంటే, పారామితుల పంపిణీని మరింత విజయవంతమైన ఏజెంట్ల వైపుకు మార్చవచ్చు, తక్కువ విజయవంతమైన వాటిని కోల్పోతుంది. వందలాది ఏజెంట్ల భాగస్వామ్యంతో ఇటువంటి ఆపరేషన్ మిలియన్ల సార్లు పునరావృతం చేయడం ద్వారా, వారికి కేటాయించిన పనిని పరిష్కరించడానికి ఏజెంట్లు అధిక-నాణ్యత విధానాన్ని రూపొందించడానికి అనుమతించే స్థలానికి బరువుల పంపిణీని తరలించడం సాధ్యమవుతుంది. వాస్తవానికి, వ్యాసంలో అందించిన ఫలితాలు ఆకట్టుకున్నాయి: మీరు వెయ్యి ఏజెంట్లను సమాంతరంగా నడుపుతుంటే, రెండు కాళ్లపై మానవరూప లోకోమోషన్ అరగంట కంటే తక్కువ వ్యవధిలో నేర్చుకోవచ్చని చూపబడింది (అత్యంత అధునాతన RL పద్ధతులకు కూడా ఎక్కువ ఖర్చు అవసరం. దీనిపై ఒక గంట కంటే ఎక్కువ). మరింత వివరణాత్మక సమాచారం కోసం, నేను అద్భుతమైన చదవమని సిఫార్సు చేస్తున్నాను
ఆంత్రోపోమోర్ఫిక్ నిటారుగా నడవడం బోధించడానికి వివిధ వ్యూహాలు, OpenAI నుండి ES పద్ధతిని ఉపయోగించి అధ్యయనం చేయబడ్డాయి.
నల్ల పెట్టి
ఈ పద్ధతి యొక్క గొప్ప ప్రయోజనం ఏమిటంటే ఇది సులభంగా సమాంతరంగా ఉంటుంది. A3C వంటి RL పద్ధతులకు వర్కర్ థ్రెడ్లు మరియు పారామీటర్ సర్వర్ మధ్య సమాచారం మార్పిడి అవసరం అయితే, ESకి ఫిట్నెస్ అంచనాలు మరియు సాధారణీకరించిన పారామీటర్ పంపిణీ సమాచారం మాత్రమే అవసరం. ఈ సరళత కారణంగా స్కేలింగ్ సామర్థ్యాల పరంగా ఈ పద్ధతి ఆధునిక RL పద్ధతుల కంటే చాలా ముందుంది. అయితే, ఇవన్నీ ఫలించవు: బ్లాక్ బాక్స్ సూత్రం ప్రకారం మీరు నెట్వర్క్ను ఆప్టిమైజ్ చేయాలి. ఈ సందర్భంలో, “బ్లాక్ బాక్స్” అంటే శిక్షణ సమయంలో నెట్వర్క్ యొక్క అంతర్గత నిర్మాణం పూర్తిగా విస్మరించబడుతుంది మరియు మొత్తం ఫలితం (ఎపిసోడ్కు రివార్డ్) మాత్రమే ఉపయోగించబడుతుంది మరియు నిర్దిష్ట నెట్వర్క్ యొక్క బరువులు ఎలా ఉంటాయో దానిపై ఆధారపడి ఉంటుంది. తరువాతి తరాలకు వారసత్వంగా వస్తుంది. మేము పర్యావరణం నుండి ఎక్కువ అభిప్రాయాన్ని పొందని పరిస్థితుల్లో-మరియు అనేక సాంప్రదాయ RL సమస్యలలో బహుమతుల ప్రవాహం చాలా తక్కువగా ఉంటుంది-సమస్య "పాక్షికంగా బ్లాక్ బాక్స్" నుండి "పూర్తిగా బ్లాక్ బాక్స్"కి వెళుతుంది. ఈ సందర్భంలో, మీరు ఉత్పాదకతను గణనీయంగా పెంచుకోవచ్చు, కాబట్టి, వాస్తవానికి, అటువంటి రాజీ సమర్థించబడుతోంది. "ఏమైనప్పటికీ నిస్సహాయంగా శబ్దం ఉంటే ప్రవణతలు ఎవరికి అవసరం?" - ఇది సాధారణ అభిప్రాయం.
అయితే, ఫీడ్బ్యాక్ మరింత యాక్టివ్గా ఉన్న పరిస్థితుల్లో, ES కోసం విషయాలు తప్పుగా మారడం ప్రారంభమవుతుంది. OpenAI బృందం ES ఉపయోగించి ఒక సాధారణ MNIST వర్గీకరణ నెట్వర్క్ ఎలా శిక్షణ పొందిందో వివరిస్తుంది మరియు ఈసారి శిక్షణ 1000 రెట్లు నెమ్మదిగా ఉంది. వాస్తవం ఏమిటంటే, ఇమేజ్ వర్గీకరణలోని గ్రేడియంట్ సిగ్నల్ నెట్వర్క్కు మెరుగైన వర్గీకరణను ఎలా నేర్పించాలనే దాని గురించి చాలా సమాచారం ఇస్తుంది. అందువల్ల, RL టెక్నిక్తో సమస్య తక్కువగా ఉంటుంది మరియు ధ్వనించే ప్రవణతలను ఉత్పత్తి చేసే పరిసరాలలో తక్కువ రివార్డ్లతో ఎక్కువగా ఉంటుంది.
ప్రకృతి యొక్క పరిష్కారం
AIని అభివృద్ధి చేసే మార్గాల గురించి ఆలోచిస్తూ, ప్రకృతి ఉదాహరణ నుండి నేర్చుకోవడానికి ప్రయత్నిస్తే, కొన్ని సందర్భాల్లో AIని ఇలా భావించవచ్చు.
క్షీరదాల యొక్క మేధో ప్రవర్తనను పరిశీలించిన తరువాత, రెండు దగ్గరి పరస్పర సంబంధం ఉన్న ప్రక్రియల సంక్లిష్ట పరస్పర ప్రభావం ఫలితంగా ఇది ఏర్పడిందని మేము చూస్తాము: ఇతరుల అనుభవాల నుండి నేర్చుకోవడం и ఆచరిస్తూ నేర్చుకోవడం. మునుపటిది తరచుగా సహజ ఎంపిక ద్వారా నడిచే పరిణామంతో సమానంగా ఉంటుంది, కానీ ఇక్కడ నేను ఎపిజెనెటిక్స్, మైక్రోబయోమ్లు మరియు జన్యుపరంగా సంబంధం లేని జీవుల మధ్య అనుభవాలను పంచుకోవడానికి వీలు కల్పించే ఇతర యంత్రాంగాలను పరిగణనలోకి తీసుకోవడానికి విస్తృత పదాన్ని ఉపయోగిస్తాను. రెండవ ప్రక్రియ, అనుభవం నుండి నేర్చుకోవడం, జంతువు తన జీవితాంతం నేర్చుకునే మొత్తం సమాచారం, మరియు ఈ సమాచారం బయటి ప్రపంచంతో ఈ జంతువు యొక్క పరస్పర చర్య ద్వారా నేరుగా నిర్ణయించబడుతుంది. ఈ వర్గంలో వస్తువులను గుర్తించడం నేర్చుకోవడం నుండి అభ్యాస ప్రక్రియలో అంతర్లీనంగా ఉన్న కమ్యూనికేషన్లో నైపుణ్యం సాధించడం వరకు ప్రతిదీ ఉంటుంది.
స్థూలంగా చెప్పాలంటే, ప్రకృతిలో సంభవించే ఈ రెండు ప్రక్రియలను న్యూరల్ నెట్వర్క్లను ఆప్టిమైజ్ చేయడానికి రెండు ఎంపికలతో పోల్చవచ్చు. జీవి గురించిన సమాచారాన్ని నవీకరించడానికి ప్రవణతల గురించిన సమాచారం ఉపయోగించబడే పరిణామాత్మక వ్యూహాలు, ఇతరుల అనుభవం నుండి నేర్చుకునేందుకు దగ్గరగా ఉంటాయి. అదేవిధంగా, గ్రేడియంట్ పద్ధతులు, ఒకటి లేదా మరొక అనుభవాన్ని పొందడం ఏజెంట్ యొక్క ప్రవర్తనలో ఒకటి లేదా మరొక మార్పుకు దారి తీస్తుంది, ఒకరి స్వంత అనుభవం నుండి నేర్చుకోవడంతో పోల్చవచ్చు. ఈ రెండు విధానాలలో ప్రతి ఒక్కటి జంతువులలో అభివృద్ధి చెందే తెలివైన ప్రవర్తన లేదా సామర్థ్యాల గురించి ఆలోచిస్తే, పోలిక మరింత స్పష్టంగా కనిపిస్తుంది. రెండు సందర్భాల్లో, "పరిణామ పద్ధతులు" రియాక్టివ్ ప్రవర్తనల అధ్యయనాన్ని ప్రోత్సహిస్తాయి, ఇది ఒక నిర్దిష్ట ఫిట్నెస్ను అభివృద్ధి చేయడానికి అనుమతిస్తుంది (సజీవంగా ఉండటానికి సరిపోతుంది). నడవడం లేదా బందిఖానా నుండి తప్పించుకోవడం నేర్చుకోవడం అనేది చాలా సందర్భాలలో జన్యు స్థాయిలో అనేక జంతువులలో "కఠినమైన" ప్రవర్తనలతో సమానం. అదనంగా, రివార్డ్ సిగ్నల్ చాలా అరుదుగా ఉన్న సందర్భాలలో (ఉదాహరణకు, శిశువును విజయవంతంగా పెంచే వాస్తవం) పరిణామ పద్ధతులు వర్తిస్తాయని ఈ ఉదాహరణ నిర్ధారిస్తుంది. అటువంటి సందర్భంలో, ఈ వాస్తవం సంభవించడానికి చాలా సంవత్సరాల ముందు చేసిన ఏదైనా నిర్దిష్ట చర్యలతో రివార్డ్ను పరస్పరం అనుసంధానించడం అసాధ్యం. మరోవైపు, మేము ES విఫలమయ్యే సందర్భాన్ని పరిశీలిస్తే, అవి ఇమేజ్ వర్గీకరణ, ఫలితాలు 100-ప్లస్ సంవత్సరాలలో నిర్వహించిన లెక్కలేనన్ని ప్రవర్తనా మానసిక ప్రయోగాలలో సాధించిన జంతు అభ్యాస ఫలితాలతో పోల్చదగినవి.
జంతువుల నుండి నేర్చుకోవడం
ఉపబల అభ్యాసంలో ఉపయోగించే పద్ధతులు చాలా సందర్భాలలో మానసిక సాహిత్యం నుండి నేరుగా తీసుకోబడ్డాయి
అనుభవం నుండి నేర్చుకోవడంలో ప్రిడిక్షన్ యొక్క ప్రధాన పాత్ర పైన వివరించిన డైనమిక్స్ను ముఖ్యమైన మార్గాల్లో మారుస్తుంది. గతంలో చాలా తక్కువగా (ఎపిసోడిక్ రివార్డ్) పరిగణించబడిన సిగ్నల్ చాలా దట్టమైనదిగా మారుతుంది. సిద్ధాంతపరంగా, పరిస్థితి ఇలా ఉంటుంది: ఏ సమయంలోనైనా, క్షీరదం యొక్క మెదడు ఇంద్రియ ఉద్దీపనలు మరియు చర్యల యొక్క సంక్లిష్ట ప్రవాహం ఆధారంగా ఫలితాలను గణిస్తుంది, అయితే జంతువు ఈ ప్రవాహంలో మునిగిపోతుంది. ఈ సందర్భంలో, జంతువు యొక్క తుది ప్రవర్తన సూచనల సర్దుబాటు మరియు ప్రవర్తన యొక్క అభివృద్ధికి మార్గనిర్దేశం చేయడానికి తప్పనిసరిగా ఉపయోగించాల్సిన బలమైన సంకేతాన్ని ఇస్తుంది. భవిష్యత్తులో అంచనాలను (మరియు, తదనుగుణంగా, తీసుకున్న చర్యల నాణ్యత) ఆప్టిమైజ్ చేయడానికి మెదడు ఈ సంకేతాలన్నింటినీ ఉపయోగిస్తుంది. ఈ విధానం యొక్క అవలోకనం అద్భుతమైన పుస్తకంలో ఇవ్వబడింది "
న్యూరల్ నెట్వర్క్ల యొక్క గొప్ప శిక్షణ
క్షీరదాల మెదడులో అంతర్లీనంగా ఉన్న అధిక నాడీ కార్యకలాపాల సూత్రాలపై ఆధారపడి ఉంటుంది, ఇది నిరంతరం అంచనాలు వేయడంలో బిజీగా ఉంది, రీన్ఫోర్స్మెంట్ లెర్నింగ్లో ఇటీవలి పురోగతులు జరిగాయి, ఇది ఇప్పుడు అటువంటి అంచనాల ప్రాముఖ్యతను పరిగణనలోకి తీసుకుంటుంది. నేను మీకు రెండు సారూప్య రచనలను వెంటనే సిఫార్సు చేయగలను:
ఈ రెండు పేపర్లలో, రచయితలు తమ నాడీ నెట్వర్క్ల యొక్క సాధారణ డిఫాల్ట్ విధానాన్ని భవిష్యత్తులో పర్యావరణ స్థితి గురించి అంచనా ఫలితాలతో భర్తీ చేస్తారు. మొదటి ఆర్టికల్లో, వివిధ రకాల కొలత వేరియబుల్స్కు ఫోర్కాస్టింగ్ వర్తించబడుతుంది మరియు రెండవది, వాతావరణంలో మార్పులు మరియు ఏజెంట్ యొక్క ప్రవర్తనపై అంచనా వేయబడుతుంది. రెండు సందర్భాల్లో, సానుకూల ఉపబలంతో అనుబంధించబడిన స్పేర్స్ సిగ్నల్ చాలా ధనికమైనది మరియు మరింత సమాచారంగా మారుతుంది, ఇది వేగంగా నేర్చుకోవడం మరియు మరింత సంక్లిష్టమైన ప్రవర్తనలను పొందడం రెండింటినీ అనుమతిస్తుంది. ఇటువంటి మెరుగుదలలు గ్రేడియంట్ సిగ్నల్ని ఉపయోగించే పద్ధతులతో మాత్రమే అందుబాటులో ఉంటాయి మరియు ES వంటి "బ్లాక్ బాక్స్" సూత్రంపై పనిచేసే పద్ధతులతో కాదు.
అదనంగా, అనుభవం మరియు గ్రేడియంట్ పద్ధతుల నుండి నేర్చుకోవడం మరింత ప్రభావవంతంగా ఉంటుంది. ఉపబల అభ్యాసాన్ని ఉపయోగించడం కంటే ES పద్ధతిని ఉపయోగించి నిర్దిష్ట సమస్యను వేగంగా అధ్యయనం చేయడం సాధ్యమైన సందర్భాల్లో కూడా, ES వ్యూహం RL కంటే చాలా రెట్లు ఎక్కువ డేటాను కలిగి ఉన్నందున లాభం సాధించబడింది. జంతువులలో నేర్చుకునే సూత్రాలపై ఈ సందర్భంలో ప్రతిబింబిస్తూ, వేరొకరి ఉదాహరణ నుండి నేర్చుకునే ఫలితం చాలా తరాల తర్వాత వ్యక్తమవుతుందని మేము గమనించాము, కొన్నిసార్లు జంతువు ఎప్పటికీ పాఠం నేర్చుకోవడానికి స్వయంగా అనుభవించిన ఒక సంఘటన సరిపోతుంది. ఇష్టం ఉండగానే
కాబట్టి, వాటిని ఎందుకు కలపకూడదు?
ఈ కథనంలో ఎక్కువ భాగం నేను RL పద్ధతులను సమర్థిస్తున్నాననే అభిప్రాయాన్ని కలిగించే అవకాశం ఉంది. అయినప్పటికీ, దీర్ఘకాలంలో రెండు పద్ధతులను కలపడం ఉత్తమ పరిష్కారం అని నేను నిజంగా అనుకుంటున్నాను, తద్వారా ప్రతి ఒక్కటి ఉత్తమంగా సరిపోయే పరిస్థితులలో ఉపయోగించబడుతుంది. సహజంగానే, అనేక రియాక్టివ్ విధానాల విషయంలో లేదా సానుకూల ఉపబలానికి సంబంధించిన చాలా తక్కువ సంకేతాలు ఉన్న పరిస్థితుల్లో, ES గెలుస్తుంది, ప్రత్యేకించి మీరు మీ వద్ద కంప్యూటింగ్ శక్తిని కలిగి ఉంటే, మీరు భారీ సమాంతర శిక్షణను అమలు చేయవచ్చు. మరోవైపు, మేము విస్తృతమైన అభిప్రాయానికి ప్రాప్యత కలిగి ఉన్నప్పుడు మరియు సమస్యను త్వరగా మరియు తక్కువ డేటాతో ఎలా పరిష్కరించాలో నేర్చుకోవాల్సిన అవసరం ఉన్నప్పుడు ఉపబల అభ్యాసం లేదా పర్యవేక్షించబడిన అభ్యాసాన్ని ఉపయోగించే గ్రేడియంట్ పద్ధతులు ఉపయోగకరంగా ఉంటాయి.
ప్రకృతి వైపు తిరగడం, మొదటి పద్ధతి, సారాంశంలో, రెండవదానికి పునాది వేస్తుందని మేము కనుగొన్నాము. అందుకే, పరిణామ క్రమంలో, క్షీరదాలు పర్యావరణం నుండి వచ్చే సంక్లిష్ట సంకేతాల నుండి చాలా ప్రభావవంతంగా నేర్చుకునేలా మెదడులను అభివృద్ధి చేశాయి. కాబట్టి, ప్రశ్న తెరిచి ఉంది. గ్రేడియంట్ లెర్నింగ్ పద్ధతులకు కూడా ఉపయోగపడే ప్రభావవంతమైన లెర్నింగ్ ఆర్కిటెక్చర్లను కనిపెట్టడంలో బహుశా పరిణామ వ్యూహాలు మాకు సహాయపడతాయి. అన్నింటికంటే, ప్రకృతి ద్వారా కనుగొనబడిన పరిష్కారం నిజంగా చాలా విజయవంతమైంది.
మూలం: www.habr.com