ఫ్లాగ్ను క్యాప్చర్ చేయడం అనేది చాలా జనాదరణ పొందిన షూటర్లలో కనిపించే చాలా సులభమైన పోటీ మోడ్. ప్రతి జట్టు దాని స్థావరంలో ఒక మార్కర్ను కలిగి ఉంటుంది మరియు ప్రత్యర్థుల మార్కర్ను సంగ్రహించడం మరియు దానిని విజయవంతంగా తీసుకురావడం లక్ష్యం. అయితే, మనుషులకు సులభంగా అర్థమయ్యేది యంత్రాలకు అంత సులభం కాదు. జెండాను సంగ్రహించడానికి, నాన్-ప్లేయర్ క్యారెక్టర్లు (బాట్లు) సాంప్రదాయకంగా హ్యూరిస్టిక్స్ మరియు సాధారణ అల్గారిథమ్లను ఉపయోగించి ప్రోగ్రామ్ చేయబడతాయి, ఇవి పరిమిత ఎంపిక స్వేచ్ఛను అందిస్తాయి మరియు మానవుల కంటే గణనీయంగా తక్కువగా ఉంటాయి. కానీ కృత్రిమ మేధస్సు మరియు యంత్ర అభ్యాసం ఈ పరిస్థితిని పూర్తిగా మారుస్తాయని వాగ్దానం చేస్తాయి.
В
“ఈ గేమ్ను ఎలా ఆడాలో AIకి ఎవరూ చెప్పలేదు, దాని ఫలితం మాత్రమే ఉంది - AI తన ప్రత్యర్థిని ఓడించినా, చేయకపోయినా. ఈ విధానాన్ని ఉపయోగించడం యొక్క అందం ఏమిటంటే, మీరు ఏజెంట్లకు శిక్షణ ఇచ్చినప్పుడు ఎలాంటి ప్రవర్తన బయటపడుతుందో మీకు ఎప్పటికీ తెలియదు, ”అని గతంలో మెషిన్ లెర్నింగ్ సిస్టమ్ ఆల్ఫాస్టార్లో పనిచేసిన డీప్మైండ్లోని పరిశోధనా శాస్త్రవేత్త మాక్స్ జాడర్బర్గ్ చెప్పారు (ఇటీవలి
"పరిశోధన దృక్కోణం నుండి, ఇది నిజంగా ఉత్తేజకరమైన అల్గోరిథమిక్ విధానానికి కొత్తదనం" అని మాక్స్ జోడించారు. "మేము మా AIకి శిక్షణ ఇచ్చిన విధానం కొన్ని క్లాసిక్ ఎవల్యూషనరీ ఐడియాలను స్కేల్ చేయడం మరియు అమలు చేయడం ఎలాగో బాగా చూపిస్తుంది."
రెచ్చగొట్టే విధంగా ఫర్ ది విన్ (FTW) అని పేరు పెట్టారు, DeepMind యొక్క ఏజెంట్లు మానవ విజువల్ కార్టెక్స్ తర్వాత రూపొందించబడిన పొరలలో అమర్చబడిన గణిత విధుల (న్యూరాన్లు) సమితిని కన్వల్యూషనల్ న్యూరల్ నెట్వర్క్ని ఉపయోగించి స్క్రీన్ పిక్సెల్ల నుండి నేరుగా నేర్చుకుంటారు. అందుకున్న డేటా బహుళ స్వల్పకాలిక మెమరీ (ఇంగ్లీష్ లాంగ్ షార్ట్-టర్మ్ మెమరీ - LSTM)తో రెండు నెట్వర్క్లకు బదిలీ చేయబడుతుంది, ఇది దీర్ఘకాలిక డిపెండెన్సీలను గుర్తించగలదు. వాటిలో ఒకటి కార్యాచరణ డేటాను వేగవంతమైన ప్రతిస్పందన వేగంతో నిర్వహిస్తుంది, మరొకటి విశ్లేషించడానికి మరియు వ్యూహాలను రూపొందించడానికి నెమ్మదిగా పని చేస్తుంది. రెండూ వేరియేషనల్ మెమరీతో అనుబంధించబడ్డాయి, అవి గేమ్ ప్రపంచంలోని మార్పులను అంచనా వేయడానికి మరియు ఎమ్యులేటెడ్ గేమ్ కంట్రోలర్ ద్వారా చర్యలను నిర్వహించడానికి కలిసి ఉపయోగిస్తాయి.
మొత్తంగా, డీప్మైండ్ 30 మంది ఏజెంట్లకు శిక్షణ ఇచ్చింది, వారితో ఆడేందుకు సహచరులు మరియు ప్రత్యర్థుల శ్రేణిని అందించింది మరియు AI వాటిని గుర్తుంచుకోకుండా నిరోధించడానికి యాదృచ్ఛికంగా ఎంచుకున్న గేమ్ కార్డ్లను అందించింది. ప్రతి ఏజెంట్ దాని స్వంత రివార్డ్ సిగ్నల్ను కలిగి ఉంది, ఇది ఫ్లాగ్ను క్యాప్చర్ చేయడం వంటి దాని స్వంత అంతర్గత లక్ష్యాలను రూపొందించడానికి అనుమతిస్తుంది. ప్రతి AI వ్యక్తిగతంగా దాదాపు నాలుగు సంవత్సరాల గేమింగ్ అనుభవానికి సమానమైన ఫ్లాగ్ను క్యాప్చర్ చేసే 450 వేల గేమ్లను ఆడింది.
పూర్తిగా శిక్షణ పొందిన FTW ఏజెంట్లు ఏదైనా మ్యాప్, టీమ్ రోస్టర్ మరియు టీమ్ సైజ్కి సాధారణమైన వ్యూహాలను వర్తింపజేయడం నేర్చుకున్నారు. వారు సహచరులను అనుసరించడం, శత్రు స్థావరంలో క్యాంపింగ్ చేయడం మరియు దాడి చేసేవారి నుండి తమ స్థావరాన్ని రక్షించుకోవడం వంటి మానవ ప్రవర్తనలను నేర్చుకున్నారు మరియు మిత్రదేశాన్ని చాలా దగ్గరగా చూడటం వంటి తక్కువ ప్రయోజనకరమైన విధానాలను వారు క్రమంగా కోల్పోయారు.
కాబట్టి ఏ ఫలితాలు సాధించబడ్డాయి? 40 మంది వ్యక్తుల టోర్నమెంట్లో మానవులు మరియు ఏజెంట్లు యాదృచ్ఛికంగా కలిసి మరియు ఒకరికొకరు వ్యతిరేకంగా ఆడారు, FTW ఏజెంట్లు మానవ ఆటగాళ్ల విజయ రేటును గణనీయంగా అధిగమించారు. "బలమైన" హ్యూమన్ ప్లేయర్లకు 1600 మరియు "సగటు" హ్యూమన్ ప్లేయర్కు 1300తో పోల్చితే, AI యొక్క ఎలో రేటింగ్, గెలిచే సంభావ్యత, 1050.
ఇది ఆశ్చర్యం కలిగించదు, ఎందుకంటే AI యొక్క ప్రతిచర్య వేగం మానవుని కంటే చాలా ఎక్కువగా ఉంటుంది, ఇది ప్రారంభ ప్రయోగాలలో మునుపటి వారికి గణనీయమైన ప్రయోజనాన్ని ఇచ్చింది. అయితే అంతర్నిర్మిత 257 మిల్లీసెకన్ల జాప్యం కారణంగా ఏజెంట్ల ఖచ్చితత్వం తగ్గినప్పటికీ, ప్రతిచర్య సమయం పెరిగినప్పటికీ, AI ఇప్పటికీ మానవులను మించిపోయింది. అడ్వాన్స్డ్ మరియు క్యాజువల్ ప్లేయర్లు మొత్తం గేమ్లలో వరుసగా 21% మరియు 12% మాత్రమే గెలిచారు.
అంతేకాకుండా, అధ్యయనం యొక్క ప్రచురణ తర్వాత, శాస్త్రవేత్తలు పూర్తి స్థాయి క్వాక్ III అరేనా మ్యాప్లపై సంక్లిష్ట స్థాయి నిర్మాణం మరియు ఫ్యూచర్ క్రాసింగ్లు మరియు ఐరన్వుడ్ వంటి అదనపు వస్తువులతో ఏజెంట్లను పరీక్షించాలని నిర్ణయించుకున్నారు, ఇక్కడ AI టెస్ట్ మ్యాచ్లలో మానవులను విజయవంతంగా సవాలు చేయడం ప్రారంభించింది. . పరిశోధకులు ఏజెంట్ల యొక్క న్యూరల్ నెట్వర్క్ యాక్టివేషన్ నమూనాలను పరిశీలించినప్పుడు, అంటే ఇన్కమింగ్ సమాచారం ఆధారంగా అవుట్పుట్ను నిర్ణయించే బాధ్యత కలిగిన న్యూరాన్ల విధులు, వారు గదులు, జెండాల స్థితి, సహచరులు మరియు ప్రత్యర్థుల దృశ్యమానతను సూచించే క్లస్టర్లను కనుగొన్నారు. శత్రువు స్థావరం వద్ద ఏజెంట్ల ఉనికి లేదా లేకపోవడం. లేదా జట్టు-ఆధారిత మరియు గేమ్ప్లే యొక్క ఇతర ముఖ్యమైన అంశాలు. శిక్షణ పొందిన ఏజెంట్లు నిర్దిష్ట పరిస్థితులను నేరుగా ఎన్కోడ్ చేసే న్యూరాన్లను కూడా కలిగి ఉంటారు, అంటే జెండాను ఏజెంట్ తీసుకున్నప్పుడు లేదా మిత్రుడు దానిని పట్టుకున్నప్పుడు.
"ఈ మల్టీ-ఏజెంట్ బృందాలు చాలా శక్తివంతమైనవి అని నేను చూడవలసిన వాటిలో ఒకటి, మరియు మా అధ్యయనం దానిని ప్రదర్శిస్తుంది" అని జాడర్బర్గ్ చెప్పారు. "గత కొన్ని సంవత్సరాలుగా మేము మెరుగ్గా మరియు మెరుగ్గా చేయడం నేర్చుకుంటున్నాము - ఉపబల అభ్యాస సమస్యను ఎలా పరిష్కరించాలి." మరియు మెరుగైన శిక్షణ నిజంగా అద్భుతంగా పనిచేసింది.
యూనివర్సిటీ కాలేజ్ లండన్లో కంప్యూటర్ సైన్స్ ప్రొఫెసర్ మరియు డీప్మైండ్ శాస్త్రవేత్త అయిన థోర్ గ్రేపెల్, వారి పని AI యొక్క భవిష్యత్తు కోసం మల్టీ-ఏజెంట్ లెర్నింగ్ యొక్క సామర్థ్యాన్ని హైలైట్ చేస్తుందని అభిప్రాయపడ్డారు. ఇది మానవ-యంత్ర పరస్పర చర్య మరియు ఒకదానికొకటి పూర్తి చేసే లేదా కలిసి పని చేసే వ్యవస్థలపై పరిశోధనకు కూడా ఒక ఆధారంగా ఉపయోగపడుతుంది.
"మల్టీ-ఏజెంట్ రీన్ఫోర్స్మెంట్ లెర్నింగ్ క్లిష్టమైన గేమ్ను విజయవంతంగా ప్రావీణ్యం చేయగలదని మా ఫలితాలు చూపిస్తున్నాయి, కంప్యూటర్ ప్లేయర్లు మెరుగైన సహచరులను తయారు చేస్తారని మానవ ఆటగాళ్ళు కూడా నమ్ముతారు. శిక్షణ పొందిన ఏజెంట్లు ఎలా ప్రవర్తిస్తారు మరియు కలిసి పని చేస్తారనే దానిపై అధ్యయనం చాలా ఆసక్తికరమైన లోతైన విశ్లేషణను అందిస్తుంది, గ్రాపెల్ చెప్పారు. "ఈ ఫలితాలను చాలా ఉత్తేజపరిచేది ఏమిటంటే, ఈ ఏజెంట్లు తమ వాతావరణాన్ని మొదటి వ్యక్తిలో [అంటే] మానవ ఆటగాడిలాగా గ్రహిస్తారు. వ్యూహాత్మకంగా ఎలా ఆడాలో మరియు వారి సహచరులతో ఎలా సహకరించాలో తెలుసుకోవడానికి, ఈ ఏజెంట్లు ఏ టీచర్ లేదా కోచ్ ఏమి చేయాలో చూపించకుండానే గేమ్ ఫలితాల నుండి ఫీడ్బ్యాక్పై ఆధారపడవలసి వచ్చింది."
మూలం: 3dnews.ru