డీప్‌మైండ్ AI మాస్టర్స్ టీమ్ ప్లే మరియు క్వాక్ IIIలో మానవులను మించిపోయింది

ఫ్లాగ్‌ను క్యాప్చర్ చేయడం అనేది చాలా జనాదరణ పొందిన షూటర్‌లలో కనిపించే చాలా సులభమైన పోటీ మోడ్. ప్రతి జట్టు దాని స్థావరంలో ఒక మార్కర్‌ను కలిగి ఉంటుంది మరియు ప్రత్యర్థుల మార్కర్‌ను సంగ్రహించడం మరియు దానిని విజయవంతంగా తీసుకురావడం లక్ష్యం. అయితే, మనుషులకు సులభంగా అర్థమయ్యేది యంత్రాలకు అంత సులభం కాదు. జెండాను సంగ్రహించడానికి, నాన్-ప్లేయర్ క్యారెక్టర్‌లు (బాట్‌లు) సాంప్రదాయకంగా హ్యూరిస్టిక్స్ మరియు సాధారణ అల్గారిథమ్‌లను ఉపయోగించి ప్రోగ్రామ్ చేయబడతాయి, ఇవి పరిమిత ఎంపిక స్వేచ్ఛను అందిస్తాయి మరియు మానవుల కంటే గణనీయంగా తక్కువగా ఉంటాయి. కానీ కృత్రిమ మేధస్సు మరియు యంత్ర అభ్యాసం ఈ పరిస్థితిని పూర్తిగా మారుస్తాయని వాగ్దానం చేస్తాయి.

В వ్యాసం, ఒక సంవత్సరం తర్వాత సైన్స్ జర్నల్‌లో ఈ వారం ప్రచురించబడింది ప్రిప్రింట్అలాగే మీ బ్లాగులో, ఆల్ఫాబెట్ యొక్క లండన్-ఆధారిత అనుబంధ సంస్థ అయిన డీప్‌మైండ్ పరిశోధకులు, ఐడి సాఫ్ట్‌వేర్ యొక్క క్వాక్ III అరేనా మ్యాప్‌లలో ఫ్లాగ్‌ను క్యాప్చర్ చేయడం నేర్చుకోగల వ్యవస్థను వివరిస్తారు, కానీ పూర్తిగా కొత్త జట్టు వ్యూహాలను అభివృద్ధి చేస్తారు, ఏ విధంగానూ మానవుని కంటే తక్కువ కాదు.

డీప్‌మైండ్ AI మాస్టర్స్ టీమ్ ప్లే మరియు క్వాక్ IIIలో మానవులను మించిపోయింది

“ఈ గేమ్‌ను ఎలా ఆడాలో AIకి ఎవరూ చెప్పలేదు, దాని ఫలితం మాత్రమే ఉంది - AI తన ప్రత్యర్థిని ఓడించినా, చేయకపోయినా. ఈ విధానాన్ని ఉపయోగించడం యొక్క అందం ఏమిటంటే, మీరు ఏజెంట్‌లకు శిక్షణ ఇచ్చినప్పుడు ఎలాంటి ప్రవర్తన బయటపడుతుందో మీకు ఎప్పటికీ తెలియదు, ”అని గతంలో మెషిన్ లెర్నింగ్ సిస్టమ్ ఆల్ఫాస్టార్‌లో పనిచేసిన డీప్‌మైండ్‌లోని పరిశోధనా శాస్త్రవేత్త మాక్స్ జాడర్‌బర్గ్ చెప్పారు (ఇటీవలి అధిగమించింది స్టార్‌క్రాఫ్ట్ IIలోని నిపుణుల మానవ బృందం). వారి కొత్త పని యొక్క ముఖ్య పద్ధతి, ముందుగా, రీన్‌ఫోర్స్డ్ లెర్నింగ్, ఇది నిర్ణీత లక్ష్యాలను సాధించడానికి సాఫ్ట్‌వేర్ ఏజెంట్లను నెట్టడానికి ఒక రకమైన రివార్డ్ సిస్టమ్‌ను ఉపయోగిస్తుందని మరియు AI బృందం గెలిచిందా లేదా అనే దానితో సంబంధం లేకుండా రివార్డ్ సిస్టమ్ పని చేస్తుందని ఆయన వివరించారు. , కానీ రెండవది, ఏజెంట్లు సమూహాలలో శిక్షణ పొందారు, ఇది AI మొదటి నుండి టీమ్ ఇంటరాక్షన్‌లో నైపుణ్యం పొందేలా చేసింది.

"పరిశోధన దృక్కోణం నుండి, ఇది నిజంగా ఉత్తేజకరమైన అల్గోరిథమిక్ విధానానికి కొత్తదనం" అని మాక్స్ జోడించారు. "మేము మా AIకి శిక్షణ ఇచ్చిన విధానం కొన్ని క్లాసిక్ ఎవల్యూషనరీ ఐడియాలను స్కేల్ చేయడం మరియు అమలు చేయడం ఎలాగో బాగా చూపిస్తుంది."

డీప్‌మైండ్ AI మాస్టర్స్ టీమ్ ప్లే మరియు క్వాక్ IIIలో మానవులను మించిపోయింది

రెచ్చగొట్టే విధంగా ఫర్ ది విన్ (FTW) అని పేరు పెట్టారు, DeepMind యొక్క ఏజెంట్లు మానవ విజువల్ కార్టెక్స్ తర్వాత రూపొందించబడిన పొరలలో అమర్చబడిన గణిత విధుల (న్యూరాన్లు) సమితిని కన్వల్యూషనల్ న్యూరల్ నెట్‌వర్క్‌ని ఉపయోగించి స్క్రీన్ పిక్సెల్‌ల నుండి నేరుగా నేర్చుకుంటారు. అందుకున్న డేటా బహుళ స్వల్పకాలిక మెమరీ (ఇంగ్లీష్ లాంగ్ షార్ట్-టర్మ్ మెమరీ - LSTM)తో రెండు నెట్‌వర్క్‌లకు బదిలీ చేయబడుతుంది, ఇది దీర్ఘకాలిక డిపెండెన్సీలను గుర్తించగలదు. వాటిలో ఒకటి కార్యాచరణ డేటాను వేగవంతమైన ప్రతిస్పందన వేగంతో నిర్వహిస్తుంది, మరొకటి విశ్లేషించడానికి మరియు వ్యూహాలను రూపొందించడానికి నెమ్మదిగా పని చేస్తుంది. రెండూ వేరియేషనల్ మెమరీతో అనుబంధించబడ్డాయి, అవి గేమ్ ప్రపంచంలోని మార్పులను అంచనా వేయడానికి మరియు ఎమ్యులేటెడ్ గేమ్ కంట్రోలర్ ద్వారా చర్యలను నిర్వహించడానికి కలిసి ఉపయోగిస్తాయి.

డీప్‌మైండ్ AI మాస్టర్స్ టీమ్ ప్లే మరియు క్వాక్ IIIలో మానవులను మించిపోయింది

మొత్తంగా, డీప్‌మైండ్ 30 మంది ఏజెంట్‌లకు శిక్షణ ఇచ్చింది, వారితో ఆడేందుకు సహచరులు మరియు ప్రత్యర్థుల శ్రేణిని అందించింది మరియు AI వాటిని గుర్తుంచుకోకుండా నిరోధించడానికి యాదృచ్ఛికంగా ఎంచుకున్న గేమ్ కార్డ్‌లను అందించింది. ప్రతి ఏజెంట్ దాని స్వంత రివార్డ్ సిగ్నల్‌ను కలిగి ఉంది, ఇది ఫ్లాగ్‌ను క్యాప్చర్ చేయడం వంటి దాని స్వంత అంతర్గత లక్ష్యాలను రూపొందించడానికి అనుమతిస్తుంది. ప్రతి AI వ్యక్తిగతంగా దాదాపు నాలుగు సంవత్సరాల గేమింగ్ అనుభవానికి సమానమైన ఫ్లాగ్‌ను క్యాప్చర్ చేసే 450 వేల గేమ్‌లను ఆడింది.

పూర్తిగా శిక్షణ పొందిన FTW ఏజెంట్లు ఏదైనా మ్యాప్, టీమ్ రోస్టర్ మరియు టీమ్ సైజ్‌కి సాధారణమైన వ్యూహాలను వర్తింపజేయడం నేర్చుకున్నారు. వారు సహచరులను అనుసరించడం, శత్రు స్థావరంలో క్యాంపింగ్ చేయడం మరియు దాడి చేసేవారి నుండి తమ స్థావరాన్ని రక్షించుకోవడం వంటి మానవ ప్రవర్తనలను నేర్చుకున్నారు మరియు మిత్రదేశాన్ని చాలా దగ్గరగా చూడటం వంటి తక్కువ ప్రయోజనకరమైన విధానాలను వారు క్రమంగా కోల్పోయారు.

కాబట్టి ఏ ఫలితాలు సాధించబడ్డాయి? 40 మంది వ్యక్తుల టోర్నమెంట్‌లో మానవులు మరియు ఏజెంట్లు యాదృచ్ఛికంగా కలిసి మరియు ఒకరికొకరు వ్యతిరేకంగా ఆడారు, FTW ఏజెంట్లు మానవ ఆటగాళ్ల విజయ రేటును గణనీయంగా అధిగమించారు. "బలమైన" హ్యూమన్ ప్లేయర్‌లకు 1600 మరియు "సగటు" హ్యూమన్ ప్లేయర్‌కు 1300తో పోల్చితే, AI యొక్క ఎలో రేటింగ్, గెలిచే సంభావ్యత, 1050.

డీప్‌మైండ్ AI మాస్టర్స్ టీమ్ ప్లే మరియు క్వాక్ IIIలో మానవులను మించిపోయింది

ఇది ఆశ్చర్యం కలిగించదు, ఎందుకంటే AI యొక్క ప్రతిచర్య వేగం మానవుని కంటే చాలా ఎక్కువగా ఉంటుంది, ఇది ప్రారంభ ప్రయోగాలలో మునుపటి వారికి గణనీయమైన ప్రయోజనాన్ని ఇచ్చింది. అయితే అంతర్నిర్మిత 257 మిల్లీసెకన్ల జాప్యం కారణంగా ఏజెంట్ల ఖచ్చితత్వం తగ్గినప్పటికీ, ప్రతిచర్య సమయం పెరిగినప్పటికీ, AI ఇప్పటికీ మానవులను మించిపోయింది. అడ్వాన్స్‌డ్ మరియు క్యాజువల్ ప్లేయర్‌లు మొత్తం గేమ్‌లలో వరుసగా 21% మరియు 12% మాత్రమే గెలిచారు.

అంతేకాకుండా, అధ్యయనం యొక్క ప్రచురణ తర్వాత, శాస్త్రవేత్తలు పూర్తి స్థాయి క్వాక్ III అరేనా మ్యాప్‌లపై సంక్లిష్ట స్థాయి నిర్మాణం మరియు ఫ్యూచర్ క్రాసింగ్‌లు మరియు ఐరన్‌వుడ్ వంటి అదనపు వస్తువులతో ఏజెంట్లను పరీక్షించాలని నిర్ణయించుకున్నారు, ఇక్కడ AI టెస్ట్ మ్యాచ్‌లలో మానవులను విజయవంతంగా సవాలు చేయడం ప్రారంభించింది. . పరిశోధకులు ఏజెంట్ల యొక్క న్యూరల్ నెట్‌వర్క్ యాక్టివేషన్ నమూనాలను పరిశీలించినప్పుడు, అంటే ఇన్‌కమింగ్ సమాచారం ఆధారంగా అవుట్‌పుట్‌ను నిర్ణయించే బాధ్యత కలిగిన న్యూరాన్‌ల విధులు, వారు గదులు, జెండాల స్థితి, సహచరులు మరియు ప్రత్యర్థుల దృశ్యమానతను సూచించే క్లస్టర్‌లను కనుగొన్నారు. శత్రువు స్థావరం వద్ద ఏజెంట్ల ఉనికి లేదా లేకపోవడం. లేదా జట్టు-ఆధారిత మరియు గేమ్‌ప్లే యొక్క ఇతర ముఖ్యమైన అంశాలు. శిక్షణ పొందిన ఏజెంట్లు నిర్దిష్ట పరిస్థితులను నేరుగా ఎన్‌కోడ్ చేసే న్యూరాన్‌లను కూడా కలిగి ఉంటారు, అంటే జెండాను ఏజెంట్ తీసుకున్నప్పుడు లేదా మిత్రుడు దానిని పట్టుకున్నప్పుడు.

"ఈ మల్టీ-ఏజెంట్ బృందాలు చాలా శక్తివంతమైనవి అని నేను చూడవలసిన వాటిలో ఒకటి, మరియు మా అధ్యయనం దానిని ప్రదర్శిస్తుంది" అని జాడర్‌బర్గ్ చెప్పారు. "గత కొన్ని సంవత్సరాలుగా మేము మెరుగ్గా మరియు మెరుగ్గా చేయడం నేర్చుకుంటున్నాము - ఉపబల అభ్యాస సమస్యను ఎలా పరిష్కరించాలి." మరియు మెరుగైన శిక్షణ నిజంగా అద్భుతంగా పనిచేసింది.

యూనివర్సిటీ కాలేజ్ లండన్‌లో కంప్యూటర్ సైన్స్ ప్రొఫెసర్ మరియు డీప్‌మైండ్ శాస్త్రవేత్త అయిన థోర్ గ్రేపెల్, వారి పని AI యొక్క భవిష్యత్తు కోసం మల్టీ-ఏజెంట్ లెర్నింగ్ యొక్క సామర్థ్యాన్ని హైలైట్ చేస్తుందని అభిప్రాయపడ్డారు. ఇది మానవ-యంత్ర పరస్పర చర్య మరియు ఒకదానికొకటి పూర్తి చేసే లేదా కలిసి పని చేసే వ్యవస్థలపై పరిశోధనకు కూడా ఒక ఆధారంగా ఉపయోగపడుతుంది.

"మల్టీ-ఏజెంట్ రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ క్లిష్టమైన గేమ్‌ను విజయవంతంగా ప్రావీణ్యం చేయగలదని మా ఫలితాలు చూపిస్తున్నాయి, కంప్యూటర్ ప్లేయర్‌లు మెరుగైన సహచరులను తయారు చేస్తారని మానవ ఆటగాళ్ళు కూడా నమ్ముతారు. శిక్షణ పొందిన ఏజెంట్లు ఎలా ప్రవర్తిస్తారు మరియు కలిసి పని చేస్తారనే దానిపై అధ్యయనం చాలా ఆసక్తికరమైన లోతైన విశ్లేషణను అందిస్తుంది, గ్రాపెల్ చెప్పారు. "ఈ ఫలితాలను చాలా ఉత్తేజపరిచేది ఏమిటంటే, ఈ ఏజెంట్లు తమ వాతావరణాన్ని మొదటి వ్యక్తిలో [అంటే] మానవ ఆటగాడిలాగా గ్రహిస్తారు. వ్యూహాత్మకంగా ఎలా ఆడాలో మరియు వారి సహచరులతో ఎలా సహకరించాలో తెలుసుకోవడానికి, ఈ ఏజెంట్లు ఏ టీచర్ లేదా కోచ్ ఏమి చేయాలో చూపించకుండానే గేమ్ ఫలితాల నుండి ఫీడ్‌బ్యాక్‌పై ఆధారపడవలసి వచ్చింది."



మూలం: 3dnews.ru

ఒక వ్యాఖ్యను జోడించండి