సరళమైన వీడియో గేమ్ల ద్వారా నాడీ నెట్వర్క్ను అమలు చేయడం అనేది పాసేజ్ ఫలితాలను అంచనా వేసే సాధారణ సామర్థ్యం కారణంగా దాని శిక్షణ యొక్క ప్రభావాన్ని పరీక్షించడానికి అనువైన మార్గం. 2012లో డీప్మైండ్ (ఆల్ఫాబెట్ హోల్డింగ్లో భాగం) ద్వారా అభివృద్ధి చేయబడింది, 57 ఐకానిక్ అటారీ 2600 గేమ్ల బెంచ్మార్క్ స్వీయ-అభ్యాస వ్యవస్థల సామర్థ్యాలను పరీక్షించడానికి ఒక అగ్ని పరీక్షగా మారింది. మరియు ఇక్కడ ఏజెంట్57, ఒక అధునాతన RL ఏజెంట్ (రీన్ఫోర్స్మెంట్ లెర్నింగ్) DeepMind, మరొక రోజు
Agent57 AI సంస్థ యొక్క మునుపటి సిస్టమ్ల అనుభవాన్ని పరిగణనలోకి తీసుకుంటుంది మరియు మెటా-కంట్రోల్తో సమర్థవంతమైన పర్యావరణ అన్వేషణ కోసం అల్గారిథమ్లను మిళితం చేస్తుంది. ప్రత్యేకించి, Agent57 పిట్ఫాల్, మాంటెజుమాస్ రివెంజ్, సోలారిస్ మరియు స్కీయింగ్లలో అతని మానవాతీత నైపుణ్యాలను నిరూపించాడు - మునుపటి న్యూరల్ నెట్వర్క్లకు తీవ్రమైన పరీక్షగా ఉండే గేమ్లు. పరిశోధన ప్రకారం, పిట్ఫాల్ మరియు మోంటెజుమా యొక్క రివెంజ్ మెరుగైన ఫలితాలను సాధించడానికి AIని మరింత ప్రయోగాలు చేయడానికి బలవంతం చేస్తాయి. సోలారిస్ మరియు స్కీయింగ్ న్యూరల్ నెట్వర్క్లకు చాలా కష్టం, ఎందుకంటే విజయానికి సంబంధించిన అనేక సంకేతాలు లేవు - AI సరైన పని చేస్తుందో లేదో చాలా కాలం వరకు తెలియదు. DeepMind దాని పాత AI ఏజెంట్లపై నిర్మించబడింది, దీని వలన ఏజెంట్57 గేమ్లలో పర్యావరణ అన్వేషణ మరియు పనితీరు మూల్యాంకనానికి సంబంధించి మెరుగైన నిర్ణయాలు తీసుకోగలదు, అలాగే స్కీయింగ్ వంటి గేమ్లలో స్వల్పకాలిక మరియు దీర్ఘకాలిక ప్రవర్తన మధ్య ట్రేడ్-ఆఫ్ను ఆప్టిమైజ్ చేస్తుంది.
ఫలితాలు ఆకట్టుకునేలా ఉన్నాయి, కానీ AIకి ఇంకా చాలా దూరం ఉంది. ఈ వ్యవస్థలు ఒక సమయంలో ఒక గేమ్ను మాత్రమే నిర్వహించగలవు, ఇది మానవ సామర్థ్యాలకు విరుద్ధంగా ఉందని డెవలపర్లు చెప్పారు: "మానవ మెదడుకు చాలా సులభంగా వచ్చే నిజమైన వశ్యత ఇప్పటికీ AIకి చేరువలో ఉంది."
మూలం: 3dnews.ru