ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (AI) బాట్లు ఎలా నిర్ణయాలు తీసుకుంటాయో మరియు ఒకదానితో ఒకటి మరియు వాటి చుట్టూ ఉన్న వివిధ వస్తువులతో ఎలా సంభాషించాలో ప్రదర్శించడానికి మంచి పాత-కాలపు దాగి మరియు వెతకడం గేమ్ గొప్ప పరీక్ష.
ఆయన లో
శాస్త్రవేత్తలు సుదీర్ఘకాలం దాని కీర్తిని గెలుచుకున్న ఒక పద్ధతిని ఉపయోగించారు
దాగుడు మూతలు ఆడేందుకు AIకి శిక్షణ ఇవ్వడానికి, శాస్త్రవేత్తలు "అన్డైరెక్ట్డ్ ఎక్స్ప్లోరేషన్" అనే విధానాన్ని ఉపయోగించారు, ఇక్కడ గేమ్ ప్రపంచంపై తమ అవగాహనను పెంపొందించుకోవడానికి మరియు విజేత వ్యూహాలను అభివృద్ధి చేయడానికి ఏజెంట్లకు పూర్తి స్వేచ్ఛ ఉంటుంది. ఇది బహుళ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ సిస్టమ్స్లో డీప్మైండ్లోని పరిశోధకులు ఉపయోగించే మల్టీ-ఏజెంట్ లెర్నింగ్ విధానాన్ని పోలి ఉంటుంది.
దాచిపెట్టు మరియు వెతకడం యొక్క గేమ్లో, చాలా మంది ఏజెంట్లు తమ ప్రత్యర్థుల దృష్టిని తప్పించుకోవలసి ఉంటుంది, అయితే శోధించే ఏజెంట్ల బృందం కదలకుండా ఉంటుంది. అంతేకాకుండా, ఈ సందర్భంలో "దృష్టి రేఖ" అనేది వ్యక్తిగత బోట్ ముందు 135 డిగ్రీల కోన్. ఏజెంట్లు ఆట స్థలం వెలుపల చాలా దూరం వెళ్లలేరు మరియు చుట్టుపక్కల కొన్ని బాహ్య వస్తువులను (పెట్టెలు, కదిలే గోడలు, ప్రత్యేక ర్యాంప్లు) ఉపయోగించగల సామర్థ్యంతో యాదృచ్ఛికంగా రూపొందించబడిన గదులను నావిగేట్ చేయవలసి వచ్చింది, వాటి చుట్టూ కవర్ను సృష్టించడానికి మరియు వాటిలోకి చొరబడేందుకు ఉపయోగించవచ్చు. .
సుదీర్ఘమైన అభ్యాస ప్రక్రియ ద్వారా, AI ఏజెంట్లు ఆరు ప్రత్యేకమైన వ్యూహాలను నేర్చుకున్నారు, వీటిలో ప్రతి ఒక్కటి ఆట యొక్క తదుపరి దశకు చేరుకోవడంలో వారికి సహాయపడింది. మొదట, అన్వేషకుడు మరియు దాచిన జట్లు పారిపోయి ఒకరినొకరు వెంబడించాయి, కానీ దాదాపు 25 మిలియన్ మ్యాచ్ల తర్వాత, దాచిన బృందం బాక్సులతో మార్గాలను నిరోధించడం మరియు వాటి నుండి ఆశ్రయాలను నిర్మించడం నేర్చుకుంది. మరో 75 మిలియన్ మ్యాచ్ల తర్వాత, ఈ రహస్య ప్రదేశాల్లోకి ప్రవేశించడానికి ర్యాంప్లను ఉపయోగించే మార్గాలను బృందం కనుగొంది. మరో 10 మిలియన్ రౌండ్ల తర్వాత, ప్రత్యర్థులు వాటిని ఉపయోగించకుండా నిరోధించడానికి ర్యాంప్లను ప్లే చేసే ప్రదేశం అంచుకు లాగడం మరియు వాటిని లాక్ చేయడం నేర్చుకున్నారు.
388 మిలియన్ మ్యాచ్ల తర్వాత, అన్వేషకులు తమ వద్దకు తీసుకువచ్చిన డబ్బాలపైకి ఎక్కడానికి నిరోధించబడిన ర్యాంప్లను ఉపయోగించడం నేర్చుకున్నారు, ఆపై, నేరుగా వాటిపైకి వెళ్లి, పోర్టబుల్ గోడల నుండి సృష్టించబడిన శత్రువుల రహస్య స్థావరాలను చొచ్చుకుపోతారు. చివరకు, 458 మిలియన్ మ్యాచ్ల తర్వాత, దాచిన బృందం వారు అన్ని వస్తువులను నిరోధించి, ఆపై ఒక ఆశ్రయాన్ని నిర్మించాల్సిన అవసరం ఉందని నిర్ధారించారు, ఇది వారి చివరి విజయానికి దారితీసింది.
ముఖ్యంగా ఆకట్టుకునే విషయం ఏమిటంటే, 22 మిలియన్ మ్యాచ్ల తర్వాత, ఏజెంట్లు తమ చర్యలను సమన్వయం చేసుకోవడం నేర్చుకున్నారు మరియు వారి సహకారం యొక్క సామర్థ్యం భవిష్యత్తులో మాత్రమే పెరిగింది, ఉదాహరణకు, ప్రతి ఒక్కరూ తన సొంత పెట్టె లేదా గోడను తీసుకువచ్చి ఆశ్రయాన్ని సృష్టించి, వస్తువులను ఎంచుకున్నారు. నిరోధించు, ప్రత్యర్థులకు కష్టమైన ఆటను క్లిష్టతరం చేయడానికి.
అభ్యాస వేగంపై శిక్షణా వస్తువుల సంఖ్య (న్యూరల్ నెట్వర్క్ ద్వారా పంపబడిన డేటా మొత్తం - “బ్యాచ్ సైజు”) ప్రభావానికి సంబంధించిన ఒక ముఖ్యమైన విషయాన్ని కూడా శాస్త్రవేత్తలు గుర్తించారు. డిఫాల్ట్ మోడల్కు 132,3 గంటల శిక్షణలో 34 మిలియన్ మ్యాచ్లు అవసరమవుతాయి, అయితే దాచే బృందం ర్యాంప్లను నిరోధించడం నేర్చుకున్న స్థానానికి చేరుకుంది, అయితే మరింత డేటా ఫలితంగా శిక్షణ సమయం గణనీయంగా తగ్గింది. ఉదాహరణకు, పారామితుల సంఖ్యను (మొత్తం శిక్షణ ప్రక్రియలో పొందిన డేటాలో కొంత భాగం) 0,5 మిలియన్ నుండి 5,8 మిలియన్లకు పెంచడం నమూనా సామర్థ్యాన్ని 2,2 రెట్లు పెంచింది మరియు ఇన్పుట్ డేటా పరిమాణాన్ని 64 KB నుండి 128 KBకి పెంచడం వల్ల శిక్షణ తగ్గింది. సమయం దాదాపు ఒకటిన్నర సార్లు.
వారి పని ముగిసే సమయానికి, గేమ్ వెలుపల సారూప్య పనులను ఎదుర్కోవటానికి ఏజెంట్లకు ఆటలో శిక్షణ ఎంతవరకు సహాయపడుతుందో పరీక్షించాలని పరిశోధకులు నిర్ణయించుకున్నారు. మొత్తం ఐదు పరీక్షలు ఉన్నాయి: వస్తువుల సంఖ్యపై అవగాహన (ఒక వస్తువు కనిపించకుండా పోయినా మరియు ఉపయోగించకపోయినా ఉనికిలో కొనసాగుతుందని అర్థం చేసుకోవడం); “లాక్ అండ్ రిటర్న్” - ఒకరి అసలు స్థానాన్ని గుర్తుంచుకోగల సామర్థ్యం మరియు కొన్ని అదనపు పనిని పూర్తి చేసిన తర్వాత దానికి తిరిగి రావడం; “సీక్వెన్షియల్ బ్లాకింగ్” - 4 పెట్టెలు యాదృచ్ఛికంగా మూడు గదులలో తలుపులు లేకుండా ఉన్నాయి, కానీ లోపలికి వెళ్లడానికి ర్యాంప్లతో, ఏజెంట్లు వాటన్నింటినీ కనుగొని నిరోధించాల్సిన అవసరం ఉంది; ముందుగా నిర్ణయించిన సైట్లలో పెట్టెలను ఉంచడం; సిలిండర్ రూపంలో ఒక వస్తువు చుట్టూ ఆశ్రయాన్ని సృష్టించడం.
ఫలితంగా, ఐదు టాస్క్లలో మూడింటిలో, మొదటి నుండి సమస్యలను పరిష్కరించడానికి శిక్షణ పొందిన AI కంటే గేమ్లో ప్రాథమిక శిక్షణ పొందిన బాట్లు వేగంగా నేర్చుకుంటాయి మరియు మెరుగైన ఫలితాలను చూపించాయి. వారు టాస్క్ను పూర్తి చేయడం మరియు ప్రారంభ స్థానానికి తిరిగి రావడం, క్లోజ్డ్ రూమ్లలో బాక్స్లను వరుసగా నిరోధించడం మరియు నిర్దేశిత ప్రాంతాల్లో పెట్టెలను ఉంచడం వంటివి కొంచెం మెరుగ్గా ప్రదర్శించారు, అయితే వస్తువుల సంఖ్యను గుర్తించడంలో మరియు మరొక వస్తువు చుట్టూ కవర్ని సృష్టించడంలో కొంచెం బలహీనంగా పనిచేశారు.
AI కొన్ని నైపుణ్యాలను ఎలా నేర్చుకుంటుంది మరియు గుర్తుంచుకుంటుంది అనే దానిపై పరిశోధకులు మిశ్రమ ఫలితాలను ఆపాదించారు. “గేమ్లో ప్రీ-ట్రైనింగ్ ఉత్తమంగా నిర్వహించే పనులలో గతంలో నేర్చుకున్న నైపుణ్యాలను సుపరిచితమైన పద్ధతిలో తిరిగి ఉపయోగించడం, మొదటి నుండి శిక్షణ పొందిన AI కంటే మెరుగ్గా మిగిలిన పనులను చేయడం కోసం వాటిని వేరే విధంగా ఉపయోగించడం అవసరం అని మేము భావిస్తున్నాము. మరింత కష్టం, ”కృతి యొక్క సహ రచయితలు వ్రాయండి. "ఈ ఫలితం శిక్షణ ద్వారా పొందిన నైపుణ్యాలను ఒక వాతావరణం నుండి మరొక పర్యావరణానికి బదిలీ చేసేటప్పుడు వాటిని సమర్థవంతంగా తిరిగి ఉపయోగించుకునే పద్ధతులను అభివృద్ధి చేయవలసిన అవసరాన్ని హైలైట్ చేస్తుంది."
చేసిన పని నిజంగా ఆకట్టుకుంటుంది, ఎందుకంటే ఈ బోధనా పద్ధతిని ఉపయోగించే అవకాశం ఏదైనా ఆటల పరిమితులకు మించినది. వ్యాధులను నిర్ధారించగల, సంక్లిష్టమైన ప్రోటీన్ అణువుల నిర్మాణాలను అంచనా వేయగల మరియు CT స్కాన్లను విశ్లేషించగల “భౌతిక శాస్త్ర ఆధారిత” మరియు “మానవ-వంటి” ప్రవర్తనతో AIని రూపొందించడంలో వారి పని ఒక ముఖ్యమైన దశ అని పరిశోధకులు అంటున్నారు.
దిగువ వీడియోలో మీరు మొత్తం అభ్యాస ప్రక్రియ ఎలా జరిగిందో, AI జట్టుకృషిని ఎలా నేర్చుకుంది మరియు దాని వ్యూహాలు మరింత చాకచక్యంగా మరియు సంక్లిష్టంగా మారాయి.
మూలం: 3dnews.ru