OpenAI దాచిపెట్టు మరియు శోధన ఆటలో AI జట్టుకృషిని బోధిస్తుంది

ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (AI) బాట్‌లు ఎలా నిర్ణయాలు తీసుకుంటాయో మరియు ఒకదానితో ఒకటి మరియు వాటి చుట్టూ ఉన్న వివిధ వస్తువులతో ఎలా సంభాషించాలో ప్రదర్శించడానికి మంచి పాత-కాలపు దాగి మరియు వెతకడం గేమ్ గొప్ప పరీక్ష.

ఆయన లో కొత్త వ్యాసం, ప్రసిద్ధి చెందిన లాభాపేక్షలేని కృత్రిమ మేధస్సు పరిశోధన సంస్థ OpenAI నుండి పరిశోధకులు ప్రచురించారు ప్రపంచ ఛాంపియన్లపై విజయం కంప్యూటర్ గేమ్ డోటా 2లో, కృత్రిమ మేధస్సు ద్వారా నియంత్రించబడే ఏజెంట్లు వర్చువల్ వాతావరణంలో ఒకరినొకరు శోధించడం మరియు దాచుకోవడంలో మరింత అధునాతనంగా ఎలా శిక్షణ పొందారో శాస్త్రవేత్తలు వివరిస్తారు. మిత్రపక్షాలు లేకుండా ఏ ఒక్క ఏజెంట్ కంటే రెండు బాట్‌ల బృందం మరింత సమర్థవంతంగా మరియు వేగంగా నేర్చుకుంటుంది అని అధ్యయన ఫలితాలు నిరూపించాయి.

OpenAI దాచిపెట్టు మరియు శోధన ఆటలో AI జట్టుకృషిని బోధిస్తుంది

శాస్త్రవేత్తలు సుదీర్ఘకాలం దాని కీర్తిని గెలుచుకున్న ఒక పద్ధతిని ఉపయోగించారు ఉపబలంతో యంత్ర అభ్యాసం, దీనిలో కృత్రిమ మేధస్సు అనేది తెలియని వాతావరణంలో ఉంచబడుతుంది, దానితో పరస్పర చర్య చేయడానికి కొన్ని మార్గాలు ఉన్నాయి, అలాగే దాని చర్యల యొక్క ఒకటి లేదా మరొక ఫలితం కోసం బహుమతులు మరియు జరిమానాల వ్యవస్థ. ఒక వ్యక్తి ఊహించిన దానికంటే మిలియన్ల రెట్లు వేగంగా, అపారమైన వేగంతో వర్చువల్ వాతావరణంలో వివిధ చర్యలను AI చేయగల సామర్థ్యం కారణంగా ఈ పద్ధతి చాలా ప్రభావవంతంగా ఉంటుంది. ఇది ఇచ్చిన సమస్యను పరిష్కరించడానికి అత్యంత ప్రభావవంతమైన వ్యూహాలను కనుగొనడానికి ట్రయల్ మరియు ఎర్రర్‌ను అనుమతిస్తుంది. కానీ ఈ విధానానికి కొన్ని పరిమితులు కూడా ఉన్నాయి, ఉదాహరణకు, పర్యావరణాన్ని సృష్టించడం మరియు అనేక శిక్షణా చక్రాలను నిర్వహించడం కోసం భారీ కంప్యూటింగ్ వనరులు అవసరం, మరియు ప్రక్రియకు AI చర్యల ఫలితాలను దాని లక్ష్యంతో పోల్చడానికి ఖచ్చితమైన వ్యవస్థ అవసరం. అదనంగా, ఈ విధంగా ఏజెంట్ సంపాదించిన నైపుణ్యాలు వివరించిన పనికి పరిమితం చేయబడ్డాయి మరియు AI దానిని ఎదుర్కోవటానికి నేర్చుకున్న తర్వాత, తదుపరి మెరుగుదలలు ఉండవు.

దాగుడు మూతలు ఆడేందుకు AIకి శిక్షణ ఇవ్వడానికి, శాస్త్రవేత్తలు "అన్‌డైరెక్ట్‌డ్ ఎక్స్‌ప్లోరేషన్" అనే విధానాన్ని ఉపయోగించారు, ఇక్కడ గేమ్ ప్రపంచంపై తమ అవగాహనను పెంపొందించుకోవడానికి మరియు విజేత వ్యూహాలను అభివృద్ధి చేయడానికి ఏజెంట్‌లకు పూర్తి స్వేచ్ఛ ఉంటుంది. ఇది బహుళ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ సిస్టమ్స్‌లో డీప్‌మైండ్‌లోని పరిశోధకులు ఉపయోగించే మల్టీ-ఏజెంట్ లెర్నింగ్ విధానాన్ని పోలి ఉంటుంది. క్వాక్ III అరేనాలో ఫ్లాగ్ మోడ్‌ను క్యాప్చర్ చేయడానికి శిక్షణ పొందారు. ఈ సందర్భంలో వలె, AI ఏజెంట్లు గతంలో ఆట నియమాలలో శిక్షణ పొందలేదు, కానీ కాలక్రమేణా వారు ప్రాథమిక వ్యూహాలను నేర్చుకున్నారు మరియు చిన్నవిషయం కాని పరిష్కారాలతో పరిశోధకులను ఆశ్చర్యపరిచారు.

దాచిపెట్టు మరియు వెతకడం యొక్క గేమ్‌లో, చాలా మంది ఏజెంట్‌లు తమ ప్రత్యర్థుల దృష్టిని తప్పించుకోవలసి ఉంటుంది, అయితే శోధించే ఏజెంట్‌ల బృందం కదలకుండా ఉంటుంది. అంతేకాకుండా, ఈ సందర్భంలో "దృష్టి రేఖ" అనేది వ్యక్తిగత బోట్ ముందు 135 డిగ్రీల కోన్. ఏజెంట్‌లు ఆట స్థలం వెలుపల చాలా దూరం వెళ్లలేరు మరియు చుట్టుపక్కల కొన్ని బాహ్య వస్తువులను (పెట్టెలు, కదిలే గోడలు, ప్రత్యేక ర్యాంప్‌లు) ఉపయోగించగల సామర్థ్యంతో యాదృచ్ఛికంగా రూపొందించబడిన గదులను నావిగేట్ చేయవలసి వచ్చింది, వాటి చుట్టూ కవర్‌ను సృష్టించడానికి మరియు వాటిలోకి చొరబడేందుకు ఉపయోగించవచ్చు. .

OpenAI దాచిపెట్టు మరియు శోధన ఆటలో AI జట్టుకృషిని బోధిస్తుంది

సుదీర్ఘమైన అభ్యాస ప్రక్రియ ద్వారా, AI ఏజెంట్లు ఆరు ప్రత్యేకమైన వ్యూహాలను నేర్చుకున్నారు, వీటిలో ప్రతి ఒక్కటి ఆట యొక్క తదుపరి దశకు చేరుకోవడంలో వారికి సహాయపడింది. మొదట, అన్వేషకుడు మరియు దాచిన జట్లు పారిపోయి ఒకరినొకరు వెంబడించాయి, కానీ దాదాపు 25 మిలియన్ మ్యాచ్‌ల తర్వాత, దాచిన బృందం బాక్సులతో మార్గాలను నిరోధించడం మరియు వాటి నుండి ఆశ్రయాలను నిర్మించడం నేర్చుకుంది. మరో 75 మిలియన్ మ్యాచ్‌ల తర్వాత, ఈ రహస్య ప్రదేశాల్లోకి ప్రవేశించడానికి ర్యాంప్‌లను ఉపయోగించే మార్గాలను బృందం కనుగొంది. మరో 10 మిలియన్ రౌండ్‌ల తర్వాత, ప్రత్యర్థులు వాటిని ఉపయోగించకుండా నిరోధించడానికి ర్యాంప్‌లను ప్లే చేసే ప్రదేశం అంచుకు లాగడం మరియు వాటిని లాక్ చేయడం నేర్చుకున్నారు.

OpenAI దాచిపెట్టు మరియు శోధన ఆటలో AI జట్టుకృషిని బోధిస్తుంది

388 మిలియన్ మ్యాచ్‌ల తర్వాత, అన్వేషకులు తమ వద్దకు తీసుకువచ్చిన డబ్బాలపైకి ఎక్కడానికి నిరోధించబడిన ర్యాంప్‌లను ఉపయోగించడం నేర్చుకున్నారు, ఆపై, నేరుగా వాటిపైకి వెళ్లి, పోర్టబుల్ గోడల నుండి సృష్టించబడిన శత్రువుల రహస్య స్థావరాలను చొచ్చుకుపోతారు. చివరకు, 458 మిలియన్ మ్యాచ్‌ల తర్వాత, దాచిన బృందం వారు అన్ని వస్తువులను నిరోధించి, ఆపై ఒక ఆశ్రయాన్ని నిర్మించాల్సిన అవసరం ఉందని నిర్ధారించారు, ఇది వారి చివరి విజయానికి దారితీసింది.

ముఖ్యంగా ఆకట్టుకునే విషయం ఏమిటంటే, 22 మిలియన్ మ్యాచ్‌ల తర్వాత, ఏజెంట్లు తమ చర్యలను సమన్వయం చేసుకోవడం నేర్చుకున్నారు మరియు వారి సహకారం యొక్క సామర్థ్యం భవిష్యత్తులో మాత్రమే పెరిగింది, ఉదాహరణకు, ప్రతి ఒక్కరూ తన సొంత పెట్టె లేదా గోడను తీసుకువచ్చి ఆశ్రయాన్ని సృష్టించి, వస్తువులను ఎంచుకున్నారు. నిరోధించు, ప్రత్యర్థులకు కష్టమైన ఆటను క్లిష్టతరం చేయడానికి.

OpenAI దాచిపెట్టు మరియు శోధన ఆటలో AI జట్టుకృషిని బోధిస్తుంది

అభ్యాస వేగంపై శిక్షణా వస్తువుల సంఖ్య (న్యూరల్ నెట్‌వర్క్ ద్వారా పంపబడిన డేటా మొత్తం - “బ్యాచ్ సైజు”) ప్రభావానికి సంబంధించిన ఒక ముఖ్యమైన విషయాన్ని కూడా శాస్త్రవేత్తలు గుర్తించారు. డిఫాల్ట్ మోడల్‌కు 132,3 గంటల శిక్షణలో 34 మిలియన్ మ్యాచ్‌లు అవసరమవుతాయి, అయితే దాచే బృందం ర్యాంప్‌లను నిరోధించడం నేర్చుకున్న స్థానానికి చేరుకుంది, అయితే మరింత డేటా ఫలితంగా శిక్షణ సమయం గణనీయంగా తగ్గింది. ఉదాహరణకు, పారామితుల సంఖ్యను (మొత్తం శిక్షణ ప్రక్రియలో పొందిన డేటాలో కొంత భాగం) 0,5 మిలియన్ నుండి 5,8 మిలియన్లకు పెంచడం నమూనా సామర్థ్యాన్ని 2,2 రెట్లు పెంచింది మరియు ఇన్‌పుట్ డేటా పరిమాణాన్ని 64 KB నుండి 128 KBకి పెంచడం వల్ల శిక్షణ తగ్గింది. సమయం దాదాపు ఒకటిన్నర సార్లు.

OpenAI దాచిపెట్టు మరియు శోధన ఆటలో AI జట్టుకృషిని బోధిస్తుంది

వారి పని ముగిసే సమయానికి, గేమ్ వెలుపల సారూప్య పనులను ఎదుర్కోవటానికి ఏజెంట్లకు ఆటలో శిక్షణ ఎంతవరకు సహాయపడుతుందో పరీక్షించాలని పరిశోధకులు నిర్ణయించుకున్నారు. మొత్తం ఐదు పరీక్షలు ఉన్నాయి: వస్తువుల సంఖ్యపై అవగాహన (ఒక వస్తువు కనిపించకుండా పోయినా మరియు ఉపయోగించకపోయినా ఉనికిలో కొనసాగుతుందని అర్థం చేసుకోవడం); “లాక్ అండ్ రిటర్న్” - ఒకరి అసలు స్థానాన్ని గుర్తుంచుకోగల సామర్థ్యం మరియు కొన్ని అదనపు పనిని పూర్తి చేసిన తర్వాత దానికి తిరిగి రావడం; “సీక్వెన్షియల్ బ్లాకింగ్” - 4 పెట్టెలు యాదృచ్ఛికంగా మూడు గదులలో తలుపులు లేకుండా ఉన్నాయి, కానీ లోపలికి వెళ్లడానికి ర్యాంప్‌లతో, ఏజెంట్లు వాటన్నింటినీ కనుగొని నిరోధించాల్సిన అవసరం ఉంది; ముందుగా నిర్ణయించిన సైట్లలో పెట్టెలను ఉంచడం; సిలిండర్ రూపంలో ఒక వస్తువు చుట్టూ ఆశ్రయాన్ని సృష్టించడం.

ఫలితంగా, ఐదు టాస్క్‌లలో మూడింటిలో, మొదటి నుండి సమస్యలను పరిష్కరించడానికి శిక్షణ పొందిన AI కంటే గేమ్‌లో ప్రాథమిక శిక్షణ పొందిన బాట్‌లు వేగంగా నేర్చుకుంటాయి మరియు మెరుగైన ఫలితాలను చూపించాయి. వారు టాస్క్‌ను పూర్తి చేయడం మరియు ప్రారంభ స్థానానికి తిరిగి రావడం, క్లోజ్డ్ రూమ్‌లలో బాక్స్‌లను వరుసగా నిరోధించడం మరియు నిర్దేశిత ప్రాంతాల్లో పెట్టెలను ఉంచడం వంటివి కొంచెం మెరుగ్గా ప్రదర్శించారు, అయితే వస్తువుల సంఖ్యను గుర్తించడంలో మరియు మరొక వస్తువు చుట్టూ కవర్‌ని సృష్టించడంలో కొంచెం బలహీనంగా పనిచేశారు.

AI కొన్ని నైపుణ్యాలను ఎలా నేర్చుకుంటుంది మరియు గుర్తుంచుకుంటుంది అనే దానిపై పరిశోధకులు మిశ్రమ ఫలితాలను ఆపాదించారు. “గేమ్‌లో ప్రీ-ట్రైనింగ్ ఉత్తమంగా నిర్వహించే పనులలో గతంలో నేర్చుకున్న నైపుణ్యాలను సుపరిచితమైన పద్ధతిలో తిరిగి ఉపయోగించడం, మొదటి నుండి శిక్షణ పొందిన AI కంటే మెరుగ్గా మిగిలిన పనులను చేయడం కోసం వాటిని వేరే విధంగా ఉపయోగించడం అవసరం అని మేము భావిస్తున్నాము. మరింత కష్టం, ”కృతి యొక్క సహ రచయితలు వ్రాయండి. "ఈ ఫలితం శిక్షణ ద్వారా పొందిన నైపుణ్యాలను ఒక వాతావరణం నుండి మరొక పర్యావరణానికి బదిలీ చేసేటప్పుడు వాటిని సమర్థవంతంగా తిరిగి ఉపయోగించుకునే పద్ధతులను అభివృద్ధి చేయవలసిన అవసరాన్ని హైలైట్ చేస్తుంది."

చేసిన పని నిజంగా ఆకట్టుకుంటుంది, ఎందుకంటే ఈ బోధనా పద్ధతిని ఉపయోగించే అవకాశం ఏదైనా ఆటల పరిమితులకు మించినది. వ్యాధులను నిర్ధారించగల, సంక్లిష్టమైన ప్రోటీన్ అణువుల నిర్మాణాలను అంచనా వేయగల మరియు CT స్కాన్‌లను విశ్లేషించగల “భౌతిక శాస్త్ర ఆధారిత” మరియు “మానవ-వంటి” ప్రవర్తనతో AIని రూపొందించడంలో వారి పని ఒక ముఖ్యమైన దశ అని పరిశోధకులు అంటున్నారు.

దిగువ వీడియోలో మీరు మొత్తం అభ్యాస ప్రక్రియ ఎలా జరిగిందో, AI జట్టుకృషిని ఎలా నేర్చుకుంది మరియు దాని వ్యూహాలు మరింత చాకచక్యంగా మరియు సంక్లిష్టంగా మారాయి.



మూలం: 3dnews.ru

ఒక వ్యాఖ్యను జోడించండి