Múineann OpenAI obair foirne AI i gcluiche ceilte

Is féidir le cluiche maith sean-nós cheilt agus a lorg a bheith ina thástáil iontach do róbónna hintleachta saorga (AI) chun a léiriú conas a dhéanann siad cinntí agus a n-idirghníomhaíonn siad lena chéile agus le réada éagsúla timpeall orthu.

Ina alt nua, arna fhoilsiú ag taighdeoirí ó OpenAI, eagraíocht neamhbhrabúis taighde hintleachta saorga a bhfuil cáil bainte amach aici bua ar sheaimpíní an domhain sa chluiche ríomhaire Dota 2, déanann eolaithe cur síos ar an gcaoi ar cuireadh oiliúint ar ghníomhairí arna rialú ag hintleachta saorga le bheith níos sofaisticiúla agus iad ag cuardach agus i bhfolach óna chéile i dtimpeallacht fhíorúil. Léirigh torthaí an staidéir go bhfoghlaimíonn foireann de dhá róbónna níos éifeachtaí agus níos tapúla ná aon ghníomhaire aonair gan comhghuaillithe.

Múineann OpenAI obair foirne AI i gcluiche ceilte

Bhain eolaithe úsáid as modh a bhfuil clú agus cáil bainte amach aige le fada an lá meaisínfhoghlama le treisiú, ina gcuirtear intleacht shaorga i dtimpeallacht nach bhfuil aithne uirthi, agus bealaí áirithe ann chun idirghníomhú léi, chomh maith le córas luach saothair agus fíneálacha as toradh amháin nó toradh eile ar a chuid gníomhaíochtaí. Tá an modh seo éifeachtach go leor mar gheall ar chumas AI gníomhartha éagsúla a dhéanamh i dtimpeallacht fhíorúil ar luas ollmhór, na milliúin uair níos tapúla ná mar is féidir le duine a shamhlú. Ligeann sé seo triail agus earráid chun teacht ar na straitéisí is éifeachtaí chun fadhb ar leith a réiteach. Ach tá roinnt teorainneacha ag baint leis an gcur chuige seo freisin, mar shampla, tá gá le hacmhainní ollmhóra ríomhaireachta chun timpeallacht a chruthú agus le timthriallta oiliúna iomadúla a sheoladh, agus éilíonn an próiseas féin córas cruinn chun torthaí gníomhaíochtaí AI a chur i gcomparáid lena sprioc. Ina theannta sin, tá na scileanna a ghnóthaíonn an gníomhaire ar an mbealach seo teoranta don tasc a thuairiscítear agus, a luaithe a fhoghlaimíonn an AI chun dul i ngleic leis, ní bheidh aon feabhsuithe breise ann.

Chun AI a oiliúint chun ceilt a imirt, d’úsáid na heolaithe cur chuige ar a dtugtar “Taiscéalaíocht Neamhdhírithe,” áit a bhfuil saoirse iomlán ag gníomhairí a dtuiscint ar shaol an chluiche a fhorbairt agus straitéisí buaiteacha a fhorbairt. Tá sé seo cosúil leis an gcur chuige foghlama ilghníomhairí a d'úsáid taighdeoirí ag DeepMind nuair a bhí córais iolracha hintleachta saorga Cuireadh oiliúint orthu chun modh ghabháil na brataí i Quake III Arena a imirt. Mar atá sa chás seo, ní raibh na gníomhairí AI oilte roimhe seo i rialacha an chluiche, ach le himeacht ama d'fhoghlaim siad straitéisí bunúsacha agus bhí siad in ann fiú taighdeoirí a iontas le réitigh neamhfhánacha.

I gcluiche ceilte agus cuardaigh, bhí ar roinnt gníomhairí a raibh sé de chúram orthu dul i bhfolach chun líne radhairc a gcéilí comhraic a sheachaint tar éis tús beag a chur leis agus an fhoireann gníomhairí cuardaigh díluailithe. Ina theannta sin, is é an “líne radhairc” sa chomhthéacs seo cón 135 céim os comhair bot aonair. Níorbh fhéidir le gníomhairí dul i bhfiontar ró-fhada lasmuigh den limistéar imeartha agus cuireadh iallach orthu seomraí a ghintear go randamach a nascleanúint leis an gcumas roinnt rudaí seachtracha a úsáid (boscaí, ballaí sochorraithe, rampaí speisialta) scaipthe timpeall orthu a d'fhéadfaí a úsáid chun clúdach a chruthú agus chun insíothlú a dhéanamh iontu. .

Múineann OpenAI obair foirne AI i gcluiche ceilte

Trí phróiseas foghlama fada, d'fhoghlaim na gníomhairí AI sé straitéis uathúla, gach ceann acu chabhraigh leo dul ar aghaidh go dtí an chéad chéim eile den chluiche. Ar dtús, rith na foirne cuardaitheora agus folaithe ar shiúl agus ruaig siad a chéile, ach tar éis thart ar 25 milliún cluiche, d'fhoghlaim an fhoireann folaithigh pasáistí a bhlocáil le boscaí agus scáthláin a thógáil astu. Tar éis 75 milliún cluiche eile, d'aimsigh an fhoireann bealaí chun rampaí a úsáid chun dul isteach sna seithí sin. Tar éis 10 milliún babhta eile, d'fhoghlaim seithí rampaí a tharraingt go dtí imeall an limistéir imeartha agus iad a ghlasáil ina n-áit chun cosc ​​a chur ar na comhraic iad a úsáid.

Múineann OpenAI obair foirne AI i gcluiche ceilte

Tar éis 388 milliún cluiche, tá lucht iarrtha tar éis foghlaim conas rampaí bactha a úsáid chun dreapadh ar chliabháin a thugtar chucu, agus ansin, ag bogadh go díreach orthu, dul isteach i bhfolacháin namhaid a cruthaíodh ó bhallaí iniompartha. Agus ar deireadh, tar éis 458 milliún cluiche, tháinig an fhoireann folaithe ar an gconclúid go gcaithfeadh siad gach réad a bhlocáil agus ansin fothain a thógáil, rud a d'fhág go raibh an bua deiridh acu de réir dealraimh.

Is é an rud is suntasaí go háirithe, tar éis 22 milliún cluiche, gur fhoghlaim na gníomhairí a gcuid gníomhaíochtaí a chomhordú agus níor tháinig méadú ar éifeachtúlacht a gcomhoibrithe ach sa todhchaí, mar shampla, thug gach duine a mbosca nó a bhalla féin chun foscadh a chruthú agus roghnaigh siad a sciar de rudaí chun bloc chun é a dhéanamh cluiche níos deacra do opponents.

Múineann OpenAI obair foirne AI i gcluiche ceilte

Eolaithe faoi deara freisin pointe tábhachtach a bhaineann leis an tionchar a imirt ar líon na n-ábhar oiliúna (méid na sonraí a ritheadh ​​tríd an líonra neural - "Méid Baisc") ar an luas foghlama. Theastaigh ón tsamhail réamhshocraithe 132,3 milliún cluiche thar 34 uair an chloig oiliúna chun an pointe a bhaint amach inar fhoghlaim an fhoireann cheilt rampaí a bhlocáil, agus bhí laghdú suntasach ar an am traenála mar thoradh ar shonraí breise. Mar shampla, mhéadaigh líon na bparaiméadar (cuid de na sonraí a fuarthas le linn an phróisis oiliúna iomlán) ó 0,5 milliún go 5,8 milliún an éifeachtúlacht samplála 2,2 uair, agus mhéadaigh méid na sonraí ionchuir ó 64 KB go 128 KB oiliúna laghdaithe. am beagnach uair go leith.

Múineann OpenAI obair foirne AI i gcluiche ceilte

Ag deireadh a gcuid oibre, chinn na taighdeoirí a thástáil cé mhéad oiliúint in-chluiche a d'fhéadfadh cabhrú le gníomhairí dul i ngleic le tascanna den chineál céanna lasmuigh den chluiche. Bhí cúig thástáil san iomlán: feasacht ar líon na réad (a thuiscint go leanann réad de bheith ann fiú má tá sé as radharc agus nach n-úsáidtear é); “glasáil agus filleadh” - an cumas cuimhneamh ar a suíomh bunaidh agus filleadh air tar éis tasc éigin breise a dhéanamh; “blocáil sheicheamhach” - bhí 4 bhosca lonnaithe go randamach i dtrí sheomra gan doirse, ach le rampaí chun dul isteach, b'éigean do ghníomhairí iad go léir a aimsiú agus a bhlocáil; boscaí a chur ar shuíomhanna réamhshocraithe; ag cruthú foscadh timpeall ruda i bhfoirm sorcóra.

Mar thoradh air sin, i dtrí as gach cúig thasc, d'fhoghlaim róbónna a ndearnadh réamhoiliúint orthu sa chluiche níos tapúla agus léirigh siad torthaí níos fearr ná AI a bhí oilte chun fadhbanna a réiteach ón tús. D’fheidhmigh siad beagán níos fearr maidir leis an tasc a chríochnú agus filleadh ar an suíomh tosaigh, boscaí a bhlocáil go seicheamhach i seomraí dúnta, agus boscaí a chur in áiteanna áirithe, ach d’fheidhmigh siad beagán níos laige maidir le líon na n-ábhar a aithint agus clúdach a chruthú timpeall réad eile.

Cuireann taighdeoirí torthaí measctha i leith an chaoi a bhfoghlaimíonn agus a chuimhníonn AI scileanna áirithe. “Is dóigh linn gurb é ab fhearr a bhain leis na tascanna inar fheidhmigh réamhoiliúint in-chluiche ná scileanna a foghlaimíodh roimhe seo a athúsáid ar bhealach aithnidiúil, agus na tascanna eile a bhí fágtha á gcomhlíonadh níos fearr ná an AI oilte ón tús go mbeadh gá leo iad a úsáid ar bhealach difriúil, rud i bhfad. níos casta,” a scríobh comh-údair an tsaothair. “Léiríonn an toradh seo an gá atá le modhanna a fhorbairt chun scileanna a fuarthas trí oiliúint a athúsáid go héifeachtach agus iad á n-aistriú ó thimpeallacht amháin go timpeallacht eile.”

Is iontach an obair a dhéantar, ós rud é go bhfuil an t-ionchas go n-úsáidfear an modh múinte seo i bhfad níos faide ná teorainneacha aon chluiche. Deir na taighdeoirí gur céim shuntasach í a gcuid oibre i dtreo AI a chruthú le hiompraíocht “bunaithe ar an bhfisic” agus “cosúil le daoine” ar féidir leo galair a dhiagnóiseadh, struchtúir na móilíní casta próitéine a thuar agus anailís a dhéanamh ar scananna CT.

Sa físeán thíos is féidir leat a fheiceáil go soiléir conas a tharla an próiseas foghlama ar fad, conas a d'fhoghlaim AI obair foirne, agus a straitéisí a bheith níos mó agus níos cunning agus casta.



Foinse: 3dnews.ru

Add a comment