OpenAI Ôpetab AI meeskonnatööd peitusemÀngus

Hea vanamoodne peitusemĂ€ng vĂ”ib olla tehisintellekti (AI) robotitele suurepĂ€raseks proovikiviks, et demonstreerida, kuidas nad otsuseid langetavad ning ĂŒksteise ja erinevate ĂŒmbritsevate objektidega suhtlevad.

oma uus artikkel, mille avaldasid kuulsaks saanud mittetulundusliku tehisintellekti uurimisorganisatsiooni OpenAI teadlased vĂ”it maailmameistrite ĂŒle arvutimĂ€ngus Dota 2 kirjeldavad teadlased, kuidas tehisintellekti juhitud agente treeniti virtuaalses keskkonnas ĂŒksteise eest otsides ja peitudes keerukamaks. Uuringu tulemused nĂ€itasid, et kahest robotist koosnev meeskond Ă”pib tĂ”husamalt ja kiiremini kui ĂŒkski liitlasteta agent.

OpenAI Ôpetab AI meeskonnatööd peitusemÀngus

Teadlased on kasutanud meetodit, mis on juba ammu oma kuulsuse vĂ”itnud masinĂ”pe koos tugevdusega, milles tehisintellekt on paigutatud talle tundmatusse keskkonda, omades samal ajal teatud viise sellega suhtlemiseks, samuti preemiate ja trahvide sĂŒsteem oma tegevuse ĂŒhe vĂ”i teise tulemuse eest. See meetod on ĂŒsna tĂ”hus tĂ€nu tehisintellekti vĂ”imele sooritada erinevaid toiminguid virtuaalses keskkonnas tohutu kiirusega, miljoneid kordi kiiremini, kui inimene ette kujutab. See vĂ”imaldab katse-eksituse meetodil leida antud probleemi lahendamiseks kĂ”ige tĂ”husamad strateegiad. Kuid sellel lĂ€henemisel on ka mĂ”ningaid piiranguid, nĂ€iteks keskkonna loomine ja arvukate treeningtsĂŒklite lĂ€biviimine nĂ”uab tohutuid arvutusressursse ning protsess ise nĂ”uab tĂ€pset sĂŒsteemi AI toimingute tulemuste vĂ”rdlemiseks eesmĂ€rgiga. Lisaks piirduvad agendi sellisel viisil omandatud oskused kirjeldatud ĂŒlesandega ja kui tehisintellekt Ă”pib sellega toime tulema, ei toimu enam edasisi parandusi.

Tehisintellekti Ă”petamiseks peitust mĂ€ngima kasutasid teadlased lĂ€henemisviisi, mida nimetatakse suunamata uurimiseks, mis tĂ€hendab, et agentidel on tĂ€ielik vabadus arendada oma arusaama mĂ€ngumaailmast ja töötada vĂ€lja vĂ”idustrateegiaid. See sarnaneb mitme agentuuriga Ă”ppimise lĂ€henemisviisiga, mida DeepMindi teadlased kasutasid mitme tehisintellekti sĂŒsteemi puhul koolitati Quake III Arenal lipu pĂŒĂŒdmise reĆŸiimi mĂ€ngima. Nagu antud juhul, ei olnud AI-agendid varem mĂ€ngureeglite osas koolitatud, kuid aja jooksul Ă”ppisid nad pĂ”histrateegiaid ja suutsid teadlasi ĂŒllatada isegi mittetriviaalsete lahendustega.

PeitusemĂ€ngus pidid mitmed agenti, kelle ĂŒlesanne oli varjata, vĂ€ltima vastaste vaatevĂ€lja pĂ€rast kerget eduseisu, kui otsivate agentide meeskond oli liikumatuks jÀÀnud. Veelgi enam, "vaatejoon" on selles kontekstis 135-kraadine koonus ĂŒksiku roboti ees. Agendid ei saanud mĂ€ngualast liiga kaugele vĂ€lja seigelda ja olid sunnitud liikuma juhuslikult loodud ruumides, kus oli vĂ”imalik kasutada laiali hajutatud vĂ€liseid objekte (kastid, teisaldatavad seinad, spetsiaalsed kaldteed), mida saaks kasutada nii katte loomiseks kui ka nendesse imbumiseks. .

OpenAI Ôpetab AI meeskonnatööd peitusemÀngus

Pika Ă”ppeprotsessi kĂ€igus Ă”ppisid AI-agendid kuus ainulaadset strateegiat, millest igaĂŒks aitas neil mĂ€ngu jĂ€rgmisse etappi jĂ”uda. Algul otsijad ja peitjameeskonnad lihtsalt jooksid minema ja ajasid ĂŒksteist taga, kuid umbes 25 miljoni matĆĄi jĂ€rel Ă”ppis peitjameeskond kastidega lĂ€bipÀÀsud blokeerima ja nendest varjualuseid ehitama. PĂ€rast veel 75 miljonit matĆĄi avastas meeskond viise, kuidas nendesse peidupaikadesse pÀÀsemiseks kasutada kaldteid. Veel 10 miljoni ringi jĂ€rel Ă”ppisid peitjad kaldteed mĂ€nguala servale lohistama ja oma kohale lukustama, et vastased ei saaks neid kasutada.

OpenAI Ôpetab AI meeskonnatööd peitusemÀngus

PÀrast 388 miljonit matƥi on otsijad Ôppinud kasutama blokeeritud kaldteid, et ronida neile toodud kastidele ja seejÀrel otse neile liikudes tungida kaasaskantavatest seintest loodud vaenlase peidupaikadesse. Ja lÔpuks, pÀrast 458 miljonit matƥi, jÔudis peidumeeskond jÀreldusele, et nad peavad blokeerima kÔik objektid ja seejÀrel ehitama varjualuse, mis ilmselt viis nende lÔpliku vÔiduni.

Eriti muljetavaldav on see, et pĂ€rast 22 miljonit matĆĄi Ă”ppisid agendid oma tegevust koordineerima ja nende koostöö tĂ”husus ainult kasvas tulevikus, nĂ€iteks tĂ”i igaĂŒks oma kasti vĂ”i seina varjualuse loomiseks ja valis oma osa esemeid. blokeerida, et muuta see vastaste jaoks keerulisemaks.

OpenAI Ôpetab AI meeskonnatööd peitusemÀngus

Teadlased mÀrkisid ka olulise punkti, mis on seotud koolitusobjektide arvu (nÀrvivÔrgu kaudu edastatud andmete hulk - "Partii suurus") mÔjuga Ôppimiskiirusele. Vaikimisi mudel nÔudis 132,3 miljonit matƥi 34-tunnise treeningu jooksul, et jÔuda punktini, kus varjav meeskond Ôppis rampe blokeerima, samas kui rohkem andmeid vÀhendas treeningu aega mÀrgatavalt. NÀiteks parameetrite (osa kogu treeningprotsessi jooksul saadud andmetest) arvu suurendamine 0,5 miljonilt 5,8 miljonile suurendas diskreetimisefektiivsust 2,2 korda ning sisendandmete suuruse suurendamine 64 KB-lt 128 KB-le vÀhendas treeningut. aega peaaegu poolteist korda.

OpenAI Ôpetab AI meeskonnatööd peitusemÀngus

Oma töö lĂ”pus otsustasid teadlased katsetada, kui palju mĂ€ngusisest koolitust vĂ”iks aidata agentidel tulla toime sarnaste ĂŒlesannetega vĂ€ljaspool mĂ€ngu. Teste oli kokku viis: objektide arvu teadvustamine (mĂ”istmine, et objekt eksisteerib edasi ka siis, kui see on vaatevĂ€ljast Ă€ra ja seda ei kasutata); "Lukusta ja tagasi" - vĂ”imalus oma algset asukohta meeles pidada ja pĂ€rast mĂ”ne lisaĂŒlesande tĂ€itmist selle juurde naasta; "jĂ€rjestikune blokeerimine" - 4 kasti paiknesid juhuslikult kolmes usteta ruumis, kuid sissepÀÀsuks olid kaldteed, agentidel oli vaja need kĂ”ik ĂŒles leida ja blokeerida; kastide paigutamine etteantud kohtadele; silindri kujul oleva objekti ĂŒmber varjualuse loomine.

Selle tulemusel Ă”ppisid mĂ€ngus eelkoolituse lĂ€binud robotid kolmes ĂŒlesandes viiest kiiremini ja nĂ€itasid paremaid tulemusi kui AI, mis koolitati probleeme nullist lahendama. Nad said veidi paremini hakkama ĂŒlesande tĂ€itmisel ja lĂ€hteasendisse naasmisel, kastide jĂ€rjestikusel blokeerimisel suletud ruumides ja kastide paigutamisel etteantud aladele, kuid objektide arvu tuvastamisel ja teise objekti ĂŒmber katte loomisel Ă”nnestus neil veidi nĂ”rgem olla.

Teadlased omistavad erinevaid tulemusi sellele, kuidas tehisintellekt teatud oskusi Ă”pib ja mĂ€letab. "Arvame, et ĂŒlesanded, kus mĂ€ngusisene eeltreening toimis kĂ”ige paremini, hĂ”lmasid varem Ă”pitud oskuste taaskasutamist tuttaval viisil, samas kui ĂŒlejÀÀnud ĂŒlesannete tĂ€itmine nullist treenitud tehisintellektist paremini eeldaks nende teistsugust kasutamist, mis raskem,” kirjutavad teose kaasautorid. "See tulemus rĂ”hutab vajadust töötada vĂ€lja meetodid koolituse kĂ€igus omandatud oskuste tĂ”husaks taaskasutamiseks nende ĂŒhest keskkonnast teise ĂŒlekandmisel."

Tehtud töö on tĂ”eliselt muljetavaldav, kuna selle Ă”petamismeetodi kasutamise vĂ”imalus on kaugel kĂ”igist mĂ€ngudest. Teadlaste sĂ”nul on nende töö mĂ€rkimisvÀÀrne samm "fĂŒĂŒsikal pĂ”hineva" ja "inimeselaadse" kĂ€itumisega tehisintellekti loomisel, mis suudab diagnoosida haigusi, ennustada keeruliste valgumolekulide struktuure ja analĂŒĂŒsida CT-skaneeringuid.

Allolevast videost on selgelt nÀha, kuidas kogu Ôppeprotsess toimus, kuidas tehisintellekt meeskonnatööd Ôppis ning selle strateegiad muutusid jÀrjest kavalamaks ja keerukamaks.

Esita video



Allikas: 3dnews.ru
Ostke DDoS-kaitsega saitide jaoks usaldusvÀÀrne hostimine, VPS VDS-serverid đŸ”„ Osta usaldusvÀÀrne veebimajutus DDoS-kaitsega, VPS VDS serverid | ProHoster