Ang DeepMind AI nag-master sa team play ug milabaw sa mga tawo sa Quake III

Ang pagkuha sa bandila usa ka yano nga mode sa kompetisyon nga makita sa daghang mga sikat nga shooters. Ang matag team adunay marker nga nahimutang sa base niini, ug ang tumong mao ang pagkuha sa marker sa kaatbang nga team ug malampuson nga madala kini sa iyang kaugalingon. Bisan pa, kung unsa ang dali masabtan sa mga tawo dili kaayo kadali alang sa mga makina. Aron makuha ang bandila, ang mga karakter nga dili magdudula (mga bot) tradisyonal nga giprograma gamit ang heuristics ug yano nga mga algorithm nga naghatag limitado nga kagawasan sa pagpili ug labi ka ubos sa mga tawo. Apan ang artipisyal nga paniktik ug pagkat-on sa makina nagsaad nga hingpit nga usbon kini nga kahimtang.

Π’ artikulo, nga gipatik karong semanaha sa journal Science mga usa ka tuig pagkahuman preprintingon man sa imong blog, Ang mga tigdukiduki gikan sa DeepMind, usa ka subsidiary sa Alphabet nga nakabase sa London, naghulagway sa usa ka sistema nga dili lamang makakat-on sa pagdula sa pagdakop sa bandila sa id Software's Quake III Arena nga mga mapa, apan usab sa pagpalambo sa bug-os nga bag-ong mga estratehiya sa team, sa walay paagi ubos sa usa ka tawo.

Ang DeepMind AI nag-master sa team play ug milabaw sa mga tawo sa Quake III

"Wala’y nagsulti sa AI kung giunsa pagdula kini nga dula, kini ra ang sangputanan - kung gipildi sa AI ang kaatbang niini o dili. Ang katahum sa paggamit niini nga pamaagi mao nga dili nimo mahibal-an kung unsa nga pamatasan ang mogawas kung magbansay ka sa mga ahente, ”miingon si Max Jaderberg, usa ka siyentipiko sa panukiduki sa DeepMind nga nagtrabaho kaniadto sa sistema sa pagkat-on sa makina nga AlphaStar (bag-o pa. nalabwan human team sa mga propesyonal sa StarCraft II). Dugang pa niya nga gipatin-aw nga ang yawe nga pamaagi sa ilang bag-ong trabaho mao, una, gipalig-on ang pagkat-on, nga naggamit usa ka klase nga sistema sa ganti aron maduso ang mga ahente sa software aron makab-ot ang gitakda nga mga katuyoan, ug ang sistema sa ganti nagtrabaho bisan kung ang AI ​​team nakadaog o dili. , apan sa -ikaduha, ang mga ahente gibansay sa mga grupo, nga nagpugos sa AI nga mag-master sa interaksyon sa team gikan sa sinugdanan.

"Gikan sa panan-aw sa panukiduki, kini usa ka kabag-ohan alang sa usa ka algorithmic nga pamaagi nga makapahinam," dugang ni Max. "Ang paagi sa among pagbansay sa among AI nagpakita kung giunsa ang pagsukod ug pagpatuman sa pipila ka mga klasiko nga ideya sa ebolusyon."

Ang DeepMind AI nag-master sa team play ug milabaw sa mga tawo sa Quake III

Gihinganlan nga For The Win (FTW), ang mga ahente sa DeepMind direkta nga nakakat-on gikan sa mga pixel sa screen gamit ang convolutional neural network, usa ka set sa mathematical functions (neurons) nga gihan-ay sa mga layer nga gimodelo sa human visual cortex. Ang nadawat nga datos gipasa ngadto sa duha ka network nga adunay daghang short-term memory (English long short-term memory - LSTM), nga makahimo sa pag-ila sa mga long-term dependencies. Ang usa kanila nagdumala sa datos sa pag-opera nga adunay tulin nga tubag, samtang ang uban hinay nga nagtrabaho aron analisahon ug maghimo mga estratehiya. Ang duha nalangkit sa variational nga panumduman, nga ilang gigamit sa pagtag-an sa mga kausaban sa kalibutan sa dula ug paghimo og mga aksyon pinaagi sa gisundog nga game controller.

Ang DeepMind AI nag-master sa team play ug milabaw sa mga tawo sa Quake III

Sa kinatibuk-an, gibansay sa DeepMind ang 30 nga mga ahente, gihatagan sila usa ka lainlaing mga kauban sa team ug mga kontra nga dulaon, ug random nga gipili nga mga kard sa dula aron mapugngan ang AI nga mahinumdom kanila. Ang matag ahente adunay kaugalingong reward signal, nga nagtugot niini sa paghimo sa kaugalingon nga internal nga mga tumong, sama sa pagdakop sa bandila. Ang matag AI nagtinagsa nga nagdula mga 450 ka libo nga mga dula sa pagdakop sa bandila, nga katumbas sa mga upat ka tuig nga kasinatian sa pagdula.

Ang hingpit nga nabansay nga mga ahente sa FTW nakakat-on sa paggamit sa mga estratehiya nga komon sa bisan unsang mapa, roster sa team, ug gidak-on sa team. Nakat-on sila sa tawhanong kinaiya sama sa pagsunod sa mga kauban sa team, nagkampo sa base sa kaaway, ug pagpanalipod sa ilang base gikan sa mga tig-atake, ug anam-anam nga nawala ang dili kaayo mapuslanon nga mga sumbanan sama sa pagtan-aw pag-ayo sa usa ka kaalyado.

Busa unsa nga mga resulta ang nakab-ot? Sa usa ka torneyo nga 40 ka tawo diin ang mga tawo ug mga ahente random nga nagduwa nga magkauban ug batok sa usag usa, ang mga ahente sa FTW labi nga milabaw sa rate sa kadaugan sa mga magdudula. Ang rating sa Elo sa AI, nga mao ang posibilidad nga makadaog, mao ang 1600, kung itandi sa 1300 alang sa "lig-on" nga mga magdudula sa tawo ug 1050 alang sa "average" nga magdudula sa tawo.

Ang DeepMind AI nag-master sa team play ug milabaw sa mga tawo sa Quake III

Dili kini katingad-an, tungod kay ang katulin sa reaksyon sa AI labi ka taas kaysa sa usa ka tawo, nga naghatag sa kanhi usa ka hinungdanon nga bentaha sa una nga mga eksperimento. Apan bisan kung ang katukma sa mga ahente nakunhuran ug ang oras sa reaksyon nagdugang salamat sa built-in nga 257 millisecond latency, ang AI ​​nakalabaw gihapon sa mga tawo. Ang mga advanced ug kaswal nga mga magdudula nakadaog lamang sa 21% ug 12% sa kinatibuk-ang mga dula, matag usa.

Dugang pa, pagkahuman sa pagmantala sa pagtuon, nakahukom ang mga siyentista nga sulayan ang mga ahente sa hingpit nga mga mapa sa Quake III Arena nga adunay komplikado nga lebel nga arkitektura ug dugang nga mga butang, sama sa Umaabot nga Pagtabok ug Ironwood, diin ang AI nagsugod sa malampuson nga paghagit sa mga tawo sa mga posporo sa pagsulay. . Kung gitan-aw sa mga tigdukiduki ang mga pattern sa pagpaaktibo sa neural network sa mga ahente, nga mao, ang mga gimbuhaton sa mga neuron nga responsable sa pagtino sa output base sa umaabot nga kasayuran, nakit-an nila ang mga pungpong nga nagrepresentar sa mga lawak, ang kahimtang sa mga bandila, ang visibility sa mga kauban sa team ug mga kontra, ug ang presensya o pagkawala sa mga ahente sa base sa kaaway, o nakabase sa team, ug uban pang hinungdanon nga aspeto sa dula. Ang gibansay nga mga ahente adunay mga neuron nga direkta nga nag-encode sa piho nga mga sitwasyon, sama sa dihang ang usa ka bandila gikuha sa usa ka ahente o kung ang usa ka kaalyado nagkupot niini.

"Sa akong hunahuna usa sa mga butang nga tan-awon mao nga kini nga mga grupo sa daghang ahente labi ka kusgan, ug gipakita kana sa among pagtuon," ingon ni Jaderberg. "Mao kana ang among nakat-unan aron mahimo nga labi ka maayo ug labi ka maayo sa miaging pipila ka tuig-kung giunsa pagsulbad ang problema sa pagkat-on sa pagpalig-on." Ug ang gipauswag nga pagbansay nagtrabaho gyud nga maayo. ”

Si Thore Graepel, propesor sa computer science sa University College London ug usa ka DeepMind scientist, nagtuo nga ang ilang trabaho nagpasiugda sa potensyal sa multi-agent nga pagkat-on alang sa kaugmaon sa AI. Mahimo usab kini nga basehan sa panukiduki bahin sa interaksyon sa tawo-makina ug mga sistema nga nagtinabangay sa usag usa o nagtinabangay.

"Gipakita sa among mga resulta nga ang pagkat-on sa multi-agent nga pagpalig-on mahimong malampuson nga maka-master sa usa ka komplikado nga dula hangtod sa punto nga ang mga magdudula sa tawo motuo pa nga ang mga magdudula sa kompyuter makahimo og mas maayo nga mga kauban sa team. Naghatag usab ang pagtuon sa labi ka makapaikag nga lawom nga pag-analisar kung giunsa ang gibansay nga mga ahente molihok ug magtinabangay, ingon ni Grapel. "Ang nakapahinam niini nga mga resulta mao nga kini nga mga ahente nakasabut sa ilang palibot sa una nga tawo, [kana] sama sa usa ka tawo nga magdudula. Aron mahibal-an kung giunsa ang pagdula sa taktika ug pagkooperar sa ilang mga kauban sa team, kini nga mga ahente kinahanglan nga mosalig sa feedback gikan sa mga resulta sa dula, nga wala’y magtutudlo o coach nga nagpakita kanila kung unsa ang buhaton. ”



Source: 3dnews.ru

Idugang sa usa ka comment