DeepMind AI Masters Team Play and Outperforms Humans in Quake III

Nangkep bandéra mangrupikeun mode kalapa anu saderhana anu aya dina seueur panémbak anu populér. Tiap tim boga spidol lokasina di dasarna, sarta tujuanana pikeun nangkep spidol tim lawan sarta hasil mawa eta sorangan. Sanajan kitu, naon gampang pikeun manusa ngartos teu jadi gampang pikeun mesin. Pikeun nangkep bandéra, karakter non-pamuter (bot) sacara tradisional diprogram nganggo heuristik sareng algoritma saderhana anu nyayogikeun kabébasan pilihan anu terbatas sareng langkung handap tina manusa. Tapi intelijen buatan sareng pembelajaran mesin janji bakal ngarobih kaayaan ieu.

В artikel, diterbitkeun minggu ieu dina jurnal Élmu ngeunaan sataun sanggeus préprintogé blog anjeun, Panaliti ti DeepMind, cabangna Alphabet di London, ngajelaskeun sistem anu henteu ngan ukur tiasa diajar maén néwak bandéra dina peta Gempa III Arena id Software, tapi ogé ngembangkeun strategi tim anu énggal, henteu langkung handap tina manusa.

DeepMind AI Masters Team Play and Outperforms Humans in Quake III

"Teu aya anu nyarioskeun ka AI kumaha maén game ieu, éta ngan ukur hasilna - naha AI ngéléhkeun lawanna atanapi henteu. Kaéndahan ngagunakeun pendekatan ieu nyaéta yén anjeun henteu kantos terang kabiasaan naon anu bakal muncul nalika anjeun ngalatih agén, ”saur Max Jaderberg, élmuwan panaliti di DeepMind anu saacanna ngerjakeun sistem pembelajaran mesin AlphaStar (nu leuwih anyar). ngaleuleungitan tim manusa profésional di StarCraft II). Anjeunna salajengna ngajelaskeun yén métode konci karya anyar maranéhanana nyaéta, firstly, bertulang learning, nu ngagunakeun jenis sistem ganjaran pikeun nyorong agén software pikeun ngahontal tujuan set, sarta sistem ganjaran digawé paduli naha tim AI meunang atawa henteu. , tapi di -kadua, agén dilatih dina grup, anu maksa AI ​​ngawasaan interaksi tim ti mimiti.

"Ti sudut pandang panalungtikan, ieu téh novelty pikeun pendekatan algorithmic nu bener seru," tambah Max. "Cara urang ngalatih AI kami nunjukkeun kumaha cara skala sareng nerapkeun sababaraha ide évolusionér klasik."

DeepMind AI Masters Team Play and Outperforms Humans in Quake III

Provokatif dingaranan For The Win (FTW), agén DeepMind diajar langsung tina piksel layar nganggo jaringan saraf convolutional, sakumpulan fungsi matematika (neuron) anu disusun dina lapisan anu dimodelkeun saatos korteks visual manusa. Data anu ditampi dikirimkeun ka dua jaringan sareng sababaraha mémori jangka pondok (Inggris mémori jangka pondok panjang - LSTM), sanggup mikawanoh katergantungan jangka panjang. Salah sahijina ngokolakeun data operasional kalayan laju réspon anu gancang, sedengkeun anu sanésna dianggo lalaunan pikeun nganalisis sareng ngarumuskeun strategi. Duanana pakait sareng memori variasi, nu aranjeunna nganggo babarengan pikeun ngaduga parobahan dina dunya kaulinan sarta ngalakukeun tindakan ngaliwatan controller kaulinan emulated.

DeepMind AI Masters Team Play and Outperforms Humans in Quake III

Dina total, DeepMind ngalatih 30 agén, masihan aranjeunna sajumlah rekan sareng lawan pikeun dimaénkeun, sareng kartu kaulinan anu dipilih sacara acak pikeun nyegah AI tina nginget aranjeunna. Masing-masing agén ngagaduhan sinyal ganjaran sorangan, ngamungkinkeun éta nyiptakeun tujuan internal sorangan, sapertos nangkep bandéra. Unggal AI masing-masing maén ngeunaan 450 rébu kaulinan pikeun newak bandéra, anu sami sareng pangalaman kaulinan ngeunaan opat taun.

Agén FTW anu dilatih sapinuhna parantos diajar nerapkeun strategi anu umum pikeun peta, daptar tim, sareng ukuran tim. Aranjeunna diajar paripolah manusa sapertos nuturkeun batur sapagawean, kémping di pangkalan musuh, sareng ngabela pangkalanna tina panyerang, sareng aranjeunna laun-laun kaleungitan pola anu kirang mangpaat sapertos ningali babaturan deukeut teuing.

Janten naon hasil anu dihontal? Dina turnamén 40-jalma dimana manusa sareng agén sacara acak maén babarengan sareng silih lawan, agén FTW sacara signifikan ngaleuwihan tingkat kameunangan pamaén manusa. Peunteun Elo AI, anu kamungkinan meunang, éta 1600, dibandingkeun sareng 1300 pikeun pamaén manusa "kuat" sareng 1050 pikeun pamuter manusa "rata-rata".

DeepMind AI Masters Team Play and Outperforms Humans in Quake III

Ieu teu héran, saprak laju réaksi AI nyata leuwih luhur batan manusa, nu masihan urut kaunggulan signifikan dina percobaan awal. Tapi sanaos akurasi agén dikirangan sareng waktos réaksi ningkat berkat latensi 257 milidetik anu diwangun, AI tetep langkung saé tibatan manusa. pamaén canggih tur kasual meunang mung 21% jeung 12% tina total kaulinan.

Leuwih ti éta, sanggeus publikasi ulikan, élmuwan mutuskeun pikeun nguji agén dina peta Gempa III Arena full-fledged kalawan arsitéktur tingkat kompléks jeung objék tambahan, kayaning Future Crossings jeung Ironwood, dimana AI mimiti suksés tangtangan manusa dina patandingan test. . Nalika peneliti ningal pola aktivasina jaringan saraf agén, nyaéta, fungsi neuron anu tanggung jawab pikeun nangtukeun kaluaran dumasar kana inpormasi anu datang, aranjeunna mendakan klaster anu ngalambangkeun kamar, kaayaan bandéra, pisibilitas rekan sareng lawan, sareng ayana atanapi henteuna agén di pangkalan musuh, atanapi dumasar tim, sareng aspék midangkeun anu penting. Agén-agén anu dilatih ogé ngandung neuron anu nyandikeun kaayaan khusus sacara langsung, sapertos nalika bandéra dicandak ku agén atanapi nalika sekutu nahan éta.

"Kuring pikir salah sahiji hal anu kedah ditingali nyaéta tim multi-agén ieu kuat pisan, sareng panilitian kami nunjukkeun éta," saur Jaderberg. "Éta anu urang diajar pikeun ngalakukeun anu langkung saé sareng langkung saé dina sababaraha taun ka pengker-kumaha carana ngabéréskeun masalah diajar penguatan." Sareng palatihan anu ditingkatkeun leres-leres damel saé. ”

Thore Graepel, profésor élmu komputer di University College London sareng élmuwan DeepMind, yakin yén karyana nyorot poténsi pembelajaran multi-agén pikeun masa depan AI. Ogé bisa dijadikeun dadasar pikeun panalungtikan ngeunaan interaksi manusa-mesin jeung sistem anu ngalengkepan silih atawa gawé bareng.

"Hasil kami nunjukkeun yén pembelajaran penguatan multi-agén tiasa suksés ngawasaan kaulinan anu kompleks dugi ka pamaén manusa malah percaya yén pamaén komputer janten réréncangan anu langkung saé. Panaliti ogé nyayogikeun analisa anu jero pisan ngeunaan kumaha agén anu dilatih kalakuanana sareng gawé bareng, saur Grapel. "Anu ngajantenkeun hasil ieu pikaresepeun nyaéta yén agén-agén ieu ningali lingkunganana dina jalma kahiji, [nyaéta] sapertos pamaén manusa. Pikeun diajar kumaha carana maén sacara taktik sareng gawé bareng sareng réréncangan, agén-agén ieu kedah ngandelkeun eupan balik tina hasil pertandingan, tanpa aya guru atanapi pelatih anu nunjukkeun naon anu kedah dilakukeun.



sumber: 3dnews.ru

Tambahkeun komentar