DeepMind AI Master Team Play lan Ngalahake Manungsa ing Gempa III

Jupuk bendera minangka mode kompetitif sing cukup prasaja sing ditemokake ing akeh penembake populer. Saben tim duwe marker sing ana ing pangkalane, lan tujuane kanggo nangkep marker tim lawan lan kasil nggawa dhewe. Nanging, apa sing gampang dingerteni manungsa ora gampang kanggo mesin. Kanggo njupuk gendΓ©ra, karakter non-pamuter (bot) diprogram kanthi tradisional nggunakake heuristik lan algoritma prasaja sing nyedhiyakake kebebasan pilihan sing winates lan luwih murah tinimbang manungsa. Nanging intelijen buatan lan sinau mesin janji bakal ngganti kahanan iki.

В artikel, diterbitake minggu iki ing jurnal Science babagan setahun sawise pracetak, uga ing blog sampeyan, peneliti saka DeepMind, anak perusahaan London Alphabet, njlèntrèhaké sistem sing ora mung bisa sinau kanggo muter nyekel flag ing id Software Quake III Arena maps, nanging uga ngembangaken strategi tim tanggung anyar, ing cara ora kalah karo manungsa.

DeepMind AI Master Team Play lan Ngalahake Manungsa ing Gempa III

"Ora ana sing ngandhani AI babagan carane main game iki, mung ana asil - apa AI ngalahake mungsuh utawa ora. Kaendahan nggunakake pendekatan iki yaiku sampeyan ora ngerti prilaku apa sing bakal muncul nalika sampeyan nglatih agen, "ujare Max Jaderberg, ilmuwan riset ing DeepMind sing sadurunge makarya ing sistem pembelajaran mesin AlphaStar (luwih anyar). ngungkuli tim manungsa profesional ing StarCraft II). Dheweke luwih nerangake manawa cara utama karya anyar kasebut yaiku, pisanan, sinau sing dikuatake, sing nggunakake sistem ganjaran kanggo nyurung agen piranti lunak supaya bisa nggayuh tujuan sing wis ditemtokake, lan sistem ganjaran kasebut bisa ditindakake, ora preduli manawa tim AI menang utawa ora. , nanging ing kaping pindho, agen dilatih ing kelompok, sing meksa AI kanggo nguwasani interaksi tim wiwit wiwitan.

"Saka sudut pandang riset, iki minangka anyar kanggo pendekatan algoritma sing pancen nyenengake," tambah Max. "Cara kita nglatih AI kita nuduhake cara ngukur lan ngetrapake sawetara ide evolusi klasik."

DeepMind AI Master Team Play lan Ngalahake Manungsa ing Gempa III

Dijenengi provokatif For The Win (FTW), agen DeepMind sinau langsung saka piksel layar nggunakake jaringan saraf convolutional, sakumpulan fungsi matematika (neuron) sing disusun ing lapisan sing dimodelake miturut korteks visual manungsa. Data sing ditampa dikirim menyang rong jaringan kanthi memori jangka pendek pirang-pirang (memori jangka pendek Inggris - LSTM), sing bisa ngenali dependensi jangka panjang. Salah siji saka wong-wong mau ngatur data operasional kanthi cepet nanggepi kacepetan, nalika liyane dianggo alon-alon kanggo njelasno lan ngramu strategi. Loro-lorone digandhengake karo memori variasi, sing digunakake bebarengan kanggo prΓ©dhiksi owah-owahan ing donya game lan nindakake tumindak liwat controller game emulated.

DeepMind AI Master Team Play lan Ngalahake Manungsa ing Gempa III

Secara total, DeepMind nglatih 30 agen, menehi macem-macem kanca lan mungsuh sing bisa dimainake, lan kertu game sing dipilih kanthi acak kanggo nyegah AI supaya ora ngeling-eling. Saben agen duwe sinyal ganjaran dhewe, supaya bisa nggawe gol internal dhewe, kayata nyekel gendera. Saben AI kanthi individu main udakara 450 ewu game kanggo nyekel panji, sing padha karo pengalaman game patang taun.

Agen FTW sing dilatih kanthi lengkap wis sinau ngetrapake strategi sing umum ing peta, daftar tim, lan ukuran tim. Dheweke sinau prilaku manungsa kayata ngetutake kanca, kemah ing pangkalan mungsuh, lan mbela pangkalane saka penyerang, lan mboko sithik ilang pola sing kurang migunani kayata nonton sekutu kanthi rapet.

Dadi apa asil sing diraih? Ing turnamen 40 wong ing ngendi manungsa lan agen main kanthi acak bebarengan lan nglawan siji liyane, agen FTW sacara signifikan ngluwihi tingkat menang pemain manungsa. Rating Elo AI, sing kemungkinan menang, yaiku 1600, dibandhingake karo 1300 kanggo pemain manungsa "kuwat" lan 1050 kanggo pemain manungsa "rata-rata".

DeepMind AI Master Team Play lan Ngalahake Manungsa ing Gempa III

Iki ora nggumunake, amarga kacepetan reaksi AI luwih dhuwur tinimbang manungsa, sing menehi keuntungan sing signifikan ing eksperimen awal. Nanging sanajan akurasi agen wis suda lan wektu reaksi saya tambah amarga latensi 257 milidetik sing dibangun, AI isih ngluwihi manungsa. Pemain majeng lan sembrono mung menang 21% lan 12% saka total game.

Kajaba iku, sawise publikasi panliten kasebut, para ilmuwan mutusake kanggo nyoba agen ing peta Quake III Arena lengkap kanthi arsitektur tingkat kompleks lan obyek tambahan, kayata Future Crossings lan Ironwood, ing ngendi AI wiwit nantang manungsa ing pertandhingan tes. . Nalika peneliti ndeleng pola aktivasi jaringan saraf saka agen, yaiku, fungsi neuron sing tanggung jawab kanggo nemtokake output adhedhasar informasi sing mlebu, dheweke nemokake klompok sing makili kamar, negara bendera, visibilitas kanca lan lawan, lan anane utawa ora ana agen ing pangkalan mungsuh, utawa adhedhasar tim, lan aspek gamelan liyane sing penting. Agen sing dilatih malah ngemot neuron sing nyandi kahanan tartamtu kanthi langsung, kayata nalika gendΓ©ra dijupuk dening agen utawa nalika sekutu nyekel.

"Aku mikir salah sawijining perkara sing kudu dideleng yaiku tim multi-agen iki kuat banget, lan panlitene nuduhake," ujare Jaderberg. "Iki sing wis kita sinau supaya luwih apik lan luwih apik sajrone sawetara taun kepungkur-carane ngatasi masalah sinau penguatan." Lan latihan sing ditingkatake pancen kerjane kanthi apik.

Thore Graepel, profesor ilmu komputer ing University College London lan ilmuwan DeepMind, percaya karyane nyorot potensial sinau multi-agen kanggo masa depan AI. Uga bisa dadi basis kanggo riset ing interaksi manungsa-mesin lan sistem sing nglengkapi siji liyane utawa bisa bebarengan.

"Asil kita nuduhake yen sinau penguatan multi-agen bisa sukses nguwasani game sing rumit nganti para pemain manungsa malah percaya yen pemain komputer nggawe kanca sing luwih apik. Panaliten kasebut uga menehi analisa jero banget babagan carane agen sing dilatih tumindak lan kerja bareng, ujare Grapel. "Apa sing ndadekake asil kasebut nyenengake yaiku agen kasebut ngerteni lingkungane ing wong pisanan, [yaiku] kaya pemain manungsa. Kanggo sinau cara main kanthi taktik lan kerja sama karo kanca-kancane, agen kasebut kudu ngandelake umpan balik saka asil game kasebut, tanpa guru utawa pelatih sing nuduhake apa sing kudu ditindakake.



Source: 3dnews.ru

Add a comment