OpenAI ngajari kerja tim AI ing game ndhelik lan golek

Game ndhelik lan golek sing apik bisa dadi tes sing apik kanggo bot intelijen buatan (AI) kanggo nduduhake carane nggawe keputusan lan sesambungan karo saben liyane lan macem-macem obyek ing saubengé.

Ing dheweke artikel anyar, diterbitake dening peneliti saka OpenAI, organisasi riset intelijen buatan nirlaba sing wis misuwur kamenangan saka juara donya ing game komputer Dota 2, ilmuwan njlèntrèhaké carane agen kontrol dening intelijen buatan padha dilatih dadi luwih canggih ing panelusuran lan ndhelikake saka saben liyane ing lingkungan virtual. Asil panaliten kasebut nuduhake manawa tim loro bot sinau luwih efektif lan luwih cepet tinimbang agen tunggal tanpa sekutu.

OpenAI ngajari kerja tim AI ing game ndhelik lan golek

Para ilmuwan wis nggunakake cara sing wis suwe entuk ketenaran machine learning karo reinforcement, ing ngendi intelijen buatan diselehake ing lingkungan sing ora dingerteni, nalika duwe cara tartamtu kanggo sesambungan, uga sistem ganjaran lan denda kanggo siji utawa asil liyane saka tumindak kasebut. Cara iki cukup efektif amarga kemampuan AI kanggo nindakake macem-macem tumindak ing lingkungan virtual kanthi kacepetan sing gedhe banget, jutaan kaping luwih cepet tinimbang sing bisa dibayangake. Iki ngidini nyoba lan kesalahan kanggo nemokake strategi paling efektif kanggo ngrampungake masalah tartamtu. Nanging pendekatan iki uga duwe sawetara watesan, contone, nggawe lingkungan lan nindakake pirang-pirang siklus latihan mbutuhake sumber daya komputasi sing gedhe, lan proses kasebut mbutuhake sistem sing akurat kanggo mbandhingake asil tumindak AI karo tujuane. Kajaba iku, katrampilan sing dipikolehi agen kanthi cara iki diwatesi kanggo tugas sing diterangake lan, yen AI sinau kanggo ngatasi, ora bakal ana perbaikan maneh.

Kanggo nglatih AI supaya bisa main ndhelik lan golek, para ilmuwan nggunakake pendekatan sing diarani "Eksplorasi sing ora diarahake," ing ngendi agen duwe kebebasan lengkap kanggo ngembangake pemahaman babagan jagad game lan ngembangake strategi sing menang. Iki padha karo pendekatan learning multi-agen sing peneliti ing DeepMind digunakake nalika macem-macem sistem intelijen buatan padha dilatih kanggo muter njupuk mode flag ing Quake III Arena. Kaya ing kasus iki, agen AI sadurunge ora dilatih ing aturan game, nanging suwe-suwe dheweke sinau strategi dhasar lan malah bisa nggumunake peneliti kanthi solusi sing ora pati penting.

Ing game ndhelik lan golek, sawetara agen sing tugase kanggo ndhelikake kudu ngindhari garis pandang mungsuh sawise rada maju nalika tim sing nggoleki agen ora bisa mlaku. Kajaba iku, "line of sight" ing konteks iki minangka kerucut derajat 135 ing ngarepe bot individu. Agen ora bisa adoh banget ing njaba area dolanan lan dipeksa kanggo navigasi kamar sing digawe kanthi acak kanthi kemampuan kanggo nggunakake sawetara obyek eksternal (kothak, tembok sing bisa dipindhah, ramp khusus) sing kasebar sing bisa digunakake kanggo nggawe tutup lan nyusup. .

OpenAI ngajari kerja tim AI ing game ndhelik lan golek

Liwat proses sinau sing dawa, agen AI sinau enem strategi unik, sing saben-saben mbantu dheweke maju menyang tahap game sabanjure. Ing wiwitan, tim sing golek lan sing ndhelik mung mlayu lan ngoyak, nanging sawise udakara 25 yuta pertandhingan, tim sing ndhelik sinau kanggo mblokir dalan nganggo kothak lan mbangun papan perlindungan. Sawise 75 yuta pertandhingan liyane, tim kasebut nemokake cara nggunakake ramp kanggo mlebu ing papan ndhelik kasebut. Sawise 10 yuta babak liyane, sing ndhelik sinau nyeret ramp menyang pinggir area dolanan lan ngunci ing papan kanggo nyegah mungsuh nggunakake.

OpenAI ngajari kerja tim AI ing game ndhelik lan golek

Sawise 388 yuta pertandhingan, para pencari wis sinau nggunakake ramp sing diblokir kanggo menek ing peti sing digawa menyang dheweke, banjur, langsung mlebu, nembus papan ndhelik mungsuh sing digawe saka tembok portabel. Lan pungkasane, sawise 458 yuta pertandhingan, tim sing ndhelik nyimpulake yen dheweke kudu mblokir kabeh obyek lan banjur mbangun papan perlindungan, sing bisa nyebabake kamenangan pungkasan.

Sing paling nggumunake yaiku sawise 22 yuta pertandhingan, para agen sinau kanggo koordinasi tumindak lan efisiensi kolaborasi mung mundhak ing mangsa ngarep, contone, saben nggawa kothak utawa tembok dhewe kanggo nggawe papan perlindungan lan milih bagean obyek sing bakal ditindakake. mblokir kanggo nggawe game luwih angel kanggo mungsuh.

OpenAI ngajari kerja tim AI ing game ndhelik lan golek

Para ilmuwan uga nyathet titik penting sing ana hubungane karo pengaruh jumlah obyek latihan (jumlah data sing dilewati jaringan saraf - "Ukuran Batch") ing kacepetan sinau. Model standar mbutuhake 132,3 yuta pertandhingan sajrone latihan 34 jam kanggo nggayuh titik ing ngendi tim ndhelik sinau kanggo mblokir ramp, dene data luwih akeh nyebabake nyuda wektu latihan. Contone, nambah jumlah paramèter (bagéan saka data sing dipikolehi sajrone proses latihan kabeh) saka 0,5 yuta dadi 5,8 yuta nambah efisiensi sampling kanthi 2,2 kali, lan nambah ukuran data input saka 64 KB dadi 128 KB nyuda latihan. wektu meh siji lan setengah kaping.

OpenAI ngajari kerja tim AI ing game ndhelik lan golek

Ing pungkasan karyane, peneliti mutusake kanggo nguji sepira latihan ing game bisa mbantu agen ngatasi tugas sing padha ing njaba game. Ana limang tes total: kesadaran babagan jumlah obyek (pangerten manawa obyek tetep ana sanajan ora katon lan ora digunakake); "kunci lan bali" - kemampuan kanggo ngelingi posisi asli lan bali menyang sawise ngrampungake sawetara tugas tambahan; "Sequential blocking" - 4 kothak kanthi acak dumunung ing telung kamar tanpa lawang, nanging kanthi ramps kanggo mlebu, agen kudu nemokake lan mblokir kabeh; penempatan kothak ing situs sing wis ditemtokake; nggawe papan perlindungan ngubengi obyek kanthi bentuk silinder.

Akibaté, ing telung saka limang tugas, bot sing wis ngalami latihan awal ing game sinau luwih cepet lan nuduhake asil sing luwih apik tinimbang AI sing dilatih kanggo ngatasi masalah saka awal. Padha dileksanakake rada luwih apik ing ngrampungake tugas lan bali menyang posisi wiwitan, sequentially Watesan kothak ing kamar ditutup, lan manggonke kothak ing wilayah tartamtu, nanging nindakake rada ora pati roso ing pangling jumlah obyek lan nggawe tutup watara obyek liyane.

Peneliti ngubungake asil campuran babagan carane AI sinau lan ngelingi katrampilan tartamtu. "Kita mikir yen tugas-tugas ing ngendi pra-latihan ing game paling apik yaiku nggunakake maneh katrampilan sing wis dipelajari sadurunge kanthi cara sing akrab, nalika nindakake tugas sing isih luwih apik tinimbang AI sing dilatih saka awal mbutuhake nggunakake kanthi cara sing beda, sing akeh banget. luwih angel, "tulis co-penulis karya. "Asil iki nyoroti kabutuhan ngembangake metode kanggo nggunakake maneh katrampilan sing dipikolehi kanthi efektif liwat latihan nalika nransfer saka siji lingkungan menyang lingkungan liyane."

Pakaryan sing ditindakake pancen nyengsemake, amarga prospek nggunakake metode piwulang iki ngluwihi watesan game apa wae. Peneliti ujar manawa pakaryane minangka langkah penting kanggo nggawe AI kanthi prilaku "basis fisika" lan "kaya manungsa" sing bisa diagnosa penyakit, prédhiksi struktur molekul protein kompleks lan nganalisa CT scan.

Ing video ing ngisor iki, sampeyan bisa ndeleng kanthi jelas kepiye proses sinau kabeh, kepiye AI sinau kerja tim, lan strategi dadi luwih licik lan rumit.



Source: 3dnews.ru

Add a comment