OpenAI mengajar kerja berpasukan AI dalam permainan sembunyi-sembunyi

Permainan sembunyi-sembunyi yang bagus boleh menjadi ujian yang hebat untuk bot kecerdasan buatan (AI) untuk menunjukkan cara mereka membuat keputusan dan berinteraksi antara satu sama lain serta pelbagai objek di sekeliling mereka.

Dalam beliau artikel baru, diterbitkan oleh penyelidik dari OpenAI, sebuah organisasi penyelidikan kecerdasan buatan bukan untung yang telah menjadi terkenal kemenangan ke atas juara dunia dalam permainan komputer Dota 2, saintis menerangkan bagaimana ejen yang dikawal oleh kecerdasan buatan dilatih untuk menjadi lebih canggih dalam mencari dan bersembunyi antara satu sama lain dalam persekitaran maya. Hasil kajian menunjukkan bahawa sepasukan dua bot belajar dengan lebih berkesan dan lebih pantas daripada mana-mana ejen tunggal tanpa sekutu.

OpenAI mengajar kerja berpasukan AI dalam permainan sembunyi-sembunyi

Para saintis telah menggunakan kaedah yang telah lama memenangi kemasyhurannya pembelajaran mesin dengan peneguhan, di mana kecerdasan buatan diletakkan dalam persekitaran yang tidak diketahuinya, sambil mempunyai cara tertentu untuk berinteraksi dengannya, serta sistem ganjaran dan denda untuk satu atau satu lagi hasil daripada tindakannya. Kaedah ini agak berkesan kerana keupayaan AI untuk melakukan pelbagai tindakan dalam persekitaran maya pada kelajuan yang sangat besar, berjuta-juta kali lebih pantas daripada yang boleh dibayangkan oleh seseorang. Ini membolehkan percubaan dan kesilapan untuk mencari strategi yang paling berkesan untuk menyelesaikan masalah yang diberikan. Tetapi pendekatan ini juga mempunyai beberapa batasan, contohnya, mewujudkan persekitaran dan menjalankan banyak kitaran latihan memerlukan sumber pengkomputeran yang besar, dan proses itu sendiri memerlukan sistem yang tepat untuk membandingkan hasil tindakan AI dengan matlamatnya. Di samping itu, kemahiran yang diperoleh oleh ejen dengan cara ini terhad kepada tugas yang diterangkan dan, sebaik sahaja AI belajar untuk mengatasinya, tidak akan ada penambahbaikan lagi.

Untuk melatih AI untuk bermain petak umpet, saintis menggunakan pendekatan yang dipanggil "Penjelajahan tidak terarah," yang mana ejen mempunyai kebebasan sepenuhnya untuk mengembangkan pemahaman mereka tentang dunia permainan dan membangunkan strategi kemenangan. Ini serupa dengan pendekatan pembelajaran pelbagai ejen yang penyelidik di DeepMind gunakan apabila berbilang sistem kecerdasan buatan telah dilatih untuk bermain menangkap mod bendera di Quake III Arena. Seperti dalam kes ini, ejen AI sebelum ini tidak dilatih dalam peraturan permainan, tetapi dari masa ke masa mereka mempelajari strategi asas dan bahkan dapat mengejutkan penyelidik dengan penyelesaian yang tidak remeh.

Dalam permainan sorok-sorok, beberapa ejen yang tugasnya bersembunyi dikehendaki mengelak barisan penglihatan lawan mereka selepas dimulakan sedikit sementara pasukan ejen yang mencari tidak dapat bergerak. Selain itu, "garis penglihatan" dalam konteks ini ialah kon 135 darjah di hadapan bot individu. Ejen tidak boleh meneroka terlalu jauh di luar kawasan permainan dan terpaksa menavigasi bilik yang dihasilkan secara rawak dengan keupayaan untuk menggunakan beberapa objek luaran (kotak, dinding boleh alih, tanjakan khas) yang berselerak di sekeliling yang boleh digunakan untuk membuat penutup dan menyusup ke dalamnya .

OpenAI mengajar kerja berpasukan AI dalam permainan sembunyi-sembunyi

Melalui proses pembelajaran yang panjang, ejen AI mempelajari enam strategi unik, setiap satunya membantu mereka meneruskan ke peringkat permainan seterusnya. Pada mulanya, pasukan pencari dan penyembunyi hanya melarikan diri dan mengejar satu sama lain, tetapi selepas kira-kira 25 juta perlawanan, pasukan penyembunyi belajar untuk menyekat laluan dengan kotak dan membina tempat perlindungan daripadanya. Selepas 75 juta perlawanan lagi, pasukan itu menemui cara menggunakan tanjakan untuk masuk ke tempat persembunyian ini. Selepas 10 juta pusingan lagi, penyembunyi belajar menyeret tanjakan ke tepi kawasan permainan dan menguncinya di tempatnya untuk mengelakkan pihak lawan menggunakannya.

OpenAI mengajar kerja berpasukan AI dalam permainan sembunyi-sembunyi

Selepas 388 juta perlawanan, pencari telah belajar menggunakan tanjakan yang disekat untuk memanjat peti yang dibawa kepada mereka, dan kemudian, bergerak terus ke atasnya, menembusi tempat persembunyian musuh yang dicipta daripada dinding mudah alih. Dan akhirnya, selepas 458 juta perlawanan, pasukan persembunyian membuat kesimpulan bahawa mereka perlu menyekat semua objek dan kemudian membina tempat perlindungan, yang nampaknya membawa kepada kemenangan terakhir mereka.

Apa yang sangat mengagumkan ialah selepas 22 juta perlawanan, ejen belajar untuk menyelaraskan tindakan mereka dan kecekapan kerjasama mereka hanya meningkat pada masa hadapan, contohnya, masing-masing membawa kotak atau dinding sendiri untuk mencipta tempat perlindungan dan memilih bahagian objeknya untuk blok, untuk merumitkan permainan kesukaran kepada pihak lawan.

OpenAI mengajar kerja berpasukan AI dalam permainan sembunyi-sembunyi

Para saintis juga mencatat satu perkara penting yang berkaitan dengan pengaruh bilangan objek latihan (jumlah data yang dilalui melalui rangkaian saraf - "Saiz Kelompok") pada kelajuan pembelajaran. Model lalai memerlukan 132,3 juta perlawanan sepanjang 34 jam latihan untuk mencapai tahap di mana pasukan bersembunyi belajar untuk menyekat tanjakan, manakala lebih banyak data menghasilkan pengurangan ketara dalam masa latihan. Sebagai contoh, meningkatkan bilangan parameter (sebahagian daripada data yang diperoleh semasa keseluruhan proses latihan) daripada 0,5 juta kepada 5,8 juta meningkatkan kecekapan pensampelan sebanyak 2,2 kali, dan meningkatkan saiz data input daripada 64 KB kepada 128 KB mengurangkan latihan masa hampir satu setengah kali.

OpenAI mengajar kerja berpasukan AI dalam permainan sembunyi-sembunyi

Pada penghujung kerja mereka, para penyelidik memutuskan untuk menguji berapa banyak latihan dalam permainan boleh membantu ejen menangani tugas yang sama di luar permainan. Terdapat lima ujian secara keseluruhan: kesedaran tentang bilangan objek (memahami bahawa objek terus wujud walaupun ia tidak kelihatan dan tidak digunakan); "kunci dan kembali" - keupayaan untuk mengingati kedudukan asal seseorang dan kembali kepadanya selepas menyelesaikan beberapa tugas tambahan; "sekatan berurutan" - 4 kotak diletakkan secara rawak dalam tiga bilik tanpa pintu, tetapi dengan tanjakan untuk masuk ke dalam, ejen perlu mencari dan menyekat kesemuanya; penempatan kotak di tapak yang telah ditetapkan; mewujudkan tempat perlindungan di sekeliling objek dalam bentuk silinder.

Akibatnya, dalam tiga daripada lima tugasan, bot yang telah menjalani latihan awal dalam permainan belajar lebih cepat dan menunjukkan hasil yang lebih baik daripada AI yang dilatih untuk menyelesaikan masalah dari awal. Mereka menunjukkan prestasi yang lebih baik sedikit dalam menyelesaikan tugas dan kembali ke kedudukan permulaan, menyekat kotak secara berurutan dalam bilik tertutup, dan meletakkan kotak di kawasan tertentu, tetapi menunjukkan prestasi yang lemah sedikit dalam mengenal pasti bilangan objek dan mencipta penutup di sekeliling objek lain.

Penyelidik mengaitkan hasil bercampur dengan cara AI belajar dan mengingati kemahiran tertentu. β€œKami berpendapat bahawa tugas di mana latihan pra dalam permainan dilakukan dengan baik melibatkan penggunaan semula kemahiran yang dipelajari sebelumnya dengan cara yang biasa, sambil melaksanakan tugas yang selebihnya lebih baik daripada AI yang dilatih dari awal akan memerlukan penggunaannya dengan cara yang berbeza, yang banyak lebih sukar,” tulis pengarang bersama karya itu. "Keputusan ini menyerlahkan keperluan untuk membangunkan kaedah untuk menggunakan semula kemahiran yang diperoleh secara berkesan melalui latihan apabila memindahkannya dari satu persekitaran ke persekitaran yang lain."

Kerja yang dilakukan benar-benar mengagumkan, kerana prospek menggunakan kaedah pengajaran ini jauh melebihi had mana-mana permainan. Para penyelidik mengatakan bahawa kerja mereka adalah langkah penting ke arah mencipta AI dengan tingkah laku "berasaskan fizik" dan "seperti manusia" yang boleh mendiagnosis penyakit, meramalkan struktur molekul protein kompleks dan menganalisis imbasan CT.

Dalam video di bawah anda dapat melihat dengan jelas bagaimana keseluruhan proses pembelajaran berlaku, bagaimana AI belajar kerja berpasukan, dan strateginya menjadi lebih licik dan kompleks.



Sumber: 3dnews.ru

Tambah komen