Permainan petak umpet kuno yang bagus bisa menjadi ujian yang bagus bagi bot kecerdasan buatan (AI) untuk menunjukkan bagaimana mereka membuat keputusan dan berinteraksi satu sama lain dan berbagai objek di sekitar mereka.
dalam karyanya
Para ilmuwan telah menggunakan metode yang telah lama terkenal
Untuk melatih AI bermain petak umpet, para ilmuwan menggunakan pendekatan yang disebut “Eksplorasi tidak terarah”, yaitu pendekatan yang memungkinkan agen memiliki kebebasan penuh untuk mengembangkan pemahaman mereka tentang dunia game dan mengembangkan strategi kemenangan. Hal ini mirip dengan pendekatan pembelajaran multi-agen yang digunakan para peneliti di DeepMind ketika menggunakan beberapa sistem kecerdasan buatan
Dalam permainan petak umpet, beberapa agen yang tugasnya bersembunyi diharuskan menghindari garis pandang lawannya setelah sedikit mendahului sementara tim agen pencari tidak bisa bergerak. Selain itu, “garis pandang” dalam konteks ini adalah kerucut 135 derajat di depan bot individu. Agen tidak dapat menjelajah terlalu jauh di luar area bermain dan dipaksa untuk menavigasi ruangan yang dibuat secara acak dengan kemampuan untuk menggunakan beberapa objek eksternal (kotak, dinding bergerak, jalur khusus) yang tersebar di sekitar yang dapat digunakan untuk membuat perlindungan dan menyusup ke dalamnya. .
Melalui proses pembelajaran yang panjang, para agen AI mempelajari enam strategi unik, yang masing-masing membantu mereka maju ke tahap permainan berikutnya. Pada awalnya, tim pencari dan penyembunyi hanya melarikan diri dan mengejar satu sama lain, tetapi setelah sekitar 25 juta pertandingan, tim penyembunyi belajar untuk memblokir jalan dengan kotak dan membangun tempat berlindung dari kotak tersebut. Setelah 75 juta pertandingan berikutnya, tim menemukan cara menggunakan jalur landai untuk masuk ke tempat persembunyian ini. Setelah 10 juta putaran berikutnya, penyembunyi belajar menyeret jalur landai ke tepi area permainan dan menguncinya di tempatnya untuk mencegah lawan menggunakannya.
Setelah 388 juta pertandingan, para pencari telah belajar menggunakan jalan yang diblokir untuk naik ke peti yang dibawa kepada mereka, dan kemudian, bergerak langsung ke peti tersebut, menembus tempat persembunyian musuh yang dibuat dari dinding portabel. Dan akhirnya, setelah 458 juta pertandingan, tim persembunyian menyimpulkan bahwa mereka perlu memblokir semua objek dan kemudian membangun tempat berlindung, yang tampaknya membawa kemenangan akhir mereka.
Yang sangat mengesankan adalah setelah 22 juta pertandingan, para agen belajar mengoordinasikan tindakan mereka dan efisiensi kolaborasi mereka semakin meningkat di masa depan, misalnya, masing-masing membawa kotak atau dindingnya sendiri untuk membuat tempat berlindung dan memilih objek yang akan dijadikan tempat berlindung. blok untuk membuat permainan lebih sulit bagi lawan.
Para ilmuwan juga mencatat poin penting terkait pengaruh jumlah objek pelatihan (jumlah data yang melewati jaringan saraf - “Ukuran Batch”) terhadap kecepatan pembelajaran. Model default memerlukan 132,3 juta kecocokan selama 34 jam pelatihan untuk mencapai titik di mana tim persembunyian belajar memblokir jalur landai, sementara lebih banyak data menghasilkan pengurangan waktu pelatihan yang nyata. Misalnya, meningkatkan jumlah parameter (sebagian data yang diperoleh selama seluruh proses pelatihan) dari 0,5 juta menjadi 5,8 juta meningkatkan efisiensi pengambilan sampel sebesar 2,2 kali lipat, dan meningkatkan ukuran data masukan dari 64 KB menjadi 128 KB mengurangi pelatihan waktu hampir satu setengah kali.
Di akhir pekerjaan mereka, para peneliti memutuskan untuk menguji seberapa banyak pelatihan dalam game dapat membantu agen mengatasi tugas serupa di luar game. Total ada lima tes: kesadaran akan jumlah objek (pemahaman bahwa suatu objek tetap ada meskipun tidak terlihat dan tidak digunakan); "mengunci dan mengembalikan" - kemampuan untuk mengingat posisi awal seseorang dan kembali ke sana setelah menyelesaikan beberapa tugas tambahan; “pemblokiran berurutan” - 4 kotak ditempatkan secara acak di tiga ruangan tanpa pintu, tetapi dengan jalur landai untuk masuk ke dalam, agen perlu menemukan dan memblokir semuanya; penempatan kotak pada lokasi yang telah ditentukan; membuat tempat berlindung disekitar suatu benda yang berbentuk silinder.
Hasilnya, dalam tiga dari lima tugas, bot yang telah menjalani pelatihan awal dalam game belajar lebih cepat dan menunjukkan hasil yang lebih baik dibandingkan AI yang dilatih untuk memecahkan masalah dari awal. Mereka tampil sedikit lebih baik dalam menyelesaikan tugas dan kembali ke posisi awal, secara berurutan memblokir kotak di ruangan tertutup, dan menempatkan kotak di area tertentu, namun tampil sedikit lebih lemah dalam mengenali jumlah objek dan membuat perlindungan di sekitar objek lain.
Para peneliti mengaitkan hasil yang beragam dengan cara AI mempelajari dan mengingat keterampilan tertentu. “Kami berpikir bahwa tugas-tugas di mana pra-pelatihan dalam game dilakukan paling baik melibatkan penggunaan kembali keterampilan yang dipelajari sebelumnya dengan cara yang familiar, sementara melakukan tugas-tugas lainnya dengan lebih baik daripada AI yang dilatih dari awal akan memerlukan penggunaannya dengan cara yang berbeda, yang mana banyak lebih sulit,” tulis rekan penulis karya tersebut. “Hasil ini menyoroti perlunya mengembangkan metode untuk secara efektif menggunakan kembali keterampilan yang diperoleh melalui pelatihan ketika mentransfernya dari satu lingkungan ke lingkungan lain.”
Pekerjaan yang dilakukan sungguh mengesankan, karena prospek penggunaan metode pengajaran ini jauh melampaui batas permainan apa pun. Para peneliti mengatakan pekerjaan mereka adalah langkah signifikan menuju penciptaan AI dengan perilaku “berbasis fisika” dan “mirip manusia” yang dapat mendiagnosis penyakit, memprediksi struktur molekul protein kompleks, dan menganalisis CT scan.
Dalam video di bawah ini Anda dapat melihat dengan jelas bagaimana keseluruhan proses pembelajaran berlangsung, bagaimana AI mempelajari kerja tim, dan strateginya menjadi semakin licik dan kompleks.
Sumber: 3dnews.ru