Tangkap bendera adalah mode kompetitif yang cukup sederhana yang ditemukan di banyak penembak populer. Setiap tim memiliki penanda yang terletak di markasnya, dan tujuannya adalah untuk menangkap penanda tim lawan dan berhasil membawanya ke dirinya sendiri. Namun, apa yang mudah dipahami manusia tidaklah mudah bagi mesin. Untuk menangkap bendera, karakter non-pemain (bot) secara tradisional diprogram menggunakan heuristik dan algoritma sederhana yang memberikan kebebasan memilih terbatas dan secara signifikan lebih rendah daripada manusia. Namun kecerdasan buatan dan pembelajaran mesin menjanjikan perubahan total dalam situasi ini.
В
“Tidak ada yang memberi tahu AI cara memainkan game ini, yang ada hanya hasilnya – apakah AI mengalahkan lawannya atau tidak. Keuntungan menggunakan pendekatan ini adalah Anda tidak pernah tahu perilaku apa yang akan muncul saat Anda melatih agen,” kata Max Jaderberg, ilmuwan riset di DeepMind yang sebelumnya bekerja pada sistem pembelajaran mesin AlphaStar (baru-baru ini
“Dari sudut pandang penelitian, ini adalah hal baru untuk pendekatan algoritmik yang sangat menarik,” tambah Max. “Cara kami melatih AI menunjukkan dengan baik bagaimana menskalakan dan menerapkan beberapa ide evolusi klasik.”
Dinamakan secara provokatif For The Win (FTW), agen DeepMind belajar langsung dari piksel layar menggunakan jaringan saraf konvolusional, seperangkat fungsi matematika (neuron) yang disusun dalam lapisan yang meniru model korteks visual manusia. Data yang diterima ditransmisikan ke dua jaringan dengan beberapa memori jangka pendek (Bahasa Inggris long short-term memory - LSTM), yang mampu mengenali ketergantungan jangka panjang. Salah satunya mengelola data operasional dengan kecepatan respons yang cepat, sementara yang lain bekerja lambat untuk menganalisis dan merumuskan strategi. Keduanya dikaitkan dengan memori variasional, yang digunakan bersama untuk memprediksi perubahan di dunia game dan melakukan tindakan melalui pengontrol game yang ditiru.
Secara total, DeepMind melatih 30 agen, memberi mereka berbagai rekan satu tim dan lawan untuk dimainkan, dan memilih kartu permainan secara acak agar AI tidak mengingatnya. Setiap agen memiliki sinyal imbalannya sendiri, yang memungkinkannya menciptakan tujuan internalnya sendiri, seperti merebut bendera. Setiap AI secara individu memainkan sekitar 450 ribu game tangkap bendera, yang setara dengan sekitar empat tahun pengalaman bermain game.
Agen FTW yang terlatih telah belajar menerapkan strategi yang umum pada peta, daftar tim, dan ukuran tim mana pun. Mereka mempelajari perilaku manusia seperti mengikuti rekan satu tim, berkemah di markas musuh, dan mempertahankan markas mereka dari penyerang, dan secara bertahap mereka kehilangan pola yang kurang bermanfaat seperti mengawasi sekutu terlalu dekat.
Lalu hasil apa yang dicapai? Dalam turnamen yang diikuti 40 orang di mana manusia dan agen secara acak bermain bersama dan melawan satu sama lain, agen FTW secara signifikan mengungguli tingkat kemenangan pemain manusia. Peringkat Elo AI, yang merupakan probabilitas menang, adalah 1600, dibandingkan dengan 1300 untuk pemain manusia "kuat" dan 1050 untuk pemain manusia "rata-rata".
Hal ini tidak mengherankan, karena kecepatan reaksi AI jauh lebih tinggi dibandingkan manusia, sehingga memberikan keuntungan signifikan bagi AI dalam percobaan awal. Namun meski akurasi agen berkurang dan waktu reaksi meningkat berkat latensi bawaan 257 milidetik, AI masih mengungguli manusia. Pemain tingkat lanjut dan kasual masing-masing hanya memenangkan 21% dan 12% dari total permainan.
Selain itu, setelah penelitian dipublikasikan, para ilmuwan memutuskan untuk menguji agen pada peta Quake III Arena yang lengkap dengan arsitektur tingkat kompleks dan objek tambahan, seperti Future Crossings dan Ironwood, di mana AI mulai berhasil menantang manusia dalam pertandingan uji. . Ketika para peneliti melihat pola aktivasi jaringan saraf agen, yaitu fungsi neuron yang bertanggung jawab untuk menentukan keluaran berdasarkan informasi yang masuk, mereka menemukan kelompok yang mewakili ruangan, status bendera, visibilitas rekan satu tim dan lawan, dan ada atau tidaknya agen di markas musuh, atau berbasis tim, dan aspek gameplay penting lainnya. Agen terlatih bahkan berisi neuron yang mengkodekan situasi tertentu secara langsung, seperti saat sebuah bendera diambil oleh agen atau saat sekutu memegangnya.
“Saya pikir salah satu hal yang perlu diperhatikan adalah tim multi-agen ini sangat kuat, dan penelitian kami menunjukkan hal itu,” kata Jaderberg. “Itulah yang telah kami pelajari untuk dilakukan dengan lebih baik dan lebih baik lagi selama beberapa tahun terakhir—bagaimana memecahkan masalah pembelajaran penguatan.” Dan pelatihan yang ditingkatkan ini benar-benar berhasil dengan cemerlang.”
Thore Graepel, profesor ilmu komputer di University College London dan ilmuwan DeepMind, yakin bahwa penelitian mereka menyoroti potensi pembelajaran multi-agen untuk masa depan AI. Hal ini juga dapat berfungsi sebagai dasar untuk penelitian interaksi manusia-mesin dan sistem yang saling melengkapi atau bekerja sama.
“Hasil kami menunjukkan bahwa pembelajaran penguatan multi-agen dapat berhasil menguasai permainan yang kompleks hingga pada titik di mana pemain manusia bahkan percaya bahwa pemain komputer dapat menjadi rekan satu tim yang lebih baik. Studi ini juga memberikan analisis mendalam yang sangat menarik tentang bagaimana agen terlatih berperilaku dan bekerja sama, kata Grapel. “Apa yang membuat hasil ini sangat menarik adalah bahwa para agen ini melihat lingkungan mereka secara langsung, [yaitu] seperti pemain manusia. Untuk mempelajari cara bermain secara taktis dan bekerja sama dengan rekan satu tim mereka, para agen ini harus mengandalkan umpan balik dari hasil permainan, tanpa ada guru atau pelatih yang menunjukkan apa yang harus mereka lakukan."
Sumber: 3dnews.ru