Tim DeepMind AI Masters Bermain dan Mengungguli Manusia di Quake III

Tangkap bendera adalah mode kompetitif yang cukup sederhana yang ditemukan di banyak penembak populer. Setiap tim memiliki penanda yang terletak di markasnya, dan tujuannya adalah untuk menangkap penanda tim lawan dan berhasil membawanya ke dirinya sendiri. Namun, apa yang mudah dipahami manusia tidaklah mudah bagi mesin. Untuk menangkap bendera, karakter non-pemain (bot) secara tradisional diprogram menggunakan heuristik dan algoritma sederhana yang memberikan kebebasan memilih terbatas dan secara signifikan lebih rendah daripada manusia. Namun kecerdasan buatan dan pembelajaran mesin menjanjikan perubahan total dalam situasi ini.

В Artikel, diterbitkan minggu ini di jurnal Science sekitar setahun setelahnya pracetak, begitu juga di blogmu, peneliti dari DeepMind, anak perusahaan Alphabet yang berbasis di London, menggambarkan sebuah sistem yang tidak hanya dapat belajar bermain menangkap bendera di peta Quake III Arena milik id Software, tetapi juga mengembangkan strategi tim yang benar-benar baru, yang tidak kalah dengan manusia.

Tim DeepMind AI Masters Bermain dan Mengungguli Manusia di Quake III

“Tidak ada yang memberi tahu AI cara memainkan game ini, yang ada hanya hasilnya – apakah AI mengalahkan lawannya atau tidak. Keuntungan menggunakan pendekatan ini adalah Anda tidak pernah tahu perilaku apa yang akan muncul saat Anda melatih agen,” kata Max Jaderberg, ilmuwan riset di DeepMind yang sebelumnya bekerja pada sistem pembelajaran mesin AlphaStar (baru-baru ini melampaui tim manusia profesional di StarCraft II). Dia lebih lanjut menjelaskan bahwa metode kunci dari pekerjaan baru mereka adalah, pertama, pembelajaran yang diperkuat, yang menggunakan semacam sistem penghargaan untuk mendorong agen perangkat lunak mencapai tujuan yang ditetapkan, dan sistem penghargaan bekerja terlepas dari apakah tim AI menang atau tidak. , tetapi yang kedua, agen dilatih dalam kelompok, yang memaksa AI untuk menguasai interaksi tim sejak awal.

“Dari sudut pandang penelitian, ini adalah hal baru untuk pendekatan algoritmik yang sangat menarik,” tambah Max. “Cara kami melatih AI menunjukkan dengan baik bagaimana menskalakan dan menerapkan beberapa ide evolusi klasik.”

Tim DeepMind AI Masters Bermain dan Mengungguli Manusia di Quake III

Dinamakan secara provokatif For The Win (FTW), agen DeepMind belajar langsung dari piksel layar menggunakan jaringan saraf konvolusional, seperangkat fungsi matematika (neuron) yang disusun dalam lapisan yang meniru model korteks visual manusia. Data yang diterima ditransmisikan ke dua jaringan dengan beberapa memori jangka pendek (Bahasa Inggris long short-term memory - LSTM), yang mampu mengenali ketergantungan jangka panjang. Salah satunya mengelola data operasional dengan kecepatan respons yang cepat, sementara yang lain bekerja lambat untuk menganalisis dan merumuskan strategi. Keduanya dikaitkan dengan memori variasional, yang digunakan bersama untuk memprediksi perubahan di dunia game dan melakukan tindakan melalui pengontrol game yang ditiru.

Tim DeepMind AI Masters Bermain dan Mengungguli Manusia di Quake III

Secara total, DeepMind melatih 30 agen, memberi mereka berbagai rekan satu tim dan lawan untuk dimainkan, dan memilih kartu permainan secara acak agar AI tidak mengingatnya. Setiap agen memiliki sinyal imbalannya sendiri, yang memungkinkannya menciptakan tujuan internalnya sendiri, seperti merebut bendera. Setiap AI secara individu memainkan sekitar 450 ribu game tangkap bendera, yang setara dengan sekitar empat tahun pengalaman bermain game.

Agen FTW yang terlatih telah belajar menerapkan strategi yang umum pada peta, daftar tim, dan ukuran tim mana pun. Mereka mempelajari perilaku manusia seperti mengikuti rekan satu tim, berkemah di markas musuh, dan mempertahankan markas mereka dari penyerang, dan secara bertahap mereka kehilangan pola yang kurang bermanfaat seperti mengawasi sekutu terlalu dekat.

Lalu hasil apa yang dicapai? Dalam turnamen yang diikuti 40 orang di mana manusia dan agen secara acak bermain bersama dan melawan satu sama lain, agen FTW secara signifikan mengungguli tingkat kemenangan pemain manusia. Peringkat Elo AI, yang merupakan probabilitas menang, adalah 1600, dibandingkan dengan 1300 untuk pemain manusia "kuat" dan 1050 untuk pemain manusia "rata-rata".

Tim DeepMind AI Masters Bermain dan Mengungguli Manusia di Quake III

Hal ini tidak mengherankan, karena kecepatan reaksi AI jauh lebih tinggi dibandingkan manusia, sehingga memberikan keuntungan signifikan bagi AI dalam percobaan awal. Namun meski akurasi agen berkurang dan waktu reaksi meningkat berkat latensi bawaan 257 milidetik, AI masih mengungguli manusia. Pemain tingkat lanjut dan kasual masing-masing hanya memenangkan 21% dan 12% dari total permainan.

Selain itu, setelah penelitian dipublikasikan, para ilmuwan memutuskan untuk menguji agen pada peta Quake III Arena yang lengkap dengan arsitektur tingkat kompleks dan objek tambahan, seperti Future Crossings dan Ironwood, di mana AI mulai berhasil menantang manusia dalam pertandingan uji. . Ketika para peneliti melihat pola aktivasi jaringan saraf agen, yaitu fungsi neuron yang bertanggung jawab untuk menentukan keluaran berdasarkan informasi yang masuk, mereka menemukan kelompok yang mewakili ruangan, status bendera, visibilitas rekan satu tim dan lawan, dan ada atau tidaknya agen di markas musuh, atau berbasis tim, dan aspek gameplay penting lainnya. Agen terlatih bahkan berisi neuron yang mengkodekan situasi tertentu secara langsung, seperti saat sebuah bendera diambil oleh agen atau saat sekutu memegangnya.

“Saya pikir salah satu hal yang perlu diperhatikan adalah tim multi-agen ini sangat kuat, dan penelitian kami menunjukkan hal itu,” kata Jaderberg. “Itulah yang telah kami pelajari untuk dilakukan dengan lebih baik dan lebih baik lagi selama beberapa tahun terakhir—bagaimana memecahkan masalah pembelajaran penguatan.” Dan pelatihan yang ditingkatkan ini benar-benar berhasil dengan cemerlang.”

Thore Graepel, profesor ilmu komputer di University College London dan ilmuwan DeepMind, yakin bahwa penelitian mereka menyoroti potensi pembelajaran multi-agen untuk masa depan AI. Hal ini juga dapat berfungsi sebagai dasar untuk penelitian interaksi manusia-mesin dan sistem yang saling melengkapi atau bekerja sama.

“Hasil kami menunjukkan bahwa pembelajaran penguatan multi-agen dapat berhasil menguasai permainan yang kompleks hingga pada titik di mana pemain manusia bahkan percaya bahwa pemain komputer dapat menjadi rekan satu tim yang lebih baik. Studi ini juga memberikan analisis mendalam yang sangat menarik tentang bagaimana agen terlatih berperilaku dan bekerja sama, kata Grapel. “Apa yang membuat hasil ini sangat menarik adalah bahwa para agen ini melihat lingkungan mereka secara langsung, [yaitu] seperti pemain manusia. Untuk mempelajari cara bermain secara taktis dan bekerja sama dengan rekan satu tim mereka, para agen ini harus mengandalkan umpan balik dari hasil permainan, tanpa ada guru atau pelatih yang menunjukkan apa yang harus mereka lakukan."



Sumber: 3dnews.ru

Tambah komentar