OpenAI mengajarkan kerja tim AI dalam permainan petak umpet

Permainan petak umpet kuno yang bagus bisa menjadi ujian yang bagus bagi bot kecerdasan buatan (AI) untuk menunjukkan bagaimana mereka membuat keputusan dan berinteraksi satu sama lain dan berbagai objek di sekitar mereka.

dalam karyanya artikel baru, diterbitkan oleh para peneliti dari OpenAI, sebuah organisasi penelitian kecerdasan buatan nirlaba yang menjadi terkenal kemenangan atas juara dunia dalam permainan komputer Dota 2, para ilmuwan menggambarkan bagaimana agen yang dikendalikan oleh kecerdasan buatan dilatih untuk lebih canggih dalam mencari dan bersembunyi satu sama lain di lingkungan virtual. Hasil penelitian menunjukkan bahwa tim yang terdiri dari dua bot belajar lebih efektif dan lebih cepat dibandingkan agen tunggal tanpa sekutu.

OpenAI mengajarkan kerja tim AI dalam permainan petak umpet

Para ilmuwan telah menggunakan metode yang telah lama terkenal pembelajaran mesin dengan penguatan, di mana kecerdasan buatan ditempatkan di lingkungan yang tidak diketahuinya, namun memiliki cara tertentu untuk berinteraksi dengannya, serta sistem penghargaan dan denda atas satu atau lain akibat dari tindakannya. Cara ini cukup efektif karena kemampuan AI untuk melakukan berbagai tindakan di lingkungan virtual dengan kecepatan luar biasa, jutaan kali lebih cepat dari yang bisa dibayangkan manusia. Hal ini memungkinkan trial and error untuk menemukan strategi yang paling efektif untuk memecahkan masalah tertentu. Namun pendekatan ini juga memiliki beberapa keterbatasan, misalnya, menciptakan lingkungan dan melakukan banyak siklus pelatihan memerlukan sumber daya komputasi yang besar, dan prosesnya sendiri memerlukan sistem yang akurat untuk membandingkan hasil tindakan AI dengan tujuannya. Selain itu, keterampilan yang diperoleh agen dengan cara ini terbatas pada tugas yang dijelaskan dan, setelah AI belajar mengatasinya, tidak akan ada peningkatan lebih lanjut.

Untuk melatih AI bermain petak umpet, para ilmuwan menggunakan pendekatan yang disebut “Eksplorasi tidak terarah”, yaitu pendekatan yang memungkinkan agen memiliki kebebasan penuh untuk mengembangkan pemahaman mereka tentang dunia game dan mengembangkan strategi kemenangan. Hal ini mirip dengan pendekatan pembelajaran multi-agen yang digunakan para peneliti di DeepMind ketika menggunakan beberapa sistem kecerdasan buatan dilatih untuk memainkan mode tangkap bendera di Quake III Arena. Seperti dalam kasus ini, agen AI sebelumnya tidak dilatih tentang aturan mainnya, namun seiring waktu mereka mempelajari strategi dasar dan bahkan mampu mengejutkan para peneliti dengan solusi yang tidak sepele.

Dalam permainan petak umpet, beberapa agen yang tugasnya bersembunyi diharuskan menghindari garis pandang lawannya setelah sedikit mendahului sementara tim agen pencari tidak bisa bergerak. Selain itu, “garis pandang” dalam konteks ini adalah kerucut 135 derajat di depan bot individu. Agen tidak dapat menjelajah terlalu jauh di luar area bermain dan dipaksa untuk menavigasi ruangan yang dibuat secara acak dengan kemampuan untuk menggunakan beberapa objek eksternal (kotak, dinding bergerak, jalur khusus) yang tersebar di sekitar yang dapat digunakan untuk membuat perlindungan dan menyusup ke dalamnya. .

OpenAI mengajarkan kerja tim AI dalam permainan petak umpet

Melalui proses pembelajaran yang panjang, para agen AI mempelajari enam strategi unik, yang masing-masing membantu mereka maju ke tahap permainan berikutnya. Pada awalnya, tim pencari dan penyembunyi hanya melarikan diri dan mengejar satu sama lain, tetapi setelah sekitar 25 juta pertandingan, tim penyembunyi belajar untuk memblokir jalan dengan kotak dan membangun tempat berlindung dari kotak tersebut. Setelah 75 juta pertandingan berikutnya, tim menemukan cara menggunakan jalur landai untuk masuk ke tempat persembunyian ini. Setelah 10 juta putaran berikutnya, penyembunyi belajar menyeret jalur landai ke tepi area permainan dan menguncinya di tempatnya untuk mencegah lawan menggunakannya.

OpenAI mengajarkan kerja tim AI dalam permainan petak umpet

Setelah 388 juta pertandingan, para pencari telah belajar menggunakan jalan yang diblokir untuk naik ke peti yang dibawa kepada mereka, dan kemudian, bergerak langsung ke peti tersebut, menembus tempat persembunyian musuh yang dibuat dari dinding portabel. Dan akhirnya, setelah 458 juta pertandingan, tim persembunyian menyimpulkan bahwa mereka perlu memblokir semua objek dan kemudian membangun tempat berlindung, yang tampaknya membawa kemenangan akhir mereka.

Yang sangat mengesankan adalah setelah 22 juta pertandingan, para agen belajar mengoordinasikan tindakan mereka dan efisiensi kolaborasi mereka semakin meningkat di masa depan, misalnya, masing-masing membawa kotak atau dindingnya sendiri untuk membuat tempat berlindung dan memilih objek yang akan dijadikan tempat berlindung. blok untuk membuat permainan lebih sulit bagi lawan.

OpenAI mengajarkan kerja tim AI dalam permainan petak umpet

Para ilmuwan juga mencatat poin penting terkait pengaruh jumlah objek pelatihan (jumlah data yang melewati jaringan saraf - “Ukuran Batch”) terhadap kecepatan pembelajaran. Model default memerlukan 132,3 juta kecocokan selama 34 jam pelatihan untuk mencapai titik di mana tim persembunyian belajar memblokir jalur landai, sementara lebih banyak data menghasilkan pengurangan waktu pelatihan yang nyata. Misalnya, meningkatkan jumlah parameter (sebagian data yang diperoleh selama seluruh proses pelatihan) dari 0,5 juta menjadi 5,8 juta meningkatkan efisiensi pengambilan sampel sebesar 2,2 kali lipat, dan meningkatkan ukuran data masukan dari 64 KB menjadi 128 KB mengurangi pelatihan waktu hampir satu setengah kali.

OpenAI mengajarkan kerja tim AI dalam permainan petak umpet

Di akhir pekerjaan mereka, para peneliti memutuskan untuk menguji seberapa banyak pelatihan dalam game dapat membantu agen mengatasi tugas serupa di luar game. Total ada lima tes: kesadaran akan jumlah objek (pemahaman bahwa suatu objek tetap ada meskipun tidak terlihat dan tidak digunakan); "mengunci dan mengembalikan" - kemampuan untuk mengingat posisi awal seseorang dan kembali ke sana setelah menyelesaikan beberapa tugas tambahan; “pemblokiran berurutan” - 4 kotak ditempatkan secara acak di tiga ruangan tanpa pintu, tetapi dengan jalur landai untuk masuk ke dalam, agen perlu menemukan dan memblokir semuanya; penempatan kotak pada lokasi yang telah ditentukan; membuat tempat berlindung disekitar suatu benda yang berbentuk silinder.

Hasilnya, dalam tiga dari lima tugas, bot yang telah menjalani pelatihan awal dalam game belajar lebih cepat dan menunjukkan hasil yang lebih baik dibandingkan AI yang dilatih untuk memecahkan masalah dari awal. Mereka tampil sedikit lebih baik dalam menyelesaikan tugas dan kembali ke posisi awal, secara berurutan memblokir kotak di ruangan tertutup, dan menempatkan kotak di area tertentu, namun tampil sedikit lebih lemah dalam mengenali jumlah objek dan membuat perlindungan di sekitar objek lain.

Para peneliti mengaitkan hasil yang beragam dengan cara AI mempelajari dan mengingat keterampilan tertentu. “Kami berpikir bahwa tugas-tugas di mana pra-pelatihan dalam game dilakukan paling baik melibatkan penggunaan kembali keterampilan yang dipelajari sebelumnya dengan cara yang familiar, sementara melakukan tugas-tugas lainnya dengan lebih baik daripada AI yang dilatih dari awal akan memerlukan penggunaannya dengan cara yang berbeda, yang mana banyak lebih sulit,” tulis rekan penulis karya tersebut. “Hasil ini menyoroti perlunya mengembangkan metode untuk secara efektif menggunakan kembali keterampilan yang diperoleh melalui pelatihan ketika mentransfernya dari satu lingkungan ke lingkungan lain.”

Pekerjaan yang dilakukan sungguh mengesankan, karena prospek penggunaan metode pengajaran ini jauh melampaui batas permainan apa pun. Para peneliti mengatakan pekerjaan mereka adalah langkah signifikan menuju penciptaan AI dengan perilaku “berbasis fisika” dan “mirip manusia” yang dapat mendiagnosis penyakit, memprediksi struktur molekul protein kompleks, dan menganalisis CT scan.

Dalam video di bawah ini Anda dapat melihat dengan jelas bagaimana keseluruhan proses pembelajaran berlangsung, bagaimana AI mempelajari kerja tim, dan strateginya menjadi semakin licik dan kompleks.



Sumber: 3dnews.ru

Tambah komentar