Pembelajaran penguatan atau strategi evolusi? - Keduanya

Hei Habr!

Kami jarang memutuskan untuk memposting di sini terjemahan teks yang berumur dua tahun, tanpa kode dan jelas bersifat akademis - tetapi hari ini kami akan membuat pengecualian. Kami berharap dilema yang ditimbulkan dalam judul artikel ini membuat khawatir banyak pembaca kami, dan Anda telah membaca karya mendasar tentang strategi evolusi yang menjadi dasar argumen postingan ini dalam versi aslinya atau akan membacanya sekarang. Selamat datang di kucing!

Pembelajaran penguatan atau strategi evolusi? - Keduanya

Pada bulan Maret 2017, OpenAI membuat gebrakan di komunitas pembelajaran mendalam dengan makalah “Strategi Evolusi sebagai Alternatif yang Dapat Diskalakan untuk Pembelajaran Penguatan" Karya ini menggambarkan hasil yang mengesankan karena fakta bahwa pembelajaran penguatan (RL) belum menjadi hambatan, dan ketika melatih jaringan saraf yang kompleks, disarankan untuk mencoba metode lain. Perdebatan kemudian muncul mengenai pentingnya pembelajaran penguatan dan betapa pantasnya statusnya sebagai teknologi yang “harus dimiliki” untuk mengajarkan pemecahan masalah. Di sini saya ingin mengatakan bahwa kedua teknologi ini tidak boleh dianggap bersaing, yang satu jelas lebih baik dari yang lain; sebaliknya, mereka pada akhirnya saling melengkapi. Memang benar, jika Anda berpikir sedikit tentang apa yang diperlukan untuk menciptakannya AI umum dan sistem-sistem tersebut, yang sepanjang keberadaannya mampu melakukan pembelajaran, penilaian dan perencanaan, maka kita hampir pasti akan sampai pada kesimpulan bahwa solusi gabungan ini atau itu akan diperlukan. Ngomong-ngomong, solusi gabungan inilah yang diambil oleh alam, yang menganugerahi mamalia dan hewan tingkat tinggi lainnya dengan kecerdasan kompleks selama evolusi.

Strategi Evolusioner

Tesis utama makalah OpenAI adalah, alih-alih menggunakan pembelajaran penguatan yang dikombinasikan dengan propagasi mundur tradisional, mereka berhasil melatih jaringan saraf untuk memecahkan masalah kompleks menggunakan apa yang mereka sebut “strategi evolusioner” (ES). Pendekatan ES ini terdiri dari mempertahankan distribusi bobot di seluruh jaringan, yang melibatkan banyak agen yang bekerja secara paralel dan menggunakan parameter yang dipilih dari distribusi ini. Setiap agen beroperasi di lingkungannya sendiri, dan setelah menyelesaikan sejumlah episode atau tahapan tertentu dari sebuah episode, algoritme mengembalikan hadiah kumulatif, yang dinyatakan sebagai skor kebugaran. Dengan mempertimbangkan nilai ini, distribusi parameter dapat dialihkan ke agen yang lebih sukses, dan merugikan agen yang kurang berhasil. Dengan mengulangi operasi seperti itu jutaan kali dengan partisipasi ratusan agen, dimungkinkan untuk memindahkan distribusi bobot ke ruang yang memungkinkan agen merumuskan kebijakan berkualitas tinggi untuk menyelesaikan tugas yang diberikan kepada mereka. Memang benar, hasil yang disajikan dalam artikel ini sangat mengesankan: terlihat bahwa jika Anda menjalankan seribu agen secara paralel, maka penggerak antropomorfik dengan dua kaki dapat dipelajari dalam waktu kurang dari setengah jam (sementara metode RL yang paling canggih sekalipun memerlukan pengeluaran lebih banyak). dari satu jam untuk ini). Untuk informasi lebih detail, saya sarankan membaca yang terbaik pos dari penulis percobaan, serta artikel ilmiah.

Pembelajaran penguatan atau strategi evolusi? - Keduanya

Berbagai strategi untuk mengajarkan berjalan tegak antropomorfik, dipelajari menggunakan metode ES dari OpenAI.

Kotak hitam

Keuntungan besar dari metode ini adalah dapat dengan mudah diparalelkan. Meskipun metode RL, seperti A3C, memerlukan pertukaran informasi antara thread pekerja dan server parameter, ES hanya memerlukan perkiraan kebugaran dan informasi distribusi parameter umum. Karena kesederhanaan inilah metode ini jauh di depan metode RL modern dalam hal kemampuan penskalaan. Namun, semua ini tidak sia-sia: Anda harus mengoptimalkan jaringan sesuai dengan prinsip kotak hitam. Dalam hal ini, "kotak hitam" berarti bahwa selama pelatihan, struktur internal jaringan sepenuhnya diabaikan, dan hanya hasil keseluruhan (hadiah untuk episode) yang digunakan, dan tergantung pada apakah bobot jaringan tertentu akan sesuai. diwarisi oleh generasi berikutnya. Dalam situasi di mana kita tidak menerima banyak umpan balik dari lingkungan—dan dalam banyak masalah RL tradisional, aliran imbalannya sangat jarang—masalahnya berubah dari "kotak hitam sebagian" menjadi "kotak hitam sepenuhnya". Dalam hal ini, Anda dapat meningkatkan produktivitas secara signifikan, jadi tentu saja kompromi seperti itu dapat dibenarkan. “Siapa yang butuh gradien jika berisik sekali?” - ini adalah pendapat umum.

Namun, dalam situasi di mana umpan balik lebih aktif, hal-hal buruk mulai terjadi pada ES. Tim OpenAI menjelaskan bagaimana jaringan klasifikasi MNIST sederhana dilatih menggunakan ES, dan kali ini pelatihannya 1000 kali lebih lambat. Faktanya adalah bahwa sinyal gradien dalam klasifikasi gambar sangat informatif mengenai cara mengajarkan klasifikasi jaringan yang lebih baik. Oleh karena itu, masalahnya lebih sedikit pada teknik RL dan lebih banyak pada reward yang jarang di lingkungan yang menghasilkan gradien yang bising.

Solusi alam

Jika kita mencoba belajar dari contoh alam, memikirkan cara mengembangkan AI, maka dalam beberapa kasus AI dapat dianggap sebagai pendekatan yang berorientasi pada masalah. Bagaimanapun, alam beroperasi dalam batasan yang tidak dimiliki oleh para ilmuwan komputer. Ada anggapan bahwa pendekatan teoritis murni dalam memecahkan suatu masalah tertentu dapat memberikan solusi yang lebih efektif dibandingkan alternatif empiris. Namun, menurut saya, akan bermanfaat untuk menguji bagaimana sistem dinamis yang beroperasi di bawah batasan tertentu (Bumi) telah menghasilkan agen (hewan, khususnya mamalia) yang mampu berperilaku fleksibel dan kompleks. Meskipun beberapa batasan ini tidak berlaku dalam dunia simulasi ilmu data, batasan lainnya baik-baik saja.

Setelah meneliti perilaku intelektual mamalia, kita melihat bahwa perilaku tersebut terbentuk sebagai hasil dari pengaruh timbal balik yang kompleks dari dua proses yang saling berkaitan erat: belajar dari pengalaman orang lain и belajar dengan melakukan. Yang pertama sering disamakan dengan evolusi yang didorong oleh seleksi alam, namun di sini saya menggunakan istilah yang lebih luas untuk memperhitungkan epigenetika, mikrobioma, dan mekanisme lain yang memungkinkan pertukaran pengalaman antara organisme yang secara genetik tidak berkerabat. Proses kedua, belajar dari pengalaman, adalah semua informasi yang berhasil dipelajari hewan sepanjang hidupnya, dan informasi ini secara langsung ditentukan oleh interaksi hewan tersebut dengan dunia luar. Kategori ini mencakup segala hal mulai dari belajar mengenali objek hingga menguasai komunikasi yang melekat dalam proses pembelajaran.

Secara kasar, kedua proses yang terjadi di alam ini dapat dibandingkan dengan dua opsi untuk mengoptimalkan jaringan saraf. Strategi evolusi, di mana informasi tentang gradien digunakan untuk memperbarui informasi tentang organisme, hampir sama dengan belajar dari pengalaman orang lain. Demikian pula, metode gradien, di mana memperoleh pengalaman tertentu mengarah pada perubahan tertentu dalam perilaku agen, sebanding dengan belajar dari pengalaman sendiri. Jika kita memikirkan jenis perilaku atau kemampuan cerdas yang dikembangkan oleh masing-masing pendekatan ini pada hewan, perbandingannya menjadi lebih jelas. Dalam kedua kasus tersebut, “metode evolusioner” mendorong studi tentang perilaku reaktif yang memungkinkan seseorang mengembangkan kebugaran tertentu (cukup untuk tetap hidup). Belajar berjalan atau melarikan diri dari penangkaran dalam banyak kasus setara dengan perilaku yang lebih “naluriah” yang “terprogram” pada banyak hewan pada tingkat genetik. Selain itu, contoh ini menegaskan bahwa metode evolusi dapat diterapkan dalam kasus di mana sinyal penghargaan sangat jarang terjadi (misalnya, fakta keberhasilan membesarkan bayi). Dalam kasus seperti itu, tidak mungkin untuk mengkorelasikan imbalan dengan serangkaian tindakan tertentu yang mungkin telah dilakukan bertahun-tahun sebelum terjadinya fakta ini. Di sisi lain, jika kita mempertimbangkan kasus di mana ES gagal, yaitu klasifikasi gambar, hasilnya sangat sebanding dengan hasil pembelajaran hewan yang dicapai dalam eksperimen psikologis perilaku yang tak terhitung jumlahnya yang dilakukan selama lebih dari 100 tahun.

Belajar dari Hewan

Metode yang digunakan dalam pembelajaran penguatan dalam banyak kasus diambil langsung dari literatur psikologi pengkondisian operan, dan pengkondisian operan dipelajari menggunakan psikologi hewan. Omong-omong, Richard Sutton, salah satu dari dua pendiri pembelajaran penguatan, memiliki gelar sarjana di bidang psikologi. Dalam konteks pengkondisian operan, hewan belajar mengasosiasikan penghargaan atau hukuman dengan pola perilaku tertentu. Pelatih dan peneliti dapat memanipulasi asosiasi penghargaan ini dengan satu atau lain cara, memprovokasi hewan untuk menunjukkan kecerdasan atau perilaku tertentu. Namun, pengkondisian operan, seperti yang digunakan dalam penelitian pada hewan, tidak lebih dari suatu bentuk pengondisian yang sama yang menjadi dasar pembelajaran hewan sepanjang hidup mereka. Kita terus-menerus menerima sinyal penguatan positif dari lingkungan dan menyesuaikan perilaku kita. Faktanya, banyak ahli saraf dan ilmuwan kognitif percaya bahwa manusia dan hewan lain sebenarnya beroperasi pada tingkat yang lebih tinggi dan terus belajar memprediksi hasil perilaku mereka di masa depan berdasarkan potensi imbalannya.

Peran sentral prediksi dalam belajar dari pengalaman mengubah dinamika yang dijelaskan di atas secara signifikan. Sinyal yang tadinya dianggap sangat jarang (episodic reward) ternyata sangat padat. Secara teoritis, situasinya kira-kira seperti ini: pada waktu tertentu, otak mamalia menghitung hasil berdasarkan aliran rangsangan dan tindakan sensorik yang kompleks, sementara hewan hanya tenggelam dalam aliran ini. Dalam hal ini, perilaku akhir hewan memberikan sinyal kuat yang harus digunakan sebagai panduan penyesuaian prakiraan dan perkembangan perilaku. Otak menggunakan semua sinyal ini untuk mengoptimalkan perkiraan (dan kualitas tindakan yang diambil) di masa depan. Tinjauan umum tentang pendekatan ini diberikan dalam buku yang sangat bagus “Ketidakpastian Berselancar” ilmuwan kognitif dan filsuf Andy Clark. Jika kita mengekstrapolasi alasan tersebut ke pelatihan agen buatan, maka kelemahan mendasar dalam pembelajaran penguatan akan terungkap: sinyal yang digunakan dalam paradigma ini sangat lemah dibandingkan dengan apa yang seharusnya (atau seharusnya). Dalam kasus di mana tidak mungkin untuk meningkatkan saturasi sinyal (mungkin karena lemah atau terkait dengan reaktivitas tingkat rendah), mungkin lebih baik memilih metode pelatihan yang diparalelkan dengan baik, misalnya ES.

Pelatihan jaringan saraf yang lebih kaya

Berdasarkan prinsip aktivitas saraf tingkat tinggi yang melekat pada otak mamalia, yang terus-menerus sibuk membuat prediksi, kemajuan terkini telah dicapai dalam pembelajaran penguatan, yang kini mempertimbangkan pentingnya prediksi tersebut. Saya dapat langsung merekomendasikan dua karya serupa kepada Anda:

Dalam kedua makalah ini, penulis melengkapi kebijakan default jaringan saraf mereka dengan hasil prediksi tentang keadaan lingkungan di masa depan. Pada artikel pertama, peramalan diterapkan pada berbagai variabel pengukuran, dan pada artikel kedua, peramalan diterapkan pada perubahan lingkungan dan perilaku agen. Dalam kedua kasus tersebut, sinyal jarang yang terkait dengan penguatan positif menjadi lebih kaya dan lebih informatif, memungkinkan pembelajaran lebih cepat dan perolehan perilaku yang lebih kompleks. Peningkatan tersebut hanya tersedia dengan metode yang menggunakan sinyal gradien, dan tidak dengan metode yang beroperasi berdasarkan prinsip “kotak hitam”, seperti ES.

Selain itu, belajar dari pengalaman dan metode gradien jauh lebih efektif. Bahkan dalam kasus di mana dimungkinkan untuk mempelajari masalah tertentu dengan menggunakan metode ES lebih cepat daripada menggunakan pembelajaran penguatan, keuntungan tersebut dicapai karena fakta bahwa strategi ES melibatkan lebih banyak data dibandingkan dengan RL. Dalam hal ini merefleksikan prinsip-prinsip pembelajaran pada hewan, kami mencatat bahwa hasil pembelajaran dari contoh orang lain muncul setelah beberapa generasi, sementara terkadang satu peristiwa yang dialami sendiri sudah cukup bagi hewan untuk mempelajari pelajaran tersebut selamanya. Sementara seperti pelatihan tanpa contoh Meskipun tidak cocok dengan metode gradien tradisional, ini jauh lebih mudah dipahami daripada ES. Misalnya, ada pendekatan seperti kontrol episodik saraf, di mana nilai-Q disimpan selama pelatihan, setelah itu program memeriksanya sebelum mengambil tindakan. Hasilnya adalah metode gradien yang memungkinkan Anda mempelajari cara memecahkan masalah lebih cepat dari sebelumnya. Dalam sebuah artikel tentang kontrol episodik saraf, penulis menyebutkan hipokampus manusia, yang mampu menyimpan informasi tentang suatu peristiwa bahkan setelah satu pengalaman dan, oleh karena itu, berperan peran penting dalam proses mengingat. Mekanisme seperti itu memerlukan akses ke organisasi internal agen, yang menurut definisinya juga tidak mungkin dilakukan dalam paradigma ES.

Jadi mengapa tidak menggabungkannya?

Kemungkinan besar artikel ini meninggalkan kesan bahwa saya menganjurkan metode RL. Namun, menurut saya, dalam jangka panjang, solusi terbaik adalah menggabungkan kedua metode tersebut, sehingga masing-masing metode digunakan dalam situasi yang paling sesuai. Tentu saja, dalam kasus banyak kebijakan reaktif atau dalam situasi dengan sinyal penguatan positif yang sangat sedikit, ES menang, terutama jika Anda memiliki daya komputasi yang dapat digunakan untuk menjalankan pelatihan paralel secara besar-besaran. Di sisi lain, metode gradien yang menggunakan pembelajaran penguatan atau pembelajaran yang diawasi akan berguna ketika kita memiliki akses terhadap umpan balik yang luas dan perlu mempelajari cara memecahkan masalah dengan cepat dan dengan lebih sedikit data.

Beralih ke alam, kita menemukan bahwa metode pertama, pada dasarnya, meletakkan dasar bagi metode kedua. Inilah sebabnya, selama evolusi, mamalia telah mengembangkan otak yang memungkinkan mereka belajar dengan sangat efektif dari sinyal kompleks yang datang dari lingkungan. Jadi, pertanyaannya tetap terbuka. Mungkin strategi evolusi akan membantu kita menemukan arsitektur pembelajaran efektif yang juga berguna untuk metode pembelajaran gradien. Bagaimanapun, solusi yang ditemukan oleh alam memang sangat berhasil.

Sumber: www.habr.com

Tambah komentar