🥇Pembelajaran pengukuhan atau strategi evolusi? — Kedua-duanya

Hai Habr!

Kami tidak selalunya memutuskan untuk menyiarkan di sini terjemahan teks yang berusia dua tahun, tanpa kod dan jelas bersifat akademik - tetapi hari ini kami akan membuat pengecualian. Kami berharap bahawa dilema yang ditimbulkan dalam tajuk artikel itu membimbangkan ramai pembaca kami, dan anda telah pun membaca karya asas mengenai strategi evolusi yang dengannya post ini berhujah dalam asal atau akan membacanya sekarang. Selamat datang ke kucing!

Pada Mac 2017, OpenAI membuat gelombang dalam komuniti pembelajaran mendalam dengan kertas “Strategi Evolusi sebagai Alternatif Berskala kepada Pembelajaran Pengukuhan" Kerja ini menggambarkan hasil yang mengagumkan yang memihak kepada fakta bahawa pembelajaran tetulang (RL) tidak menjadi baji, dan apabila melatih rangkaian saraf yang kompleks, adalah dinasihatkan untuk mencuba kaedah lain. Perdebatan kemudian tercetus mengenai kepentingan pembelajaran pengukuhan dan betapa layaknya statusnya sebagai teknologi "mesti ada" untuk pengajaran penyelesaian masalah. Di sini saya ingin mengatakan bahawa kedua-dua teknologi ini tidak boleh dianggap sebagai bersaing, satu daripadanya jelas lebih baik daripada yang lain; sebaliknya, mereka akhirnya saling melengkapi. Memang, jika anda berfikir sedikit tentang apa yang diperlukan untuk mencipta AI am dan sistem sedemikian, yang sepanjang kewujudannya akan berupaya untuk belajar, membuat pertimbangan dan merancang, maka kita hampir pasti akan sampai pada kesimpulan bahawa penyelesaian gabungan ini atau itu akan diperlukan. Ngomong-ngomong, penyelesaian gabungan inilah yang diperoleh oleh alam semula jadi, yang memberikan mamalia dan haiwan lebih tinggi lain dengan kecerdasan kompleks semasa evolusi.

Strategi Evolusi

Tesis utama kertas OpenAI ialah, daripada menggunakan pembelajaran pengukuhan yang digabungkan dengan perambatan balik tradisional, mereka berjaya melatih rangkaian saraf untuk menyelesaikan masalah kompleks menggunakan apa yang mereka panggil "strategi evolusi" (ES). Pendekatan ES ini terdiri daripada mengekalkan pengedaran berat seluruh rangkaian, melibatkan berbilang ejen yang bekerja secara selari dan menggunakan parameter yang dipilih daripada pengedaran ini. Setiap ejen beroperasi dalam persekitarannya sendiri, dan setelah menyelesaikan bilangan episod atau peringkat episod tertentu, algoritma mengembalikan ganjaran terkumpul, dinyatakan sebagai skor kecergasan. Dengan mengambil kira nilai ini, pengedaran parameter boleh dialihkan ke arah ejen yang lebih berjaya, menafikan ejen yang kurang berjaya. Dengan mengulangi operasi sedemikian berjuta-juta kali dengan penyertaan beratus-ratus ejen, adalah mungkin untuk memindahkan pengagihan pemberat ke ruang yang membolehkan ejen merumuskan dasar berkualiti tinggi untuk menyelesaikan tugas yang diberikan kepada mereka. Sesungguhnya, hasil yang dibentangkan dalam artikel itu mengagumkan: ditunjukkan bahawa jika anda menjalankan seribu ejen secara selari, maka pergerakan antropomorfik pada dua kaki boleh dipelajari dalam masa kurang daripada setengah jam (sementara kaedah RL yang paling maju memerlukan perbelanjaan lebih daripada satu jam pada ini). Untuk maklumat yang lebih terperinci, saya cadangkan membaca yang sangat baik jawatan daripada pengarang eksperimen, serta artikel ilmiah.

Strategi yang berbeza untuk mengajar berjalan tegak antropomorfik, dikaji menggunakan kaedah ES daripada OpenAI.

Kotak hitam

Faedah besar kaedah ini ialah ia boleh disejajarkan dengan mudah. Walaupun kaedah RL, seperti A3C, memerlukan maklumat untuk ditukar antara benang pekerja dan pelayan parameter, ES hanya memerlukan anggaran kecergasan dan maklumat pengedaran parameter umum. Disebabkan oleh kesederhanaan inilah kaedah ini jauh mendahului kaedah RL moden dari segi keupayaan penskalaan. Walau bagaimanapun, semua ini tidak sia-sia: anda perlu mengoptimumkan rangkaian mengikut prinsip kotak hitam. Dalam kes ini, "kotak hitam" bermaksud bahawa semasa latihan, struktur dalaman rangkaian diabaikan sepenuhnya, dan hanya hasil keseluruhan (ganjaran untuk episod) digunakan, dan bergantung padanya sama ada pemberat rangkaian tertentu akan akan diwarisi oleh generasi seterusnya. Dalam situasi di mana kami tidak menerima banyak maklum balas daripada persekitaran—dan dalam banyak masalah RL tradisional aliran ganjaran adalah sangat jarang—masalahnya berubah daripada menjadi "kotak hitam sebahagian" kepada "kotak hitam sepenuhnya." Dalam kes ini, anda boleh meningkatkan produktiviti dengan ketara, jadi, sudah tentu, kompromi sedemikian adalah wajar. "Siapa yang memerlukan kecerunan jika mereka sangat bising?" - ini adalah pendapat umum.

Walau bagaimanapun, dalam situasi di mana maklum balas lebih aktif, perkara mula menjadi salah untuk ES. Pasukan OpenAI menerangkan cara rangkaian klasifikasi MNIST mudah dilatih menggunakan ES, dan latihan kali ini adalah 1000 kali lebih perlahan. Hakikatnya ialah isyarat kecerunan dalam klasifikasi imej sangat bermaklumat mengenai cara mengajar rangkaian klasifikasi yang lebih baik. Oleh itu, masalahnya adalah kurang dengan teknik RL dan lebih banyak dengan ganjaran yang jarang dalam persekitaran yang menghasilkan kecerunan yang bising.

Penyelesaian alam semula jadi

Jika kita cuba belajar daripada contoh alam semula jadi, memikirkan cara untuk membangunkan AI, maka dalam beberapa kes AI boleh dianggap sebagai pendekatan berorientasikan masalah. Lagipun, alam semula jadi beroperasi dalam kekangan yang tidak dimiliki oleh saintis komputer. Terdapat pendapat bahawa pendekatan teori semata-mata untuk menyelesaikan masalah tertentu boleh memberikan penyelesaian yang lebih berkesan daripada alternatif empirikal. Walau bagaimanapun, saya masih fikir adalah berbaloi untuk menguji bagaimana sistem dinamik yang beroperasi di bawah kekangan tertentu (Bumi) telah menjana agen (haiwan, terutamanya mamalia) yang mampu melakukan tingkah laku yang fleksibel dan kompleks. Walaupun beberapa kekangan ini tidak digunakan dalam dunia sains data simulasi, yang lain adalah baik.

Setelah meneliti tingkah laku intelektual mamalia, kita melihat bahawa ia terbentuk akibat pengaruh bersama yang kompleks dari dua proses yang saling berkait rapat: belajar dari pengalaman orang lain и belajar dengan melakukan. Yang pertama sering disamakan dengan evolusi yang didorong oleh pemilihan semula jadi, tetapi di sini saya menggunakan istilah yang lebih luas untuk mengambil kira epigenetik, mikrobiom, dan mekanisme lain yang membolehkan perkongsian pengalaman antara organisma yang tidak berkaitan secara genetik. Proses kedua, belajar daripada pengalaman, adalah semua maklumat yang haiwan berjaya belajar sepanjang hayatnya, dan maklumat ini secara langsung ditentukan oleh interaksi haiwan ini dengan dunia luar. Kategori ini merangkumi segala-galanya daripada belajar mengenali objek kepada menguasai komunikasi yang wujud dalam proses pembelajaran.

Secara kasarnya, kedua-dua proses yang berlaku secara semula jadi ini boleh dibandingkan dengan dua pilihan untuk mengoptimumkan rangkaian saraf. Strategi evolusi, di mana maklumat tentang kecerunan digunakan untuk mengemas kini maklumat tentang organisma, mendekati pembelajaran daripada pengalaman orang lain. Begitu juga, kaedah kecerunan, di mana memperoleh satu atau pengalaman lain membawa kepada satu atau satu lagi perubahan dalam tingkah laku ejen, adalah setanding dengan belajar daripada pengalaman sendiri. Jika kita berfikir tentang jenis tingkah laku atau kebolehan pintar yang setiap satu daripada kedua pendekatan ini berkembang dalam haiwan, perbandingan menjadi lebih ketara. Dalam kedua-dua kes, "kaedah evolusi" menggalakkan kajian tingkah laku reaktif yang membolehkan seseorang mengembangkan kecergasan tertentu (cukup untuk terus hidup). Belajar berjalan atau melarikan diri dari kurungan dalam banyak kes bersamaan dengan lebih banyak tingkah laku "naluri" yang "berwayar keras" dalam banyak haiwan pada peringkat genetik. Di samping itu, contoh ini mengesahkan bahawa kaedah evolusi boleh digunakan dalam kes di mana isyarat ganjaran sangat jarang berlaku (contohnya, fakta kejayaan membesarkan bayi). Dalam kes sedemikian, adalah mustahil untuk mengaitkan ganjaran dengan mana-mana set tindakan tertentu yang mungkin telah dilakukan bertahun-tahun sebelum berlakunya fakta ini. Sebaliknya, jika kita mempertimbangkan kes di mana ES gagal, iaitu klasifikasi imej, hasilnya adalah sangat setanding dengan hasil pembelajaran haiwan yang dicapai dalam eksperimen psikologi tingkah laku yang tidak terkira banyaknya yang dijalankan selama lebih 100 tahun.

Belajar daripada Haiwan

Kaedah yang digunakan dalam pembelajaran pengukuhan dalam banyak kes diambil secara langsung daripada literatur psikologi pada pelaziman operan, dan pelaziman operan dikaji menggunakan psikologi haiwan. Dengan cara ini, Richard Sutton, salah seorang daripada dua pengasas pembelajaran pengukuhan, mempunyai ijazah sarjana muda dalam psikologi. Dalam konteks pelaziman operan, haiwan belajar mengaitkan ganjaran atau hukuman dengan corak tingkah laku tertentu. Jurulatih dan penyelidik boleh memanipulasi persatuan ganjaran ini dalam satu atau lain cara, memprovokasi haiwan untuk menunjukkan kecerdasan atau tingkah laku tertentu. Walau bagaimanapun, pelaziman operan, seperti yang digunakan dalam penyelidikan haiwan, tidak lebih daripada satu bentuk pelaziman yang sama yang lebih jelas berdasarkan yang haiwan belajar sepanjang hayat mereka. Kami sentiasa menerima isyarat peneguhan positif daripada persekitaran dan menyesuaikan tingkah laku kami dengan sewajarnya. Malah, ramai ahli sains saraf dan saintis kognitif percaya bahawa manusia dan haiwan lain sebenarnya beroperasi pada tahap yang lebih tinggi dan terus belajar untuk meramalkan hasil tingkah laku mereka dalam situasi masa depan berdasarkan potensi ganjaran.

Peranan utama ramalan dalam pembelajaran daripada pengalaman mengubah dinamik yang diterangkan di atas dengan cara yang ketara. Isyarat yang sebelum ini dianggap sangat jarang (ganjaran episod) ternyata sangat padat. Secara teorinya, keadaannya adalah seperti ini: pada bila-bila masa, otak mamalia mengira hasil berdasarkan aliran kompleks rangsangan dan tindakan deria, manakala haiwan itu hanya tenggelam dalam aliran ini. Dalam kes ini, tingkah laku akhir haiwan memberikan isyarat kuat yang mesti digunakan untuk membimbing pembetulan ramalan dan perkembangan tingkah laku. Otak menggunakan semua isyarat ini untuk mengoptimumkan ramalan (dan, dengan itu, kualiti tindakan yang diambil) pada masa hadapan. Gambaran keseluruhan pendekatan ini diberikan dalam buku yang sangat baik "Ketidakpastian Melayari” saintis kognitif dan ahli falsafah Andy Clark. Jika kita mengekstrapolasi penaakulan sedemikian kepada latihan agen tiruan, maka kelemahan asas dalam pembelajaran pengukuhan didedahkan: isyarat yang digunakan dalam paradigma ini sangat lemah berbanding dengan apa yang mungkin (atau sepatutnya). Dalam kes di mana mustahil untuk meningkatkan ketepuan isyarat (mungkin kerana ia sememangnya lemah atau dikaitkan dengan kereaktifan tahap rendah), mungkin lebih baik untuk memilih kaedah latihan yang selari dengan baik, contohnya, ES.

Latihan rangkaian saraf yang lebih kaya

Membina prinsip aktiviti saraf yang lebih tinggi yang wujud dalam otak mamalia, yang sentiasa sibuk membuat ramalan, kemajuan terkini telah dibuat dalam pembelajaran pengukuhan, yang kini mengambil kira kepentingan ramalan tersebut. Saya boleh mengesyorkan dua karya serupa kepada anda dengan segera:

Dalam kedua-dua kertas kerja ini, penulis menambah dasar lalai tipikal rangkaian saraf mereka dengan hasil ramalan tentang keadaan persekitaran pada masa hadapan. Dalam artikel pertama, peramalan digunakan untuk pelbagai pembolehubah ukuran, dan dalam artikel kedua, peramalan digunakan untuk perubahan dalam persekitaran dan tingkah laku ejen seperti itu. Dalam kedua-dua kes, isyarat jarang yang dikaitkan dengan peneguhan positif menjadi lebih kaya dan lebih bermaklumat, membolehkan kedua-dua pembelajaran lebih pantas dan pemerolehan tingkah laku yang lebih kompleks. Penambahbaikan sedemikian hanya tersedia dengan kaedah yang menggunakan isyarat kecerunan, dan bukan dengan kaedah yang beroperasi pada prinsip "kotak hitam", seperti ES.

Di samping itu, pembelajaran daripada pengalaman dan kaedah kecerunan adalah lebih berkesan. Walaupun dalam kes di mana kemungkinan untuk mengkaji masalah tertentu menggunakan kaedah ES lebih cepat daripada menggunakan pembelajaran pengukuhan, keuntungan dicapai disebabkan oleh fakta bahawa strategi ES melibatkan data berkali ganda lebih banyak berbanding dengan RL. Mencerminkan dalam kes ini mengenai prinsip pembelajaran dalam haiwan, kami perhatikan bahawa hasil pembelajaran daripada contoh orang lain memanifestasikan dirinya selepas beberapa generasi, sementara kadang-kadang satu peristiwa yang dialami dengan sendirinya sudah cukup untuk haiwan itu mempelajari pelajaran selama-lamanya. Sambil suka latihan tanpa contoh Walaupun ia tidak sesuai dengan kaedah kecerunan tradisional, ia lebih mudah difahami daripada ES. Terdapat, sebagai contoh, pendekatan seperti kawalan episodik saraf, di mana nilai-Q disimpan semasa proses latihan, selepas itu program menyemaknya sebelum mengambil tindakan. Hasilnya ialah kaedah kecerunan yang membolehkan anda mempelajari cara menyelesaikan masalah dengan lebih cepat daripada sebelumnya. Dalam artikel mengenai kawalan episod saraf, penulis menyebut hippocampus manusia, yang mampu mengekalkan maklumat tentang sesuatu peristiwa walaupun selepas satu pengalaman dan, oleh itu, memainkan peranan kritikal dalam proses mengingat. Mekanisme sedemikian memerlukan akses kepada organisasi dalaman ejen, yang juga, mengikut definisi, mustahil dalam paradigma ES.

Jadi, mengapa tidak menggabungkannya?

Kemungkinan besar kebanyakan artikel ini mungkin meninggalkan tanggapan bahawa saya menyokong kaedah RL. Walau bagaimanapun, saya sebenarnya berpendapat bahawa dalam jangka panjang penyelesaian terbaik adalah menggabungkan kedua-dua kaedah, supaya setiap kaedah digunakan dalam situasi yang paling sesuai. Jelas sekali, dalam kes banyak dasar reaktif atau dalam situasi dengan isyarat peneguhan positif yang sangat jarang, ES menang, terutamanya jika anda mempunyai kuasa pengkomputeran yang boleh anda gunakan untuk menjalankan latihan selari secara besar-besaran. Sebaliknya, kaedah kecerunan menggunakan pembelajaran pengukuhan atau pembelajaran terselia akan berguna apabila kita mempunyai akses kepada maklum balas yang meluas dan perlu belajar cara menyelesaikan masalah dengan cepat dan kurang data.

Beralih kepada alam semula jadi, kita mendapati bahawa kaedah pertama, pada dasarnya, meletakkan asas untuk yang kedua. Inilah sebabnya, sepanjang evolusi, mamalia telah membangunkan otak yang membolehkan mereka belajar dengan sangat berkesan daripada isyarat kompleks yang datang dari alam sekitar. Jadi, persoalannya tetap terbuka. Mungkin strategi evolusi akan membantu kami mencipta seni bina pembelajaran yang berkesan yang juga berguna untuk kaedah pembelajaran kecerunan. Lagipun, penyelesaian yang ditemui secara semula jadi sememangnya sangat berjaya.

Sumber: www.habr.com

Pembelajaran pengukuhan atau strategi evolusi? - Kedua-duanya