Hai Habr!
Kami tidak selalunya memutuskan untuk menyiarkan di sini terjemahan teks yang berusia dua tahun, tanpa kod dan jelas bersifat akademik - tetapi hari ini kami akan membuat pengecualian. Kami berharap bahawa dilema yang ditimbulkan dalam tajuk artikel itu membimbangkan ramai pembaca kami, dan anda telah pun membaca karya asas mengenai strategi evolusi yang dengannya post ini berhujah dalam asal atau akan membacanya sekarang. Selamat datang ke kucing!
Pada Mac 2017, OpenAI membuat gelombang dalam komuniti pembelajaran mendalam dengan kertas β
Strategi Evolusi
Tesis utama kertas OpenAI ialah, daripada menggunakan pembelajaran pengukuhan yang digabungkan dengan perambatan balik tradisional, mereka berjaya melatih rangkaian saraf untuk menyelesaikan masalah kompleks menggunakan apa yang mereka panggil "strategi evolusi" (ES). Pendekatan ES ini terdiri daripada mengekalkan pengedaran berat seluruh rangkaian, melibatkan berbilang ejen yang bekerja secara selari dan menggunakan parameter yang dipilih daripada pengedaran ini. Setiap ejen beroperasi dalam persekitarannya sendiri, dan setelah menyelesaikan bilangan episod atau peringkat episod tertentu, algoritma mengembalikan ganjaran terkumpul, dinyatakan sebagai skor kecergasan. Dengan mengambil kira nilai ini, pengedaran parameter boleh dialihkan ke arah ejen yang lebih berjaya, menafikan ejen yang kurang berjaya. Dengan mengulangi operasi sedemikian berjuta-juta kali dengan penyertaan beratus-ratus ejen, adalah mungkin untuk memindahkan pengagihan pemberat ke ruang yang membolehkan ejen merumuskan dasar berkualiti tinggi untuk menyelesaikan tugas yang diberikan kepada mereka. Sesungguhnya, hasil yang dibentangkan dalam artikel itu mengagumkan: ditunjukkan bahawa jika anda menjalankan seribu ejen secara selari, maka pergerakan antropomorfik pada dua kaki boleh dipelajari dalam masa kurang daripada setengah jam (sementara kaedah RL yang paling maju memerlukan perbelanjaan lebih daripada satu jam pada ini). Untuk maklumat yang lebih terperinci, saya cadangkan membaca yang sangat baik
Strategi yang berbeza untuk mengajar berjalan tegak antropomorfik, dikaji menggunakan kaedah ES daripada OpenAI.
Kotak hitam
Faedah besar kaedah ini ialah ia boleh disejajarkan dengan mudah. Walaupun kaedah RL, seperti A3C, memerlukan maklumat untuk ditukar antara benang pekerja dan pelayan parameter, ES hanya memerlukan anggaran kecergasan dan maklumat pengedaran parameter umum. Disebabkan oleh kesederhanaan inilah kaedah ini jauh mendahului kaedah RL moden dari segi keupayaan penskalaan. Walau bagaimanapun, semua ini tidak sia-sia: anda perlu mengoptimumkan rangkaian mengikut prinsip kotak hitam. Dalam kes ini, "kotak hitam" bermaksud bahawa semasa latihan, struktur dalaman rangkaian diabaikan sepenuhnya, dan hanya hasil keseluruhan (ganjaran untuk episod) digunakan, dan bergantung padanya sama ada pemberat rangkaian tertentu akan akan diwarisi oleh generasi seterusnya. Dalam situasi di mana kami tidak menerima banyak maklum balas daripada persekitaranβdan dalam banyak masalah RL tradisional aliran ganjaran adalah sangat jarangβmasalahnya berubah daripada menjadi "kotak hitam sebahagian" kepada "kotak hitam sepenuhnya." Dalam kes ini, anda boleh meningkatkan produktiviti dengan ketara, jadi, sudah tentu, kompromi sedemikian adalah wajar. "Siapa yang memerlukan kecerunan jika mereka sangat bising?" - ini adalah pendapat umum.
Walau bagaimanapun, dalam situasi di mana maklum balas lebih aktif, perkara mula menjadi salah untuk ES. Pasukan OpenAI menerangkan cara rangkaian klasifikasi MNIST mudah dilatih menggunakan ES, dan latihan kali ini adalah 1000 kali lebih perlahan. Hakikatnya ialah isyarat kecerunan dalam klasifikasi imej sangat bermaklumat mengenai cara mengajar rangkaian klasifikasi yang lebih baik. Oleh itu, masalahnya adalah kurang dengan teknik RL dan lebih banyak dengan ganjaran yang jarang dalam persekitaran yang menghasilkan kecerunan yang bising.
Penyelesaian alam semula jadi
Jika kita cuba belajar daripada contoh alam semula jadi, memikirkan cara untuk membangunkan AI, maka dalam beberapa kes AI boleh dianggap sebagai
Setelah meneliti tingkah laku intelektual mamalia, kita melihat bahawa ia terbentuk akibat pengaruh bersama yang kompleks dari dua proses yang saling berkait rapat: belajar dari pengalaman orang lain ΠΈ belajar dengan melakukan. Yang pertama sering disamakan dengan evolusi yang didorong oleh pemilihan semula jadi, tetapi di sini saya menggunakan istilah yang lebih luas untuk mengambil kira epigenetik, mikrobiom, dan mekanisme lain yang membolehkan perkongsian pengalaman antara organisma yang tidak berkaitan secara genetik. Proses kedua, belajar daripada pengalaman, adalah semua maklumat yang haiwan berjaya belajar sepanjang hayatnya, dan maklumat ini secara langsung ditentukan oleh interaksi haiwan ini dengan dunia luar. Kategori ini merangkumi segala-galanya daripada belajar mengenali objek kepada menguasai komunikasi yang wujud dalam proses pembelajaran.
Secara kasarnya, kedua-dua proses yang berlaku secara semula jadi ini boleh dibandingkan dengan dua pilihan untuk mengoptimumkan rangkaian saraf. Strategi evolusi, di mana maklumat tentang kecerunan digunakan untuk mengemas kini maklumat tentang organisma, mendekati pembelajaran daripada pengalaman orang lain. Begitu juga, kaedah kecerunan, di mana memperoleh satu atau pengalaman lain membawa kepada satu atau satu lagi perubahan dalam tingkah laku ejen, adalah setanding dengan belajar daripada pengalaman sendiri. Jika kita berfikir tentang jenis tingkah laku atau kebolehan pintar yang setiap satu daripada kedua pendekatan ini berkembang dalam haiwan, perbandingan menjadi lebih ketara. Dalam kedua-dua kes, "kaedah evolusi" menggalakkan kajian tingkah laku reaktif yang membolehkan seseorang mengembangkan kecergasan tertentu (cukup untuk terus hidup). Belajar berjalan atau melarikan diri dari kurungan dalam banyak kes bersamaan dengan lebih banyak tingkah laku "naluri" yang "berwayar keras" dalam banyak haiwan pada peringkat genetik. Di samping itu, contoh ini mengesahkan bahawa kaedah evolusi boleh digunakan dalam kes di mana isyarat ganjaran sangat jarang berlaku (contohnya, fakta kejayaan membesarkan bayi). Dalam kes sedemikian, adalah mustahil untuk mengaitkan ganjaran dengan mana-mana set tindakan tertentu yang mungkin telah dilakukan bertahun-tahun sebelum berlakunya fakta ini. Sebaliknya, jika kita mempertimbangkan kes di mana ES gagal, iaitu klasifikasi imej, hasilnya adalah sangat setanding dengan hasil pembelajaran haiwan yang dicapai dalam eksperimen psikologi tingkah laku yang tidak terkira banyaknya yang dijalankan selama lebih 100 tahun.
Belajar daripada Haiwan
Kaedah yang digunakan dalam pembelajaran pengukuhan dalam banyak kes diambil secara langsung daripada literatur psikologi pada
Peranan utama ramalan dalam pembelajaran daripada pengalaman mengubah dinamik yang diterangkan di atas dengan cara yang ketara. Isyarat yang sebelum ini dianggap sangat jarang (ganjaran episod) ternyata sangat padat. Secara teorinya, keadaannya adalah seperti ini: pada bila-bila masa, otak mamalia mengira hasil berdasarkan aliran kompleks rangsangan dan tindakan deria, manakala haiwan itu hanya tenggelam dalam aliran ini. Dalam kes ini, tingkah laku akhir haiwan memberikan isyarat kuat yang mesti digunakan untuk membimbing pembetulan ramalan dan perkembangan tingkah laku. Otak menggunakan semua isyarat ini untuk mengoptimumkan ramalan (dan, dengan itu, kualiti tindakan yang diambil) pada masa hadapan. Gambaran keseluruhan pendekatan ini diberikan dalam buku yang sangat baik "
Latihan rangkaian saraf yang lebih kaya
Membina prinsip aktiviti saraf yang lebih tinggi yang wujud dalam otak mamalia, yang sentiasa sibuk membuat ramalan, kemajuan terkini telah dibuat dalam pembelajaran pengukuhan, yang kini mengambil kira kepentingan ramalan tersebut. Saya boleh mengesyorkan dua karya serupa kepada anda dengan segera:
Dalam kedua-dua kertas kerja ini, penulis menambah dasar lalai tipikal rangkaian saraf mereka dengan hasil ramalan tentang keadaan persekitaran pada masa hadapan. Dalam artikel pertama, peramalan digunakan untuk pelbagai pembolehubah ukuran, dan dalam artikel kedua, peramalan digunakan untuk perubahan dalam persekitaran dan tingkah laku ejen seperti itu. Dalam kedua-dua kes, isyarat jarang yang dikaitkan dengan peneguhan positif menjadi lebih kaya dan lebih bermaklumat, membolehkan kedua-dua pembelajaran lebih pantas dan pemerolehan tingkah laku yang lebih kompleks. Penambahbaikan sedemikian hanya tersedia dengan kaedah yang menggunakan isyarat kecerunan, dan bukan dengan kaedah yang beroperasi pada prinsip "kotak hitam", seperti ES.
Di samping itu, pembelajaran daripada pengalaman dan kaedah kecerunan adalah lebih berkesan. Walaupun dalam kes di mana kemungkinan untuk mengkaji masalah tertentu menggunakan kaedah ES lebih cepat daripada menggunakan pembelajaran pengukuhan, keuntungan dicapai disebabkan oleh fakta bahawa strategi ES melibatkan data berkali ganda lebih banyak berbanding dengan RL. Mencerminkan dalam kes ini mengenai prinsip pembelajaran dalam haiwan, kami perhatikan bahawa hasil pembelajaran daripada contoh orang lain memanifestasikan dirinya selepas beberapa generasi, sementara kadang-kadang satu peristiwa yang dialami dengan sendirinya sudah cukup untuk haiwan itu mempelajari pelajaran selama-lamanya. Sambil suka
Jadi, mengapa tidak menggabungkannya?
Kemungkinan besar kebanyakan artikel ini mungkin meninggalkan tanggapan bahawa saya menyokong kaedah RL. Walau bagaimanapun, saya sebenarnya berpendapat bahawa dalam jangka panjang penyelesaian terbaik adalah menggabungkan kedua-dua kaedah, supaya setiap kaedah digunakan dalam situasi yang paling sesuai. Jelas sekali, dalam kes banyak dasar reaktif atau dalam situasi dengan isyarat peneguhan positif yang sangat jarang, ES menang, terutamanya jika anda mempunyai kuasa pengkomputeran yang boleh anda gunakan untuk menjalankan latihan selari secara besar-besaran. Sebaliknya, kaedah kecerunan menggunakan pembelajaran pengukuhan atau pembelajaran terselia akan berguna apabila kita mempunyai akses kepada maklum balas yang meluas dan perlu belajar cara menyelesaikan masalah dengan cepat dan kurang data.
Beralih kepada alam semula jadi, kita mendapati bahawa kaedah pertama, pada dasarnya, meletakkan asas untuk yang kedua. Inilah sebabnya, sepanjang evolusi, mamalia telah membangunkan otak yang membolehkan mereka belajar dengan sangat berkesan daripada isyarat kompleks yang datang dari alam sekitar. Jadi, persoalannya tetap terbuka. Mungkin strategi evolusi akan membantu kami mencipta seni bina pembelajaran yang berkesan yang juga berguna untuk kaedah pembelajaran kecerunan. Lagipun, penyelesaian yang ditemui secara semula jadi sememangnya sangat berjaya.
Sumber: www.habr.com