Pangajaran penguatan atanapi strategi évolusionér? - Duanana

Héy Habr!

Kami henteu sering mutuskeun masangkeun di dieu tarjamahan naskah anu umurna dua taun, tanpa kode sareng jelas sipat akademik - tapi ayeuna urang bakal ngadamel pengecualian. Kami ngarepkeun yén kantun anu ditimbulkeun dina judul tulisan éta hariwang ku seueur pamiarsa urang, sareng anjeun parantos maca karya dasar ngeunaan strategi évolusionér anu tulisan ieu nyatakeun dina aslina atanapi bakal maca ayeuna. Wilujeng sumping di ucing!

Pangajaran penguatan atanapi strategi évolusionér? - Duanana

Dina Maret 2017, OpenAI ngadamel gelombang di komunitas pembelajaran jero kalayan tulisan "Strategi Évolusi salaku Alternatif Scalable pikeun Pangajaran Panguatan.” Karya ieu digambarkeun hasil impressive dina ni'mat kanyataan yén learning tulangan (RL) teu jadi ngaganjel, sarta nalika latihan jaringan neural kompléks, éta sasaena pikeun nyobaan métode lianna. Hiji debat lajeng bitu ngeunaan pentingna learning tulangan jeung kumaha pantes statusna salaku téhnologi "kudu-kudu" pikeun ngarengsekeun masalah pangajaran. Di dieu Abdi hoyong nyebutkeun yén dua téknologi ieu teu kudu dianggap competing, salah sahiji nu jelas leuwih hade tinimbang nu séjén; sabalikna, aranjeunna pamustunganana ngalengkepan silih. Mémang, upami anjeun mikir sakedik ngeunaan naon anu diperyogikeun pikeun nyiptakeun umum AI sareng sistem sapertos kitu, anu sapanjang ayana bakal tiasa diajar, ngahukum sareng ngarencanakeun, maka urang ampir pasti bakal nyimpulkeun yén ieu atanapi éta solusi gabungan bakal diperyogikeun. Ku jalan kitu, éta persis solusi gabungan ieu alam sumping ka, nu endowed mamalia jeung sato luhur lianna kalayan kecerdasan kompléks salila évolusi.

Strategi évolusionér

Tésis utama makalah OpenAI éta, tinimbang ngagunakeun pembelajaran tulangan digabungkeun jeung backpropagation tradisional, aranjeunna hasil ngalatih jaringan saraf pikeun ngajawab masalah kompléks ngagunakeun naon maranéhna disebut "strategi évolusionér" (ES). Pendekatan ES ieu diwangun ku ngajaga distribusi beurat jaringan-lega, ngalibetkeun sababaraha agén anu tiasa dianggo paralel sareng nganggo parameter anu dipilih tina distribusi ieu. Unggal agén ngoperasikeun di lingkungan sorangan, sarta sanggeus parantosan jumlah husus tina episode atawa tahapan hiji episode, algoritma balik ganjaran kumulatif, dinyatakeun salaku skor kabugaran. Nganggap nilai ieu, sebaran parameter tiasa dialihkeun ka agén anu langkung suksés, ngaleungitkeun anu kirang suksés. Ku ngulang operasi sapertos jutaan kali kalayan partisipasi ratusan agén, anjeun tiasa mindahkeun distribusi beurat kana rohangan anu bakal ngamungkinkeun agén ngarumuskeun kawijakan kualitas luhur pikeun ngarengsekeun tugas anu ditugaskeun ka aranjeunna. Mémang, hasil anu disayogikeun dina tulisan éta matak pikaresepeun: nunjukkeun yén upami anjeun ngajalankeun sarébu agén paralel, maka gerak antropomorfik dina dua suku tiasa diajar kirang ti satengah jam (sanaos metode RL anu paling canggih ogé peryogi belanja langkung seueur. leuwih ti hiji jam dina ieu). Pikeun inpormasi anu langkung lengkep, kuring nyarankeun maca anu saé pasang ti pangarang percobaan, kitu ogé artikel ilmiah.

Pangajaran penguatan atanapi strategi évolusionér? - Duanana

Stratégi béda pikeun ngajarkeun leumpang tegak antropomorfik, diulik ngagunakeun métode ES ti OpenAI.

kotak hideung

Kauntungan hébat tina metoda ieu nyaéta gampang parallelized. Bari métode RL, kayaning A3C, merlukeun informasi pikeun disilihtukeurkeun antara threads worker jeung server parameter, ES ngan butuh estimasi kabugaran jeung informasi distribusi parameter generalized. Ieu alatan kesederhanaan ieu métode ieu jauh dihareupeun métode RL modern dina watesan kamampuhan skala. Nanging, sadayana ieu henteu sia-sia: anjeun kedah ngaoptimalkeun jaringan dumasar kana prinsip kotak hideung. Dina hal ieu, "kotak hideung" hartina salila latihan struktur internal jaringan sagemblengna dipaliré, sarta ngan hasil sakabéh (ganjaran pikeun episode) dipaké, sarta eta gumantung kana eta naha beurat jaringan tinangtu bakal. diwariskeun ku generasi saterusna. Dina kaayaan dimana urang teu narima loba eupan balik ti lingkungan-na dina loba masalah RL tradisional aliran ganjaran pisan sparse-masalah mana ti keur "kotak hideung sabagean" ka "kotak lengkep hideung." Dina hal ieu, anjeun tiasa sacara signifikan ningkatkeun produktivitas, janten, tangtosna, kompromi sapertos kitu diyakinkeun. "Saha anu peryogi gradién upami aranjeunna asa ribut waé?" - ieu pamadegan umum.

Nanging, dina kaayaan dimana eupan balik langkung aktip, hal-hal mimiti salah pikeun ES. Tim OpenAI ngajelaskeun kumaha jaringan klasifikasi MNIST basajan dilatih nganggo ES, sareng waktos latihan ieu 1000 kali langkung laun. Kanyataan yén sinyal gradién dina klasifikasi gambar pisan informatif ngeunaan kumaha carana ngajarkeun jaringan klasifikasi hadé. Ku kituna, masalahna kirang sareng téknik RL sareng seueur deui kalayan ganjaran anu jarang dina lingkungan anu ngahasilkeun gradién ribut.

Solusi alam

Upami urang nyobian diajar tina conto alam, mikiran cara pikeun ngembangkeun AI, maka dina sababaraha kasus AI tiasa dianggap salaku pendekatan berorientasi masalah. Barina ogé, alam beroperasi dina konstrain nu élmuwan komputer saukur teu boga. Aya pamadegan yén pendekatan téoritis murni pikeun ngarengsekeun masalah nu tangtu bisa nyadiakeun solusi leuwih éféktif batan alternatif empiris. Najan kitu, kuring masih pikir éta worthwhile pikeun nguji kumaha sistem dinamis beroperasi dina konstrain tangtu (Bumi) geus dihasilkeun agén (sato, utamana mamalia) sanggup kabiasaan fléksibel tur kompléks. Sanaos sababaraha konstrain ieu henteu dilarapkeun dina dunya élmu data simulasi, anu sanésna henteu kunanaon.

Saatos nalungtik paripolah intelektual mamalia, urang tingali yén éta kabentuk salaku hasil tina pangaruh silih kompleks tina dua prosés anu raket patalina: diajar tina pangalaman batur и diajar ku ngalakukeun. Anu baheula sering disaruakeun sareng évolusi anu didorong ku seléksi alam, tapi di dieu kuring nganggo istilah anu langkung lega pikeun tumut kana épigenetik, mikrobiom, sareng mékanisme sanés anu ngamungkinkeun babagi pangalaman antara organisme anu teu aya hubunganana genetik. Prosés kadua, diajar tina pangalaman, nyaéta sakabéh informasi nu sato manages diajar sapanjang hirupna, sarta informasi ieu langsung ditangtukeun ku interaksi sato ieu jeung dunya luar. Kategori ieu ngawengku sagalana ti diajar mikawanoh objék nepi ka mastering komunikasi alamiah dina prosés diajar.

Sacara kasar, dua prosés ieu anu lumangsung di alam tiasa dibandingkeun sareng dua pilihan pikeun ngaoptimalkeun jaringan saraf. Strategi évolusionér, dimana inpormasi ngeunaan gradién dianggo pikeun ngapdet inpormasi ngeunaan organisme, caket kana diajar tina pangalaman batur. Nya kitu, métode gradién, dimana meunangkeun hiji atawa pangalaman sejen ngabalukarkeun hiji atawa parobahan séjénna dina kabiasaan agén urang, anu comparable jeung diajar tina pangalaman sorangan. Lamun urang mikir ngeunaan jenis kabiasaan calakan atawa kamampuhan nu unggal dua pendekatan ieu tumuwuh dina sato, ngabandingkeun jadi leuwih dibaca. Dina duanana kasus, "métode évolusionér" ngamajukeun ulikan ngeunaan paripolah réaktif anu ngamungkinkeun hiji ngamekarkeun kabugaran tangtu (cukup pikeun tetep hirup). Diajar leumpang atawa kabur ti inguan dina loba kasus sarua jeung leuwih "instingtif" paripolah nu "hard-kabel" dina loba sato dina tingkat genetik. Salaku tambahan, conto ieu negeskeun yén metode évolusionér tiasa dianggo dina kasus dimana sinyal ganjaran jarang pisan (contona, kanyataan suksés ngasuh orok). Dina kasus sapertos kitu, mustahil pikeun ngahubungkeun ganjaran sareng set tindakan khusus anu tiasa dilakukeun mangtaun-taun sateuacan kajadian kanyataan ieu. Di sisi anu sanés, upami urang nganggap kasus dimana ES gagal, nyaéta klasifikasi gambar, hasilna tiasa dibandingkeun sareng hasil diajar sato anu dihontal dina percobaan psikologis paripolah anu teu kaétang anu dilakukeun salami 100-taun.

Diajar ti Sato

Métode anu digunakeun dina pangajaran penguatan dina loba kasus dicokot langsung tina literatur psikologi on udar operan, sarta udar operant ieu diulik ngagunakeun psikologi sato. Ku jalan kitu, Richard Sutton, salah sahiji dua pendiri pembelajaran tulangan, boga gelar sarjana muda di psikologi. Dina konteks udar operant, sato diajar ngahubungkeun ganjaran atawa hukuman jeung pola behavioral husus. Palatih sareng panaliti tiasa ngamanipulasi asosiasi ganjaran ieu dina hiji cara atanapi anu sanés, ngadorong sato pikeun nunjukkeun intelegensi atanapi paripolah anu tangtu. Sanajan kitu, udar operan, sakumaha dipaké dina panalungtikan sato, teu leuwih ti hiji formulir leuwih jelas tina udar sarua dina dasar nu sato diajar sapanjang hirupna. Kami terus-terusan nampi sinyal penguatan positip ti lingkungan sareng nyaluyukeun kabiasaan urang sasuai. Nyatana, seueur élmuwan saraf sareng élmuwan kognitif yakin yén manusa sareng sato sanés leres-leres beroperasi dina tingkat anu langkung luhur sareng teras-terasan diajar ngaduga hasil tina paripolahna dina kaayaan anu bakal datang dumasar kana ganjaran poténsial.

Peran sentral prediksi dina diajar tina pangalaman ngarobah dinamika ditétélakeun di luhur ku cara signifikan. Sinyal anu tadina dianggap jarang pisan (ganjaran episodik) tétéla padet pisan. Sacara téoritis, kaayaanna sapertos kieu: iraha waé, otak mamalia ngitung hasil dumasar kana aliran kompleks rangsangan indrawi sareng tindakan, sedengkeun sato ngan saukur immersed dina aliran ieu. Dina hal ieu, paripolah ahir sato masihan sinyal anu kuat anu kedah dianggo pikeun nungtun panyesuaian ramalan sareng kamekaran paripolah. Otak nganggo sadaya sinyal ieu pikeun ngaoptimalkeun ramalan (sareng, sasuai, kualitas tindakan anu dilaksanakeun) di hareup. Tinjauan pendekatan ieu dirumuskeun dina buku anu saé "Surfing kateupastian"Élmuwan kognitif sareng filsuf Andy Clark. Lamun urang extrapolate penalaran misalna mun latihan agén jieunan, mangka hiji cacad fundamental dina learning tulangan wangsit: sinyal dipaké dina paradigma ieu hopelessly lemah dibandingkeun naon bisa jadi (atawa kudu). Dina kasus dimana teu mungkin pikeun ngaronjatkeun jenuh sinyal (panginten sabab inherently lemah atawa pakait sareng réaktivitas-tingkat low), eta meureun leuwih hadé mun resep metoda latihan anu parallelized ogé, contona, ES.

Pelatihan jaringan saraf anu langkung saé

Ngawangun dina prinsip aktivitas neural luhur alamiah dina otak mamalia, nu terus sibuk nyieun prediksi, kamajuan panganyarna geus dilakukeun dina learning tulangan, nu ayeuna nyokot kana akun pentingna prediksi misalna. Abdi tiasa langsung nyarankeun dua karya anu sami ka anjeun:

Dina duanana makalah ieu, panulis nambihan kawijakan standar khas tina jaringan sarafna kalayan hasil prediksi ngeunaan kaayaan lingkungan di hareup. Dina artikel kahiji, forecasting diterapkeun kana rupa-rupa variabel pangukuran, sarta dina kadua, forecasting diterapkeun kana parobahan dina lingkungan jeung paripolah agén misalna. Dina duanana kasus, sinyal sparse pakait sareng tulangan positif jadi loba richer tur leuwih informatif, sahingga pikeun duanana learning gancang sarta akuisisi paripolah leuwih kompleks. Perbaikan sapertos kitu ngan sayogi sareng metode anu nganggo sinyal gradién, sareng henteu nganggo metode anu beroperasi dina prinsip "kotak hideung", sapertos ES.

Salaku tambahan, diajar tina pangalaman sareng metode gradién langkung efektif. Malah dina kasus dimana ieu mungkin pikeun diajar masalah husus ngagunakeun métode ES leuwih gancang ti ngagunakeun learning tulangan, gain kahontal alatan kanyataan yén strategi ES aub sababaraha kali leuwih data ti RL. Reflecting dina hal ieu dina prinsip diajar sato, urang dicatet yén hasil diajar tina conto batur manifests sorangan sanggeus sababaraha generasi, bari kadang hiji kajadian tunggal ngalaman ku sorangan cukup pikeun sato diajar palajaran salawasna. Bari resep latihan tanpa conto Sanaos henteu pas kana metode gradién tradisional, éta langkung kaharti tibatan ES. Aya, contona, pendekatan sapertos kontrol épisodik saraf, dimana nilai-Q disimpen nalika latihan, saatos éta program pariksa aranjeunna sateuacan ngalakukeun tindakan. Hasilna mangrupikeun metode gradién anu ngamungkinkeun anjeun diajar kumaha ngabéréskeun masalah langkung gancang tibatan sateuacanna. Dina artikel ngeunaan kontrol épisodik saraf, panulis nyebatkeun hippocampus manusa, anu sanggup nahan inpormasi ngeunaan hiji kajadian sanajan saatos pangalaman tunggal sareng, ku kituna, maén. peran kritis dina prosés nginget-nginget. Mékanisme sapertos kitu peryogi aksés kana organisasi internal agén, anu ogé, ku harti, teu mungkin dina paradigma ES.

Janten, naha henteu ngagabungkeun aranjeunna?

Éta kamungkinan yén seueur tulisan ieu tiasa ngantunkeun kesan yén kuring nyokong metode RL. Najan kitu, kuring sabenerna mikir yén dina jangka panjang leyuran pangalusna nyaéta ngagabungkeun duanana métode ambéh maranéhanana dipaké dina situasi nu eta paling cocog. Jelas, dina kasus loba kawijakan réaktif atawa dina situasi kalayan sinyal pisan sparse tina tulangan positif, ES meunang, utamana lamun anjeun boga kakuatan komputasi dina pembuangan anjeun nu bisa ngajalankeun latihan paralel massively. Di sisi séjén, métode gradién ngagunakeun learning reinforcement atawa supervised learning bakal mangpaat lamun urang boga aksés ka eupan balik éksténsif jeung kudu diajar kumaha carana ngajawab masalah gancang tur kalawan data kirang.

Ngahurungkeun alam, urang mendakan yén metodeu anu kahiji, dina dasarna, nempatkeun pondasi pikeun anu kadua. Éta sababna, salami évolusi, mamalia parantos ngembangkeun otak anu ngamungkinkeun aranjeunna diajar sacara efektif tina sinyal kompleks anu asalna ti lingkungan. Janten, patarosan tetep kabuka. Panginten strategi évolusionér bakal ngabantosan urang nyiptakeun arsitéktur diajar anu épéktip anu ogé bakal mangpaat pikeun padika pembelajaran gradién. Barina ogé, solusi kapanggih ku alam memang pisan suksés.

sumber: www.habr.com

Tambahkeun komentar