🥇Pelajaran penguatan utawa strategi evolusi? — Kalorone

Hey Habr!

Kita ora kerep mutusake ngirim terjemahan teks sing umure rong taun, tanpa kode lan jelas babagan akademisi - nanging dina iki kita bakal nggawe pangecualian. Muga-muga dilema sing ditimbulake ing judhul artikel kasebut nggawe kuwatir para pamaca, lan sampeyan wis maca karya dhasar babagan strategi evolusioner sing diumumake postingan iki ing asline utawa bakal diwaca saiki. Sugeng rawuh ing kucing!

Ing Maret 2017, OpenAI nggawe gelombang ing komunitas sinau jero kanthi kertas "Sastranegara Evolusi minangka Alternatif Scalable kanggo Learning Reinforcement.” Karya iki nggambarake asil sing nyengsemake amarga kasunyatane sinau penguatan (RL) durung dadi baji, lan nalika nglatih jaringan saraf kompleks, disaranake nyoba cara liya. A debat banjur njeblug babagan pentinge learning penguatan lan carane pantes status minangka "kudu-kudu" teknologi kanggo piwulangan pemecahan masalah. Ing kene aku arep ngomong yen rong teknologi iki ora kudu dianggep minangka saingan, siji sing jelas luwih apik tinimbang liyane; Kosok baline, padha pungkasane nglengkapi saben liyane. Pancen, yen sampeyan mikir sethithik babagan apa sing dibutuhake kanggo nggawe umum AI lan sistem kasebut, sing sajrone orane bakal bisa sinau, ngira-ngira lan ngrancang, mula kita mesthi bakal nemokake kesimpulan yen solusi gabungan iki bakal dibutuhake. Miturut cara kasebut, solusi gabungan iki sing ditindakake dening alam, sing menehi mamalia lan kewan sing luwih dhuwur kanthi intelijen kompleks sajrone evolusi.

Sastranegara evolusioner

Tesis utama kertas OpenAI yaiku, tinimbang nggunakake pembelajaran penguatan sing digabungake karo backpropagation tradisional, dheweke kasil nglatih jaringan saraf kanggo ngatasi masalah sing rumit nggunakake apa sing diarani "strategi evolusi" (ES). Pendekatan ES iki kalebu njaga distribusi bobot ing jaringan, nglibatake pirang-pirang agen sing makarya bebarengan lan nggunakake paramèter sing dipilih saka distribusi iki. Saben agen makaryakke ing lingkungan dhewe, lan sawise rampung nomer tartamtu saka episode utawa orane tumrap sekolah saka episode, algoritma ngasilake ganjaran kumulatif, ditulis minangka skor fitness. Nanggepi nilai kasebut, distribusi paramèter bisa dialihake menyang agen sing luwih sukses, nyuda sing kurang sukses. Kanthi mbaleni operasi kasebut kaping pirang-pirang kanthi partisipasi atusan agen, sampeyan bisa mindhah distribusi bobot menyang papan sing ngidini para agen ngrumusake kabijakan sing berkualitas kanggo ngrampungake tugas sing ditugasake. Pancen, asil sing ditampilake ing artikel kasebut nyengsemaken: ditampilake yen sampeyan mbukak sewu agen kanthi podo karo, mula gerakan antropomorfik ing sikil loro bisa disinaoni kurang saka setengah jam (nalika metode RL sing paling maju mbutuhake mbuwang luwih akeh. luwih saka siji jam iki). Kanggo informasi sing luwih rinci, aku nyaranake maca sing apik banget kirim saka penulis eksperimen, uga artikel ilmiah.

Strategi sing beda-beda kanggo mulang antropomorfik mlaku tegak, disinaoni nggunakake metode ES saka OpenAI.

Kothak ireng

Keuntungan gedhe saka metode iki yaiku bisa gampang diparalel. Nalika cara RL, kayata A3C, mbutuhake informasi sing diijolke antarane benang pekerja lan server parameter, ES mung butuh perkiraan fitness lan informasi distribusi parameter umum. Amarga kesederhanaan iki, metode iki luwih maju tinimbang metode RL modern ing babagan kemampuan skala. Nanging, kabeh iki ora muspra: sampeyan kudu ngoptimalake jaringan miturut prinsip kothak ireng. Ing kasus iki, "kothak ireng" tegese sajrone latihan struktur internal jaringan ora digatekake, lan mung asil sakabèhé (ganjaran kanggo episode) sing digunakake, lan gumantung saka bobot jaringan tartamtu. bisa diwarisake dening generasi sabanjure. Ing kahanan kita ora nampa akeh saran saka lingkungan-lan ing akeh masalah RL tradisional aliran ganjaran banget arang-masalah dadi saka "kotak ireng sebagean" kanggo "kotak ireng rampung." Ing kasus iki, sampeyan bisa nambah produktivitas kanthi signifikan, mula, mesthine, kompromi kasebut dibenerake. "Sapa sing butuh gradien yen pancen rame banget?" - iki pendapat umum.

Nanging, ing kahanan sing umpan balik luwih aktif, mula ana masalah kanggo ES. Tim OpenAI nerangake carane jaringan klasifikasi MNIST prasaja dilatih nggunakake ES, lan wektu iki latihan 1000 kaping luwih alon. Kasunyatane yaiku sinyal gradien ing klasifikasi gambar banget informatif babagan carane ngajar klasifikasi jaringan sing luwih apik. Mangkono, masalah kurang karo teknik RL lan luwih akeh kanthi ganjaran sing jarang ing lingkungan sing ngasilake gradien rame.

Solusi alam

Yen kita nyoba sinau saka conto alam, mikir babagan cara ngembangake AI, banjur ing sawetara kasus AI bisa dianggep minangka pendekatan masalah-oriented. Sawise kabeh, alam beroperasi ing watesan sing ora diduweni para ilmuwan komputer. Ana panemu manawa pendekatan teoretis murni kanggo ngrampungake masalah tartamtu bisa menehi solusi sing luwih efektif tinimbang alternatif empiris. Nanging, aku isih mikir bakal migunani kanggo nyoba kepiye sistem dinamis sing beroperasi ing watesan tartamtu (Bumi) ngasilake agen (kewan, utamane mamalia) sing bisa tumindak fleksibel lan kompleks. Nalika sawetara alangan kasebut ora ditrapake ing jagad ilmu data sing disimulasi, liyane uga apik.

Sawise nliti prilaku intelektual mamalia, kita bisa ndeleng manawa kedadeyan kasebut minangka akibat saka pengaruh saling kompleks saka rong proses sing saling gegandhengan: sinau saka pengalaman wong liya и sinau kanthi nindakake. Tilas asring disamakan karo evolusi sing didorong dening seleksi alam, nanging ing kene aku nggunakake istilah sing luwih jembar kanggo nganggep epigenetik, mikrobioma, lan mekanisme liyane sing bisa nuduhake pengalaman antarane organisme sing ora ana hubungane kanthi genetis. Proses kapindho, sinau saka pengalaman, yaiku kabeh informasi sing bisa disinaoni kewan sajrone urip, lan informasi iki langsung ditemtokake dening interaksi kewan iki karo donya njaba. Kategori iki kalebu kabeh saka sinau kanggo ngenali obyek kanggo nguwasani komunikasi gawan ing proses learning.

Secara kasar, rong proses sing kedadeyan ing alam iki bisa dibandhingake karo rong pilihan kanggo ngoptimalake jaringan saraf. Strategi evolusi, ing ngendi informasi babagan gradien digunakake kanggo nganyari informasi babagan organisme, nyedhaki sinau saka pengalaman wong liya. Kajaba iku, cara gradien, ing ngendi entuk pengalaman siji utawa liyane ndadékaké owah-owahan ing prilaku agen, bisa dibandhingake karo sinau saka pengalaman dhewe. Yen kita mikir babagan jinis prilaku cerdas utawa kabisan sing saben loro pendekatan kasebut berkembang ing kewan, perbandingan kasebut dadi luwih jelas. Ing kasus loro kasebut, "metode evolusi" ningkatake sinau babagan tindak tanduk reaktif sing ngidini wong ngembangake kabugaran tartamtu (cukup kanggo tetep urip). Sinau lumaku utawa uwal saka panangkaran ing pirang-pirang kasus padha karo tindak tanduk "naluriah" sing "hard-wired" ing akeh kewan ing tingkat genetik. Kajaba iku, conto iki negesake manawa metode evolusi bisa ditrapake ing kasus nalika sinyal ganjaran arang banget (contone, kasunyatan sukses ngunggahake bayi). Ing kasus kaya mengkono, ora mungkin kanggo nggandhengake ganjaran karo tumindak tartamtu sing bisa ditindakake pirang-pirang taun sadurunge kedadeyan kasebut. Ing sisih liya, yen kita nimbang kasus sing gagal ES, yaiku klasifikasi gambar, asil kasebut bisa dibandhingake karo asil sinau kewan sing ditindakake ing eksperimen psikologis prilaku sing ora kaetung sing ditindakake sajrone 100 taun luwih.

Sinau saka Kewan

Cara sing digunakake ing sinau penguatan ing akeh kasus dijupuk langsung saka sastra psikologi ing pengkondisian operan, lan kahanan operant ditliti nggunakake psikologi kewan. Miturut cara, Richard Sutton, salah siji saka loro ngedegaken learning penguatan, wis gelar sarjana ing psikologi. Ing konteks kahanan operant, kewan sinau kanggo nggandhengake ganjaran utawa paukuman karo pola prilaku tartamtu. Pelatih lan peneliti bisa ngapusi asosiasi ganjaran iki kanthi cara siji utawa liyane, nyebabake kewan kanggo nduduhake intelijen utawa prilaku tartamtu. Nanging, kahanan operan, kaya sing digunakake ing riset kewan, ora liya minangka wangun sing luwih jelas saka kahanan sing padha ing basis saka kewan sinau ing saindhenging urip. Kita terus-terusan nampa sinyal penguatan positif saka lingkungan lan nyetel prilaku sing cocog. Nyatane, akeh neuroscientists lan ilmuwan kognitif pracaya manungsa lan kewan liyane bener operate ing tingkat sing luwih dhuwur lan terus sinau kanggo prédhiksi asil saka prilaku ing kahanan mangsa adhedhasar ganjaran potensial.

Peran utama prediksi ing sinau saka pengalaman ngganti dinamika sing kasebut ing ndhuwur kanthi cara sing signifikan. Sinyal sing sadurunge dianggep arang banget (ganjaran episodik) dadi padhet banget. Secara teoritis, kahanan kaya mangkene: ing sembarang wektu, otak mamalia ngetung asil adhedhasar aliran rangsangan sensori lan tumindak sing kompleks, dene kewan kasebut mung nyemplungake ing aliran iki. Ing kasus iki, prilaku pungkasan kewan menehi sinyal sing kuat sing kudu digunakake kanggo nuntun imbuhan ramalan lan pangembangan prilaku. Otak nggunakake kabeh sinyal kasebut kanggo ngoptimalake ramalan (lan, kanthi mangkono, kualitas tumindak sing ditindakake) ing mangsa ngarep. Ringkesan pendekatan iki diwenehake ing buku sing apik banget "Surfing kahanan sing durung mesthi"Ilmuwan kognitif lan filsuf Andy Clark. Yen kita extrapolate penalaran kuwi kanggo latihan agen gawean, banjur cacat dhasar ing learning penguatan dicethakaké: sinyal sing digunakake ing paradigma iki hopelessly banget dibandhingake apa bisa (utawa kudu). Ing kasus-kasus sing ora bisa nambah jenuh sinyal (mbok menawa amarga sifate lemah utawa digandhengake karo reaktivitas tingkat rendah), luwih becik milih cara latihan sing paralel, contone, ES.

Pelatihan jaringan saraf sing luwih sugih

Mbangun prinsip aktivitas saraf sing luwih dhuwur sing ana ing otak mamalia, sing terus-terusan sibuk nggawe prediksi, kemajuan anyar wis digawe ing pembelajaran penguatan, sing saiki nganggep pentinge prediksi kasebut. Aku bisa langsung menehi rekomendasi loro karya sing padha kanggo sampeyan:

Ing loro makalah kasebut, panulis nambah kabijakan standar khas jaringan saraf kanthi asil prediksi babagan kahanan lingkungan ing mangsa ngarep. Ing artikel pisanan, prakiraan ditrapake kanggo macem-macem variabel pangukuran, lan ing kaloro, prakiraan ditrapake kanggo owah-owahan ing lingkungan lan prilaku agen kasebut. Ing kasus kasebut, sinyal jarang sing ana gandhengane karo penguatan positif dadi luwih sugih lan luwih informatif, ngidini sinau luwih cepet lan entuk prilaku sing luwih rumit. dandan kuwi mung kasedhiya karo cara sing nggunakake sinyal gradien, lan ora karo cara sing operate ing prinsip "kotak ireng", kayata ES.

Kajaba iku, sinau saka pengalaman lan metode gradien luwih efektif. Malah ing kasus sing bisa nyinaoni masalah tartamtu kanthi nggunakake metode ES luwih cepet tinimbang nggunakake pembelajaran penguatan, gain kasebut digayuh amarga strategi ES melu data kaping pirang-pirang tinimbang karo RL. Nggambarake ing kasus iki babagan prinsip sinau ing kewan, kita nyathet yen asil sinau saka conto wong liya katon sawise pirang-pirang generasi, dene kadhangkala kedadeyan siji sing dialami dhewe cukup kanggo kewan sinau pelajaran ing salawas-lawase. Nalika kaya latihan tanpa conto Sanajan ora cocog karo metode gradien tradisional, nanging luwih gampang dingerteni tinimbang ES. Ana, contone, pendekatan kayata kontrol episodik saraf, ing ngendi Q-nilai disimpen sajrone latihan, sawise program kasebut mriksa sadurunge tumindak. Asil kasebut minangka metode gradien sing ngidini sampeyan sinau babagan ngatasi masalah luwih cepet tinimbang sadurunge. Ing artikel babagan kontrol episodik saraf, penulis nyebutake hippocampus manungsa, sing bisa nahan informasi babagan acara sanajan sawise pengalaman siji lan, mulane, muter. peran kritis ing proses ngeling-eling. Mekanisme kasebut mbutuhake akses menyang organisasi internal agen, sing uga, kanthi definisi, ora mungkin ing paradigma ES.

Dadi, kenapa ora gabungke?

Mesthine akeh artikel iki bisa menehi kesan yen aku nyengkuyung metode RL. Nanging, Aku bener mikir sing ing roto dawa solusi paling apik kanggo gabungke loro cara, supaya saben digunakake ing kahanan kang paling cocog. Temenan, ing kasus akeh kabijakan reaktif utawa ing kahanan kanthi sinyal penguatan positif sing arang banget, ES menang, utamane yen sampeyan duwe daya komputasi sing bisa digunakake kanggo latihan paralel massively. Ing sisih liya, metode gradien nggunakake sinau penguatan utawa sinau sing diawasi bakal migunani nalika kita duwe akses menyang umpan balik ekstensif lan kudu sinau carane ngatasi masalah kanthi cepet lan kurang data.

Nguripake menyang alam, kita nemokake yen cara pisanan, ing intine, nggawe dhasar kanggo sing kapindho. Mulane, sajrone evolusi, mamalia wis ngembangake otak sing ngidini dheweke sinau kanthi efektif saka sinyal kompleks sing teka saka lingkungan. Dadi, pitakonan tetep mbukak. Mbok menawa strategi evolusi bakal mbantu kita nemokake arsitektur pembelajaran sing efektif sing uga migunani kanggo metode pembelajaran gradien. Sawise kabeh, solusi sing ditemokake dening alam pancen sukses banget.

Source: www.habr.com

Pembelajaran penguatan utawa strategi evolusi? - Loro-lorone